Python實現發票自動校核微信機器人的方法
制作初衷:
外地開了票到公司后發現信息有錯誤,無法報銷; 公司的行政和財務經常在工作日被問及公司開票信息,影響心情和工作; 引入相應的專業APP來解決發票問題對于一般公司成本較高; 看到朋友孟要早睡寫過腳本來解決這個問題,但因為公司場景不相同,無法復用,所以新寫了一個本代碼使用簡單的封裝方法,并做了比較走心的注釋,希望能給初學Python的小伙伴提供一些靈感,也能讓有實際需求的人可以快速修改、使用。
源碼地址:https://github.com/yc2code/WechatInvoiceParser
P.S. 工具基于微信網頁版,因為微信官方對于賬號有限制,新建的賬號可能無法使用,會報:KeyError: ’pass_ticket’,如圖:
所以工具只能使用注冊時間較早的賬號
發票自動校核微信機器人代碼部分
1. 工具文件 ? Utils包含三個部分:發票校核類 Invoice、解析數據類 DataParser 和推送日志類 Pushover
Invoice 調用的百度API,上傳圖片信息,得到解析數據; DataParser 對得到的解析數據進行整理,得到發送給用戶的信息; Pushover 出現調用問題時,第一時間相關信息推送到維護者的設備上。# -*- coding: utf-8 -*-# Utils.pyimport base64import csvimport osimport timeimport requestsfrom Config import configclass Invoice: ''' 發票識別類 使用百度發票識別API,免費使用 官方地址 https://ai.baidu.com/docs#/OCR-API/5099e085 其它功能及配置請移步官網 ''' @staticmethod def get_pic_content(image_path): ''' 方法--打開圖片 以二進制格式打開 ''' with open(image_path, ’rb’) as pic: return pic.read() @staticmethod def parse_invoice(image_binary): ''' 方法--識別圖片 調用百度接口,返回識別后的發票數據 以下內容基本根據API調用的要求所寫,無需糾結 各類報錯碼在官網文檔可查 百度API注冊及使用教程:http://ai.baidu.com/forum/topic/show/867951 ''' # 識別質量可選high及normal # normal(默認配置)對應普通精度模型,識別速度較快,在四要素的準確率上和high模型保持一致, # high對應高精度識別模型,相應的時延會增加,因為超時導致失敗的情況也會增加(錯誤碼282000) access_token = '你的access_token' api_url = f'https://aip.baidubce.com/rest/2.0/ocr/v1/vat_invoice?access_token={access_token}' quality = 'high' header = {'Content-Type': 'application/x-www-form-urlencoded'} # 圖像數據,base64編碼后進行urlencode,要求base64編碼和urlencode后大小不超過4M, # 最短邊至少15px,最長邊最大4096px,支持jpg/jpeg/png/bmp格式 image_data = base64.b64encode(image_binary) try: data = {'accuracy': quality, 'image': image_data} response = requests.post(api_url, data=data, headers=header) if response.status_code != 200: print(time.ctime()[:-5], 'Failed to get info') return None else: result = response.json()['words_result'] invoice_data = { ’檢索日期’: ’-’.join(time.ctime().split()[1:3]), ’發票代碼’: result[’InvoiceCode’], ’發票號碼’: result[’InvoiceNum’], ’開票日期’: result[’InvoiceDate’], ’合計金額’: result[’TotalAmount’], ’價稅合計’: result[’AmountInFiguers’], ’銷售方名稱’: result[’SellerName’], ’銷售方稅號’: result[’SellerRegisterNum’], ’購方名稱’: result[’PurchaserName’], ’購方稅號’: result[’PurchaserRegisterNum’], '發票類型': result['InvoiceType'] } return invoice_data except: message = '發票識別API調用出現錯誤' Pushover.push_message(message) return None finally: print(time.ctime()[:-5], '產生一次了調用') @staticmethod def save_to_csv(invoice_data): ''' 方法--日志保存 將識別記錄寫入文件夾下work_log.csv文件 若無此文件則自動創建并寫入表頭 ''' if 'work_log.csv' not in os.listdir(): not_found = True else: not_found = False with open(’./work_log.csv’, ’a+’) as file: writer = csv.writer(file) if not_found: writer.writerow(invoice_data.keys()) writer.writerow(invoice_data.values()) @staticmethod def run(image_path): ''' 主方法 解析完成返回信息,否則返回None ''' image_binary = Invoice.get_pic_content(image_path) invoice_data = Invoice.parse_invoice(image_binary) if invoice_data: Invoice.save_to_csv(invoice_data) return invoice_data return Noneclass DataParser: ''' 數據分析類 對識別返回后的數據進行整理,并于默認信息對比,查看有無錯誤 這里只簡單實現整理信息和檢查名稱和稅號的方法,有興趣可以增加其他豐富的方法 ''' def __init__(self, invoice_data): self.invoice_data = invoice_data def get_detail_message(self): ''' 對得到的發票信息的格式進行整理 :return: 返回整理好的發票信息 ''' values = [value for value in self.invoice_data.values()] detail_mess = f'完整信息為:' f'n發票代碼: {values[1]}n發票號碼: {values[2]}n開票日期: {values[3]}' f'n合計金額: {values[4]}n價稅合計: {values[5]}n銷售方名稱: {values[6]}' f'n銷售方稅號: {values[7]}n購方名稱: {values[8]}n購方稅號:{values[9]}' return detail_mess def get_brief_message(self): ''' 將信息中的名稱和稅號和默認值進行對比 只做對錯判斷,讀者豐富一下可以增加指出錯誤位置的信息 :return: 返回判斷的信息 ''' if self.invoice_data['購方名稱'] == config['company_name']: brief_mess = '購方名稱正確' else: brief_mess = '!購方名稱錯誤!' if self.invoice_data['購方稅號'] == config['company_tax_number']: brief_mess += 'n購方稅號正確' else: brief_mess += 'n!購方稅號錯誤!' return brief_mess def parse(self): brief_mess = self.get_brief_message() detail_mess = self.get_detail_message() return brief_mess, detail_messclass Pushover: ''' 消息推送類 本次使用Pushover為推送消息軟件(30 RMB,永久,推薦) 官網 https://pushover.net/ 可以向微信一樣把相關信息推送至不同設備 如果不需要可以把相關代碼注釋掉 ''' @staticmethod def push_message(message): message += '>>>來自Python發票校驗' try: requests.post('https://api.pushover.net/1/messages.json', data={ 'token': '你的Token', 'user': '你的User', 'message': message }) except Exception as e: print(time.ctime()[:-5], 'Pushover failed', e, sep='n>>>>>>>>>>n')
2. 微信機器人文件 ? Wechat包含一個部分:微信處理類 Wechat作用是初始化機器人,對微信的消息進行處理,分析并作出回應。
# -*- coding: utf-8 -*-# Wechat.pyimport osfrom wxpy import *class Wechat: ''' 微信處理類 對微信的消息進行處理,分析并作出回應 ''' def __init__(self, group_name, admin_name): self.bot = Bot() # 類被實例化的時候即對機器人實例化 self.group_name = group_name # 指定群聊名 self.admin_name = admin_name # 管理員微信名 self.received_mess_list = [] # 過濾后的消息列表 self.order_list = [] # 管理命令列表 self.pic_list = [] # 待解析圖片絕對路徑列表 def get_group_mess(self): ''' 方法--獲取消息 獲取所有正常消息,進行過濾后存進消息列表 ''' # 調用此方法時先清空上次調用時列表所存儲的數據 self.received_mess_list = [] for message in self.bot.messages: # 如果為指定群聊或管理員的消息,存入group_mess sender = message.sender.name # >>>這里有一點要注意,如果你是用一個微信作為機器人且作為管理員<<< # >>>然后用這個微信號在群聊發消息,則信息sender會之指向自己而不是群聊<<< # >>>建議使用單獨一個微信號作為機器人 if sender == self.group_name or sender == self.admin_name: self.received_mess_list.append(message) # 其他的消息過濾掉 self.bot.messages.remove(message) return None def parse_mess(self): ''' 方法--處理群聊消息 過濾獲得的指定群聊消息 設定所有新增群聊圖片的絕對路徑及群聊中產生的文字命令 ''' # 調用此方法時先清空上次調用時列表所存儲的數據 self.pic_list = [] self.order_list = [] # self.group_order = [] for message in self.received_mess_list: # 如果信息類型為圖片,則保存圖片并添加到圖片列表 if message.type == ’Picture’ and message.file_name.split(’.’)[-1] != ’gif’: self.pic_list.append(Wechat.save_file(message)) # 如果消息類型為文字,則視為命令,保存到命令列表中 if message.type == ’Text’: self.order_list.append(message) return None @staticmethod def save_file(image): ''' 方法--存儲圖片 這里使用靜態方法,是因為本方法和類沒有內部交互,靜態方法可以方便其他程序的調用 解析名稱,設定絕對路徑,存儲 :param image: 接收到的圖片(可以看成是wxpy產生的圖片類,它具有方法和屬性) :return: 返回圖片的絕對路徑 ''' path = os.getcwd() # 如果路徑下沒有Pictures文件夾,則創建,以存放接收到的待識別圖片 if 'Pictures' not in os.listdir(): os.mkdir('Pictures') # 設定一個默認的圖片格式后綴 file_postfix = 'png' try: # 嘗試把圖片的名稱拆分,分別獲取名稱和后綴 file_name, file_postfix = image.file_name.split(’.’) except Exception: # 當然有時候可能拆分不了,就把默認的后綴給它 file_name = image.file_name # 賦予絕對路徑 file_path = path + ’/Pictures/’ + file_name + ’.’ + file_postfix # 將圖片存儲到指定路徑下 image.get_file(file_path) return file_path def send_group_mess(self, message): ''' 方法--發送群消息 :param message: 需要發送的內容 ''' try: # 如果群聊名稱被改變,搜索時會報錯,如果找不到群聊,消息不會發送 group = self.bot.groups().search(self.group_name)[0] group.send(message) except IndexError: print('找不到指定群聊,信息發送失敗') return None def send_parse_log(self): ''' 方法--發送查詢日志 向群聊內發送查詢日志 ''' try: # 如果群聊名稱被改變,搜索時會報錯,如果找不到群聊,消息不會發送 group = self.bot.groups().search(self.group_name)[0] except IndexError: print('找不到指定群聊,查詢日志發送失敗') return None try: group.send_file('./work_log.csv') except: group.send('Oops, no log yet') return None def send_system_log(self): ''' 方法--發送系統日志 向群聊內發送查詢日志 ''' try: # 如果群聊名稱被改變,搜索時會報錯,如果找不到群聊,消息不會發送 group = self.bot.groups().search(self.group_name)[0] except IndexError: print('找不到指定群聊,系統日志發送失敗') return None try: group.send_file('./system_log.text') except: group.send('System log not found') return None
3. 主文件 ? Main包含一個main函數,一部分為發票識別和處理,另一部分對于指令做出反應。
# -*- coding: utf-8 -*-# Main.pyimport timefrom Utils import Invoice, DataParserfrom Config import configfrom Wechat import *# Author : 達希# Email : way2go.dash@gmail.comdef main(): ''' 主方法 一部分為發票識別和處理,另一部分對于指令做出反應 ''' # 輸出重定向,將print語句都寫進系統日志文件 file = open('./system_log.text', 'a+') sys.stdout = file # 實例化微信機器人,傳入群聊名和管理員名 wechat = Wechat(config['group_name'], config['admin_name']) while True: time.sleep(1) wechat.get_group_mess() wechat.parse_mess() # 若群聊有要處理的圖片,則迭代解析 if wechat.pic_list: for pic in wechat.pic_list: invoice_data = Invoice.run(pic) if invoice_data: data_parser = DataParser(invoice_data) brief_mess, detail_mess = data_parser.parse() wechat.send_group_mess(detail_mess) # 先發送發票識別詳細信息 time.sleep(0.5) wechat.send_group_mess(brief_mess) # 返回名稱和稅號是否有錯誤 else: wechat.send_group_mess('請求未成功,請重試或聯系管理員') # 若有相關命令,則做出相應反應 if wechat.order_list: for order in wechat.order_list: if '開票信息' in order.text: wechat.send_group_mess(config['company_name']) time.sleep(0.5) wechat.send_group_mess(config['company_tax_number']) elif 'SEND LOG' in order.text: wechat.send_parse_log() elif 'SEND SYSTEM LOG' in order.text: wechat.send_system_log() elif 'BREAK' in order.text: wechat.send_group_mess('收到關機指令,正在關機') file.close() return Noneif __name__ == '__main__': main()
4. 配置文件 ? Config
包含微信的配置文件信息
config = { 'group_name': '發票校核ASAP', # 校核群聊名稱,由于本代碼默認沒有同名群聊,所以建議設為復雜值 'admin_name': '達希', # 管理員微信名(非備注) 'company_name': '代碼網絡技術無限公司', # 默認購方名稱 'company_tax_number': 'XXX00000000000XXX' # 默認購方稅號}
另外,代碼在運行時會在同文件夾下創建一個Picture的文件夾,用于存儲待解析的圖片,會創建 work_log.csv 文件,用于存儲識別信息的記錄,還有 system_log.text 用于輸出運行相應的日志。
由于本身需求較少,所以以上代碼功能相對單薄,僅僅作為一個輔助的小腳本使用。若要進行優化完善,wxpy庫提供了很多豐富的功能,可以在此基礎上打造更加合理完善的,符合個性化需求的微信機器人。
總結
到此這篇關于Python制作發票自動校核微信機器人的文章就介紹到這了,更多相關Python制作發票自動校核微信機器人內容請搜索好吧啦網以前的文章或繼續瀏覽下面的相關文章希望大家以后多多支持好吧啦網!
相關文章: