亚洲精品久久久中文字幕-亚洲精品久久片久久-亚洲精品久久青草-亚洲精品久久婷婷爱久久婷婷-亚洲精品久久午夜香蕉

您的位置:首頁技術文章
文章詳情頁

如何使用Python進行PDF圖片識別OCR

瀏覽:2日期:2022-06-29 11:54:07
使用場景

使用圖片識別可以快速提取圖片中的信息,方便高效。

Python并不能直接對PDF進行識別,所以如果是識別PDF的話,需要先將PDF轉化為圖片,然后再進行識別。

必備工具 Python

可以安裝3.7及以上版本

tesseract-ocr

下載地址: https://github.com/UB-Mannheim/tesseract/wiki 使用最新版本即可

需要用到的庫

pip install pillowpip install opencv-pythonpip install fitzpip install PyMuPDFpip install pytesseract代碼示例

from PIL import Imageimport osimport pytesseract import cv2 as cvimport fitzdef pdf_image(pdfPath,imgPath,zoom_x,zoom_y,rotation_angle): # 打開PDF文件 pdf = fitz.open(pdfPath) # 逐頁讀取PDF for pg in range(0, pdf.pageCount): page = pdf[pg] # 設置縮放和旋轉系數 trans = fitz.Matrix(zoom_x, zoom_y).preRotate(rotation_angle) pm = page.getPixmap(matrix=trans, alpha=False) # 開始寫圖像 pm.writePNG(imgPath+str(pg)+'.png') #pm.writePNG(imgPath) pdf.close()pdf_path =’D:/123.pdf’img_path =’D:/123.png’pdf_image(pdf_path,img_path,5,5,0)# 依賴opencvimg=cv.imread(img_path)text=pytesseract.image_to_string(Image.fromarray(img),lang=’chi_tra’)# 不依賴opencv寫法# text=pytesseract.image_to_string(Image.open(img_path))print(text)總結

識別清晰的文字圖片的時候準確率非常高

但是識別手寫體的話效果不太好

注意事項

在安裝tesseract-ocr 的時候一定要記得選擇對應的語言,不然是無法正常使用的。

以上就是如何使用Python進行PDF圖片識別OCR的詳細內容,更多關于python pdf圖片識別ocr的資料請關注好吧啦網其它相關文章!

標簽: Python 編程
相關文章:
主站蜘蛛池模板: 69国产成人精品午夜福中文 | 亚洲一区二区三区国产精品 | 玛雅视频网站在线观看免费 | 国产国拍亚洲精品av | 国产精品小视频在线观看 | 麻豆视频在线看 | 久久久久无码国产精品一区 | 日韩视频二区 | 在线观看日韩www视频免费 | 欧洲成人免费视频 | 亚洲国产日韩欧美高清片a 亚洲国产日韩欧美一区二区三区 | 亚洲欧美v国产一区二区 | 又爽又黄又无遮挡的视频在线观看 | 在线看麻豆 | 国产在线观看a | 69堂在线观看国产成人 | 老司机日日摸夜夜摸精品影院 | 一个人看的ww免费视频 | 国产欧美二区 | 日韩毛片欧美一级国产毛片 | 成人在线日韩 | 日韩精品久久不卡中文字幕 | 经典香港a毛片免费观看 | 亚洲黄网在线观看 | 亚洲国产午夜看片 | 日本一二三本免费视频 | 亚洲精品xxxxx| 最新永久一路线二路线三路线 | 特大巨黑人吊性xxx视频 | 色偷偷亚洲女人天堂观看欧 | 黄色片在线看 | 亚洲精品国产精品国自产观看 | 欧美精品成人一区二区在线观看 | 综合久久 五十路 二区 | 手机看片日韩国产 | 欧美人成网站免费大全 | 亚洲欧美在线一区二区 | 国产精品三级在线 | 日本免费黄色 | 宅男噜噜噜一区二区三区 | 久久日本精品国产精品白 |