一文了解文字識別OCR開源框架的對比
前言:
OCR文字識別在目前有著比較好的應用,也出現(xiàn)了很多的文字識別軟件,但軟件是面向用戶的。對于我們技術(shù)人員來說,有時難免需要在計算機視覺任務中加入文字識別,如車牌號識別,票據(jù)識別等,因此軟件對我們是沒用的,我們需要自己實現(xiàn)文字識別。
在文字識別方面,主要有兩款主流的開源框架Tesseract和EasyOCR。本文討論了 Tesseract 和 EasyOCR 使用 Python API 之間的主要區(qū)別,包括安裝、使用示例、準確率和推理速度方面的對比。
更多內(nèi)容請關(guān)注公眾號CV技術(shù)指南,專注于計算機視覺的技術(shù)總結(jié),最新技術(shù)跟蹤。
使用示例
Tesseract
安裝: pip install pytesseract pillow
使用示例:
from PIL import Image import pytesseract text=pytesseract.image_to_string(Image.open(filename)) print(text) |
這只是一個簡單的使用示例,在實際應用中,圖像并非理想情況,還需要對圖像進行一定的預處理以更好地識別。如去除椒鹽噪聲,去除干擾物,如在車牌識別中還會利用矩形框檢測框出車牌所在位置,并放大,以更好地進行車牌號識別。
EasyOCR
安裝:pip install easyocr
使用示例
import easyocr reader = easyocr.Reader(['ch_sim', 'en']) text = reader.readtext('filename') print(text) |
注:easyocr還會輸出文字在圖片中的坐標。
準確率
在參考鏈接[2]中進行了一項實驗,使用1000張含字母的圖片和1000張含數(shù)字的圖片分別使用Tesseract和EasyOCR進行測試。
含字母的輸入圖像如下圖所示:
含數(shù)字的輸入圖像如下圖所示:
經(jīng)過測試得出下面兩個開源框架的準確率對比
如上圖所示,Tesseract 在字母識別方面做得更好,而 EasyOCR 在數(shù)字識別方面做得更好。
此外,它們在識別某些字符時存在完全不同的問題。例如,Tesseract 傾向于將諸如 29977.23 之類的東西識別為 2997.23,或者將carrier 識別為 cartier。另一方面,EasyOCR 更有可能將 94268.1 識別為 94268,或者advances 識別為 atvances。這兩個單詞識別的舉例表明這兩個框架對單個字母的識別傾向。
推理速度
在速度方面,Tesseract 在 CPU 上的表現(xiàn)優(yōu)于 EasyOCR,而 EasyOCR 在 GPU 上的表現(xiàn)更好。
結(jié)論
Tesseract 在字母識別方面表現(xiàn)更好,而 EasyOCR 在數(shù)字方面表現(xiàn)更好。如果圖片包含大量字母,可以考慮 Tesseract。此外,EasyOCR 的輸出是小寫的。如果大寫對處理很重要,還應該使用 Tesseract。另一方面,如果圖片中包含大量數(shù)字,建議 EasyOCR。
在公眾號中回復關(guān)鍵字 “技術(shù)總結(jié)” 可獲取以下文章的匯總pdf。
更多內(nèi)容請關(guān)注公眾號CV技術(shù)指南,專注于計算機視覺的技術(shù)總結(jié),最新技術(shù)跟蹤。

請輸入評論內(nèi)容...
請輸入評論/評論長度6~500個字
最新活動更多
-
即日-9.1立即下載>> 【限時下載】ADI中國三十周年感恩回饋助力企業(yè)升級!
-
即日-9.16點擊進入 >> 【限時福利】TE 2025國際物聯(lián)網(wǎng)展·深圳站
-
10月23日立即報名>> Works With 開發(fā)者大會深圳站
-
10月24日立即參評>> 【評選】維科杯·OFweek 2025(第十屆)物聯(lián)網(wǎng)行業(yè)年度評選
-
11月27日立即報名>> 【工程師系列】汽車電子技術(shù)在線大會
-
12月18日立即報名>> 【線下會議】OFweek 2025(第十屆)物聯(lián)網(wǎng)產(chǎn)業(yè)大會
推薦專題
- 1 阿里首位程序員,“掃地僧”多隆已離職
- 2 先進算力新選擇 | 2025華為算力場景發(fā)布會暨北京xPN伙伴大會成功舉辦
- 3 宇樹機器人撞人事件的深度剖析:六維力傳感器如何成為人機安全的關(guān)鍵屏障
- 4 清華跑出具身智能獨角獸:給機器人安上眼睛和大腦,融資近20億
- 5 特朗普要求英特爾首位華人 CEO 辭職
- 6 踢館大廠和微軟,剖析WPS靈犀的AI實用主義
- 7 騰訊 Q2 財報亮眼:AI 已成第二增長曲線
- 8 谷歌吹響AI沖鋒號,AI還有哪些機會
- 9 蘋果把身家押在Siri上:一場輸不起的自我革命
- 10 共探合作新機遇!江門市新會區(qū)(深圳)“AI + 機器人” 產(chǎn)業(yè)對接會成功舉辦