S小魚仔S 網誌搜尋

2017年5月23日 星期二

S小魚仔S Tesseract OCR 使用 jTessBoxEditor 應用篇 (二)

講述「jTessBoxEditor」這套「工具」, 延續「上一篇」(Tesseract OCR) 文章過來,「jTessBoxEditor」其實就是「調整」字庫工具,使用者 提供 來源「圖片」,「jTessBoxEditor」就會產生「對應」座標,達到「字串」解析,首先「瞭解」基礎功能。

jTessBoxEditor」可以直接進行「圖文解析」,主要是依賴「tesseract-ocr\tessdata」內「xxx.traineddata」字元庫。

進行「簡單」測試,使用「tesseract-ocr」內「tesseract」,解析「圖片」內容。

設定「來源」與「目的」位置
 tesseract "D:\Download\OCR\1.gif" "D:\Download\OCR\1.txt"

成功解析

接下來我們打開「jTessBoxEditor」介面

Tools」=>「Merge TIFF」可以進行「多張」TIFF 圖片檔,進行「合併」,如果您有許多「」檔,需要進行「字庫」識別,非常好用。

當我們將「多張」.TIFF 圖檔進行「合併」以後,就可以後續「配置」,使用「tesseract」產生對應「.box」文件

tesseract "D:\Download\OCR\3.tif"D:\Download\OCR\3" batch.nochop makebox

注意「*.tif」與「*.box」檔案名稱需「一致


開啟「jTessBoxEditor」=>「Box Editor」=>「Open」=>「*.tif

這邊就會看到「兩張」圖形,就可以進行「字庫」修改。

產生「*.tr」文件

tesseract "D:\Download\OCR\3.tif" "D:\Download\OCR\3" nobatch box.train


產生「3.tr

後續就是「字元庫 封存」及「合併 字元庫」產生「x.traineddata」並將「檔案」上傳 服務器 到相對應「位置請參考「S魚仔仔S - Centos 7 搭建 Tesseract OCR 圖文辨識系統 (一)

沒有留言: