講述「jTessBoxEditor」這套「工具」, 延續「上一篇」(Tesseract OCR) 文章過來,「jTessBoxEditor」其實就是「調整」字庫工具,使用者 提供 來源「圖片」,「jTessBoxEditor」就會產生「對應」座標,達到「字串」解析,首先「瞭解」基礎功能。
「jTessBoxEditor」可以直接進行「圖文解析」,主要是依賴「tesseract-ocr\tessdata」內「xxx.traineddata」字元庫。
進行「簡單」測試,使用「tesseract-ocr」內「tesseract」,解析「圖片」內容。
設定「來源」與「目的」位置
tesseract "D:\Download\OCR\1.gif" "D:\Download\OCR\1.txt"
成功解析
接下來我們打開「jTessBoxEditor」介面
「Tools」=>「Merge TIFF」可以進行「多張」TIFF 圖片檔,進行「合併」,如果您有許多「圖」檔,需要進行「字庫」識別,非常好用。
當我們將「多張」.TIFF 圖檔進行「合併」以後,就可以後續「配置」,使用「tesseract」產生對應「.box」文件
tesseract "D:\Download\OCR\3.tif" "D:\Download\OCR\3" batch.nochop makebox
注意「*.tif」與「*.box」檔案名稱需「一致」
開啟「jTessBoxEditor」=>「Box Editor」=>「Open」=>「*.tif」
這邊就會看到「兩張」圖形,就可以進行「字庫」修改。
產生「*.tr」文件
tesseract "D:\Download\OCR\3.tif" "D:\Download\OCR\3" nobatch box.train
產生「3.tr」