講述「jTessBoxEditor」這套「工具」, 延續「上一篇」(Tesseract OCR) 文章過來,「jTessBoxEditor」其實就是「調整」字庫工具,使用者 提供 來源「圖片」,「jTessBoxEditor」就會產生「對應」座標,達到「字串」解析,首先「瞭解」基礎功能。
「jTessBoxEditor」可以直接進行「圖文解析」,主要是依賴「tesseract-ocr\tessdata」內「xxx.traineddata」字元庫。
進行「簡單」測試,使用「tesseract-ocr」內「tesseract」,解析「圖片」內容。
設定「來源」與「目的」位置
tesseract "D:\Download\OCR\1.gif" "D:\Download\OCR\1.txt"
成功解析
接下來我們打開「jTessBoxEditor」介面
「Tools」=>「Merge TIFF」可以進行「多張」TIFF 圖片檔,進行「合併」,如果您有許多「圖」檔,需要進行「字庫」識別,非常好用。
當我們將「多張」.TIFF 圖檔進行「合併」以後,就可以後續「配置」,使用「tesseract」產生對應「.box」文件
tesseract "D:\Download\OCR\3.tif" "D:\Download\OCR\3" batch.nochop makebox
注意「*.tif」與「*.box」檔案名稱需「一致」
開啟「jTessBoxEditor」=>「Box Editor」=>「Open」=>「*.tif」
這邊就會看到「兩張」圖形,就可以進行「字庫」修改。
產生「*.tr」文件
tesseract "D:\Download\OCR\3.tif" "D:\Download\OCR\3" nobatch box.train
產生「3.tr」
後續就是「字元庫 封存」及「合併 字元庫」產生「x.traineddata」並將「檔案」上傳 服務器 到相對應「位置」請參考「S魚仔仔S - Centos 7 搭建 Tesseract OCR 圖文辨識系統 (一)」
沒有留言:
張貼留言