古之技術必有師。: S小魚仔S Tesseract OCR 使用 jTessBoxEditor 應用篇 (二)

2017年5月23日星期二

S小魚仔S Tesseract OCR 使用 jTessBoxEditor 應用篇 (二)

講述「jTessBoxEditor」這套「工具」，延續「上一篇」(Tesseract OCR) 文章過來，「jTessBoxEditor」其實就是「調整」字庫工具，使用者提供來源「圖片」，「jTessBoxEditor」就會產生「對應」座標，達到「字串」解析，首先「瞭解」基礎功能。

「jTessBoxEditor」可以直接進行「圖文解析」，主要是依賴「tesseract-ocr\tessdata」內「xxx.traineddata」字元庫。

進行「簡單」測試，使用「tesseract-ocr」內「tesseract」，解析「圖片」內容。

設定「來源」與「目的」位置

tesseract "D:\Download\OCR\1.gif" "D:\Download\OCR\1.txt"

成功解析

接下來我們打開「jTessBoxEditor」介面

「Tools」=>「Merge TIFF」可以進行「多張」TIFF 圖片檔，進行「合併」，如果您有許多「圖」檔，需要進行「字庫」識別，非常好用。

當我們將「多張」.TIFF 圖檔進行「合併」以後，就可以後續「配置」，使用「tesseract」產生對應「.box」文件

tesseract "D:\Download\OCR\3.tif" "D:\Download\OCR\3" batch.nochop makebox

注意「*.tif」與「*.box」檔案名稱需「一致」

開啟「jTessBoxEditor」=>「Box Editor」=>「Open」=>「*.tif」

這邊就會看到「兩張」圖形，就可以進行「字庫」修改。

產生「*.tr」文件

tesseract "D:\Download\OCR\3.tif" "D:\Download\OCR\3" nobatch box.train

產生「3.tr」

後續就是「字元庫封存」及「合併字元庫」產生「x.traineddata」並將「檔案」上傳服務器到相對應「位置」請參考「S魚仔仔S - Centos 7 搭建 Tesseract OCR 圖文辨識系統 (一)」

沒有留言:

訂閱：張貼留言 (Atom)