日本語OCRのtesseract-ocrを使ってやってみた

OCRをご存知でしょうか?OCRとはOptical Character Readerの略で、文字を読み取る操作のことです。今回は、コマンドプロンプト経由で画像からOCRにより文字をtesseract-ocrに読み取ってもらいます。

tesseract-ocrの準備と実行

では、コマンドプロンプトからtesseractを実行してOCRを行える環境を整えます。

まず、以下のサイトから「tesseract-ocr-setup-3.02.02.exe」をダウンロードして実行します。

>>tesseract-ocrのダウンロードページへ

tesseract-ocr-setup-3.02.02.exeを実行すればセットアップは完了です。ただ、英語バージョンしか入っていないので、「tesseract-ocr-3.02.jpn.tar.gz」もダウンロードして解凍しておきます。解凍には「Lhaplus」が使えます。以下のページからインストールして、ドラッグアンドドロップで解答完了です。

>>Lhaplusのダウンロードページ

解凍したら「tessdata」というフォルダが出てきます。この中に、「jpn.traineddata」があります。これを、「tesseract-ocr-setup-3.02.02.exe」の際にできたフォルダにある「tessdata」に入れればOKです。たぶん、英語用データ「eng.traineddata」も入っていると思います。

以上で準備完了です。あとは、コマンドプロンプトを起動します。そして、コマンドプロンプトに書かれている

C:\Users\Name>

のフォルダの場所に、読み取りたい画像test.jpgをおいて

tesseract test.jpg result -l jpn

とコマンドをうちます。すると、result.txtというファイルができて、読み取った文字が書かれています。ここで「jpn」は日本語の意味です。ここを「eng」にすれば英語になります。

ここでは試しに以下の画像を読み取ってみました。

読み取りのサンプル

結果は

てくれ葦す〝

となりました。なかなかうまく読み取れていますね(汗)。tesseractを使ってプログラムをつくろうと思ったのですが、これではちょっとまずそうなのであきらめることにしました。

著者:安井 真人(やすい まさと)