以下の記事でOCRを使用するためにtesseractをインストールしました。
本記事はその時実施した手順の備忘録になります。
7rikazhexde-techlog.hatenablog.com
tesseractインストール
インストール先の環境は下記の通りです。
% sw_vers ProductName: macOS ProductVersion: 12.6.3 BuildVersion: 21G419
公式ページを参考にHomebrewでインストールします。
% brew install tesseract
インストール時に以下のメッセージが表示されます。
This formula contains only the "eng", "osd", and "snum" language data files. If you need any other supported languages, run
brew install tesseract-lang
.
OCRには対応した言語のデータファイルが必要です。
デフォルトでは"eng", "osd", "snum"がインストールされますが、日本語はインストールされないため、メッセージの通り、brew install tesseract-lang
を実行して日本語を含む他言語のデータファイルをインストールします。
実行後に日本語の言語データファイルがインストールされているか確認します。
日本語に相当するjpnを指定すると正しくインストールされていることが確認できました。(jpn_vertは縦書き用のファイルになります。)
% tesseract --list-langs -l | grep jpn* jpn jpn_vert
<補足>
tesseractコマンドの指定方法(helpオプション)
% tesseract --help Usage: tesseract --help | --help-extra | --version tesseract --list-langs tesseract imagename outputbase [options...] [configfile...] OCR options: -l LANG[+LANG] Specify language(s) used for OCR. NOTE: These options must occur before any configfile. Single options: --help Show this help message. --help-extra Show extra help for advanced users. --version Show version information. --list-langs List available languages for tesseract engine.
動作確認
テスト画像を使用して動作確認しました。
ブログ名をキャプチャしたPNG画像を使用します。
Usageを参考にtesseract imagename outputbase [options...] [configfile...]
を実行します。
本コマンドで画像のパスを指定することで、OCRを実行して、認識結果をファイルに出力します。
% tesseract ocr_test.png ocr_test -l jpn
結果
一部文字として正しく認識できていませんが、
解像度変更や前回記事のように画像を切り取り処理して認識箇所を絞れば、十分使えると思います。
% cat ocr_test.txt [久記事を書く 呈 7rikazhexde's tech log 技術的な興味関心、備記録、アウトプットなどを書いています。
MacOS以外のOSへのインストール方法(参考記事紹介)
他のOSに対するインストール方法は下記記事が参考になりますので、共有させていただきます。
Windows向け
Ubuntu向け
インストール時はtesseract-ocr-jpn-vert
も含めると、記載のgimagereaderで縦書きの文字にも適用できます。
以上です。