7rikazhexde’s tech log

技術的な興味関心、備忘録、アウトプットなどを書いています。

Macでtesseractをインストールする

以下の記事でOCRを使用するためにtesseractをインストールしました。
本記事はその時実施した手順の備忘録になります。

7rikazhexde-techlog.hatenablog.com

tesseractインストール

インストール先の環境は下記の通りです。

% sw_vers
ProductName:    macOS
ProductVersion: 12.6.3
BuildVersion:   21G419

公式ページを参考にHomebrewでインストールします。

% brew install tesseract

インストール時に以下のメッセージが表示されます。

This formula contains only the "eng", "osd", and "snum" language data files. If you need any other supported languages, run brew install tesseract-lang.

OCRには対応した言語のデータファイルが必要です。
デフォルトでは"eng", "osd", "snum"がインストールされますが、日本語はインストールされないため、メッセージの通り、brew install tesseract-langを実行して日本語を含む他言語のデータファイルをインストールします。

実行後に日本語の言語データファイルがインストールされているか確認します。
日本語に相当するjpnを指定すると正しくインストールされていることが確認できました。(jpn_vertは縦書き用のファイルになります。)

% tesseract --list-langs -l | grep jpn*
jpn
jpn_vert

<補足>
tesseractコマンドの指定方法(helpオプション)

% tesseract --help                     
Usage:
  tesseract --help | --help-extra | --version
  tesseract --list-langs
  tesseract imagename outputbase [options...] [configfile...]

OCR options:
  -l LANG[+LANG]        Specify language(s) used for OCR.
NOTE: These options must occur before any configfile.

Single options:
  --help                Show this help message.
  --help-extra          Show extra help for advanced users.
  --version             Show version information.
  --list-langs          List available languages for tesseract engine.

動作確認

テスト画像を使用して動作確認しました。
ブログ名をキャプチャしたPNG画像を使用します。

テスト画像

Usageを参考にtesseract imagename outputbase [options...] [configfile...] を実行します。
本コマンドで画像のパスを指定することで、OCRを実行して、認識結果をファイルに出力します。

% tesseract ocr_test.png ocr_test -l jpn

結果

一部文字として正しく認識できていませんが、
解像度変更や前回記事のように画像を切り取り処理して認識箇所を絞れば、十分使えると思います。

% cat ocr_test.txt                      
[久記事を書く 呈

7rikazhexde's tech log

技術的な興味関心、備記録、アウトプットなどを書いています。

MacOS以外のOSへのインストール方法(参考記事紹介)

他のOSに対するインストール方法は下記記事が参考になりますので、共有させていただきます。

Windows向け

www.kkaneko.jp

Ubuntu向け

インストール時はtesseract-ocr-jpn-vertも含めると、記載のgimagereaderで縦書きの文字にも適用できます。

www.kkaneko.jp

以上です。