WinAutomation V8リリースのお知らせ(詳細)」でご紹介した通り、WinAutomation V8ではOCRの使用が可能となりました。そこで今回はこのOCR機能のうち、Tesseract OCRの検証を行っていきます。

Tesseract OCR:Googleが開発したOCRエンジン

<作成するプロセス>

PDFファイルを読み込み、その内容をテキストファイルに書き出す

<事前準備>

日本語対応に必要なソフトをインストールします。

ダウンロードサイトURL:https://github.com/tesseract-ocr/tessdata/blob/master/jpn.traineddata

 

<WinAutomation でプロセス登録>

ダウンロード完了後、WinAutomation にて新規プロセスを登録します。

使用するプロセスは次の3つになります。各プロセスの詳細を確認してみましょう。

 

1.Create Tesseract OCR Engine

<事前準備>でダウンロードしたTesseractの日本語対応ファイルはここで使用します。

 

2.Extract Text From OCR

 

※読み込み対象の請求書ファイル(サンプル)

 

3.Write Text to File

 

実行結果(生成されたテキストファイル)

 

まとめ

実行結果からわかる通り、WinAutomationでのOCR実用はまだまだ改善の余地があるため、現状ではOCRについてはWinAutomation以外の使用を推奨します。当ブログでは随時OCRの検証を進め、お知らせしていきます。