回答:
Evernote APIには、画像内にテキストが存在するテキストと長方形を取得する機能があります。http://evernote.com/about/developer/api/evernote-api.htmを参照し、「Evernote認識インデックスXML形式」とそれを取得する機能を確認してください。問題は、彼らが伝統的なOCRをしないということです...彼らのOCRアルゴリズムは、画像上の単一の「単語」に対して異なる単語を生成するかもしれません。彼らがそれを使用するのは検索だけなので、これは彼らにとっては問題ありませんが、認識エンジンとしてそれを使用するのは問題ありません。(それらは各単語の選択肢に重みを与えますが、おそらくそれを使用できます)
Evernoteからすべての画像を取得できれば、GoogleドキュメントでOCRを実行できます。
画像のフォルダをGoogleドキュメントにアップロードし、ドキュメントに変換して、画像とOCRedテキストの両方を含めることができます。
その後、これらのすべてのドキュメントをプレーンテキストとして一括ダウンロードし、画像を削除します。
すべてのEvernote画像にハッシュ(たとえばmd5
)を付けた場合、Googleドキュメントからダウンロードしたプレーンテキストファイルを元の画像に簡単にリンクできます。
私はWindowsを使用しており、Adobe Acrobat ProとWordを使用しているため、次のことを行います。