EvernoteからOCRテキストを抽出する


13

Evernoteは、保存した画像に対してOCRを実行します。Evernoteの画像と同等の全文を取得する方法はありますか、またはOCRは検索専用ですか?

回答:


15

Evernote APIには、画像内にテキストが存在するテキストと長方形を取得する機能があります。http://evernote.com/about/developer/api/evernote-api.htmを参照し、「Evernote認識インデックスXML形式」とそれを取得する機能を確認してください。問題は、彼らが伝統的なOCRをしないということです...彼らのOCRアルゴリズムは、画像上の単一の「単語」に対して異なる単語を生成するかもしれません。彼らがそれを使用するのは検索だけなので、これは彼らにとっては問題ありませんが、認識エンジンとしてそれを使用するのは問題ありません。(それらは各単語の選択肢に重みを与えますが、おそらくそれを使用できます)


11

また、Evernoteは特定の画像が正確に1単語に相当するとは判断しません。たとえば、Evernoteは特定の画像が「手掛かり」で「期限切れ」ではないと判断します。むしろ、両方を追跡し、どちらかを検索すると同じ画像が返されます。したがって、Evernoteはフルテキストが実際に何であるかを決定するのではなく、可能性のあるものだけを決定するため、フルテキストの同等物を取得する方法はありません。


5

evernoteは、ocr-stuffの作成者にまともな金額を支払うか、何かを連携させるためにまともな金額を支払いました。したがって、抽出されたテキストを取得できることを本当に疑っています(+画像上の配置)。

(他の人の画像をスキャンし、良いocrを提供するためのビジネスモデルになる可能性があります:))

答えは「いいえ」です。


3
これは真実ではありません。この情報を正確に取得するためのAPIがあります。私の答えをご覧ください。
ピーターシュティブラニー

2

どれだけの洗練度が必要かはわかりませんが、Adobe Acrobatも使用しているので、Evernoteの添付ファイルを右クリックしてAcrobatで開きます。

次に、Acrobat内から「ドキュメント| OCRテキスト認識」を選択し、ドキュメントをプレーンテキストとして保存します。

時々OCR変換が必要なだけなので、これは私にとってはうまくいきます。


1

Evernoteからすべての画像を取得できれば、GoogleドキュメントでOCRを実行できます。

画像のフォルダをGoogleドキュメントにアップロードし、ドキュメントに変換して、画像とOCRedテキストの両方を含めることができます。

その後、これらのすべてのドキュメントをプレーンテキストとして一括ダウンロードし、画像を削除します。

すべてのEvernote画像にハッシュ(たとえばmd5)を付けた場合、Googleドキュメントからダウンロードしたプレーンテキストファイルを元の画像に簡単にリンクできます。


0

私はWindowsを使用しており、Adobe Acrobat ProとWordを使用しているため、次のことを行います。

  1. ファイルがJPGとして保存されていない場合は、Evernoteの画像の左上にある眼球アイコンをクリックしてフォトビューアーで開き、[ファイル]> [コピーを作成]をクリックしてJPGとして保存します。
  2. エクスプローラーで画像ファイルを参照します
  3. それを右クリックして、「Adobe PDFに変換」を選択します(ファイルはAcrobatで開きます)
  4. [ファイル]> [名前を付けて保存]をクリックし、[ファイルの種類]ドロップダウンから[リッチテキスト形式]を選択して、リッチテキストファイルとして保存します(ファイルの処理には1分かかります)
  5. エクスプローラーでRTFファイルを参照し、ダブルクリックしてWordで開きます
  6. 必要に応じて編集する

これは、Evernoteの画像ではなく、特定の画像ファイルからテキストを抽出する方法に関するアドバイスのようです。これが元の質問にどのように答え、以前の受け入れられた答えがそうではない方法で答えているかを明確にできますか?
music2myear
弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.