回答:
Google Docsは現在、画像とPDFでOCR(光学文字認識)を使用する新しいAPI機能をテストしています。
Google Docs APIは、画像に対してOCR(光学式文字認識)を実行できる新しい機能をテストします。この機能を説明するライブデモがあります。10MB未満の高解像度のJPG、GIF、またはPNG画像をアップロードすると、Googleドキュメントがテキストを抽出して新しいドキュメントに変換します。Googleは「この操作には現在最大40秒かかる可能性がある」と述べており、小規模なテストでは、サービスの信頼性がまだ低いことが示されています。
結果は完璧とはほど遠いものであり、多くのエラーが見つかりますが、サービスは無料であり、常に改善されています。このスキャンされたドキュメントの OCRの結果は次のとおりです。
Googleドキュメントドキュメントは、HTML、OpenOffice、Wordなど、さまざまな形式でエクスポートできます。
以下のように私の答え毎のプログラムから簡単DOCX形式にPDFを変換する方法のない誰もが知っています:
PDFをSVGに変換し(ghostscriptがそれを行います)、インポートします...
...要点は、WordはPDFを埋め込みませんが、SVGは埋め込みます。
Omnipage Proなどの光学式文字認識プログラムを使用します。PDFはドキュメント入力として、Wordは出力としてサポートします。
月に20ページの無料サービスを提供するOCRTerminalを試すこともできます。彼らは招待によって使用できるように見えるベータデスクトップクライアントを持っています(あなたは彼らに連絡して関心を表明する必要があります)。