テキスト画像が埋め込まれたスキャンされていないプレゼンテーション用のAdobe Pro OCR

Adobe Pro（2015）のOCR機能を使用して、プレゼンテーション内のすべてのテキストを取得しようとしています。プレゼンテーションはたまたまPowerPointにあります。プレゼンテーションを印刷してスキャンすると、Adobeを使用してOCRを実行できます。ただし、印刷/スキャン手順をスキップしたいです。PowerPointをPDFに変換しようとしました。ただし、PDFを作成する際にどのオプションを選択しても、OCRは埋め込み画像のテキストを取得できません。

（2番目の質問をするリスクがあります:)「テキストを認識する」オプションは、スキャンされたドキュメントで機能するようです。PDFを作成するときに、スキャンされたかのように動作するようにPDFを作成する方法はありますか？それとも私の問題へのより直接的なルートがありますか？

pdf microsoft-powerpoint ocr

— ドクエマダ
ソース

PowerPointをjpegとしてエクスポートします。今、あなたは「スキャン」を持っている

— Yorik

@Yorik魅力のように働いた。あなたが答えとして追加する場合、私はあなたに小切手を与えることができます。

— -Docuemada

PowerPointをjpegとしてエクスポートします。これで、OCRプロセスを実行できる「スキャン」ができました。

— ヨリク
ソース

文書にテキストが含まれる場合、JPEGを使用することは当然ですが、決して使用しないでください。JPEGは、OCRを必要以上に難しくする可能性のある恐ろしいアーティファクトを作成します。OCRdされるドキュメントに（主に）テキストが含まれている場合は、TIFFを使用します。

— マックスウィス

それは真実だからです。しかし、TIFFがPowerpointのオプションかどうかはわかりませんでした。さらに、ほとんどのプレゼンテーションスライドには、JPEG圧縮ノイズの影響がエッジ検出に与える影響が小さくなる、サイズの大きい非実行テキストがあります。

— ヨリック

実際には、Acrobatが存在するため、PowerPoint PDFMakerマクロを使用してPDFを作成し、OCRがまだ必要な場合は、AcrobatからTIFFにエクスポートし、再インポートする方が良いワークフローかもしれません。

— マックスウィス