テキスト画像が埋め込まれたスキャンされていないプレゼンテーション用のAdobe Pro OCR


1

Adobe Pro(2015)のOCR機能を使用して、プレゼンテーション内のすべてのテキストを取得しようとしています。プレゼンテーションはたまたまPowerPointにあります。プレゼンテーションを印刷してスキャンすると、Adobeを使用してOCRを実行できます。ただし、印刷/スキャン手順をスキップしたいです。PowerPointをPDFに変換しようとしました。ただし、PDFを作成する際にどのオプションを選択しても、OCRは埋め込み画像のテキストを取得できません。

(2番目の質問をするリスクがあります:)「テキストを認識する」オプションは、スキャンされたドキュメントで機能するようです。PDFを作成するときに、スキャンされたかのように動作するようにPDFを作成する方法はありますか?それとも私の問題へのより直接的なルートがありますか?


1
PowerPointをjpegとしてエクスポートします。今、あなたは「スキャン」を持っている
Yorik

@Yorik魅力のように働いた。あなたが答えとして追加する場合、私はあなたに小切手を与えることができます。
-Docuemada

回答:


1

PowerPointをjpegとしてエクスポートします。これで、OCRプロセスを実行できる「スキャン」ができました。


2
文書にテキストが含まれる場合、JPEGを使用することは当然ですが、決して使用しないでください。JPEGは、OCRを必要以上に難しくする可能性のある恐ろしいアーティファクトを作成します。OCRdされるドキュメントに(主に)テキストが含まれている場合は、TIFFを使用します。
マックスウィス

それは真実だからです。しかし、TIFFがPowerpointのオプションかどうかはわかりませんでした。さらに、ほとんどのプレゼンテーションスライドには、JPEG圧縮ノイズの影響がエッジ検出に与える影響が小さくなる、サイズの大きい非実行テキストがあります。
ヨリック

実際には、Acrobatが存在するため、PowerPoint PDFMakerマクロを使用してPDFを作成し、OCRがまだ必要な場合は、AcrobatからTIFFにエクスポートし、再インポートする方が良いワークフローかもしれません。
マックスウィス
弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.