PDFをテキスト検索可能なPDFに変換する方法は?
PDFでスキャンしたドキュメントが多数あり、それらを検索できるようにしたいと考えています。どうやってやるの? 基本的に、pdfをOCRしてから、抽出したテキストを新しいpdfにブレンドする必要があります。OCR情報をPDFに追加するにあるものを含む、さまざまなソリューションを試しましたが、うまくいきませんでした。 pdfocr(これにより、この問題が発生します:https : //github.com/gkovacs/pdfocr/issues/7) pdfsandwich(ソフトウェアセンターによると、これは貧弱なパッケージであり、インストールしないでください) OCRfeeder(ソフトウェアセンター内)はodtに適切にエクスポートしますが、pdfにエクスポートすると反応しません。 Gscan2pdfは、この議論で報告されているように、すべて黒の(ただし検索可能な)画像をエクスポートします。 Pdfxchangeビューアーは、500ページを超えるファイルでocrをその場で実行できるとは思いません。 知らないソフトウェアパッケージはありますか?または、これを行うスクリプトですか?