非標準の文字エンコーディングでPDFを検索
一部のPDFファイルでは、テキストをコピーするときにゴミが生成されます(「mojibake」)。これにより、それらを検索することができなくなります(検索するものはすべてゴミと一致しません)。 簡単な回避策はありますか? 例: TEAC TVマニュアルEU2816STF(WindowsとMacの両方のAdobe Readerで上記の問題が発生しますが、Macのプレビューでは正常に動作します) Leadtek Winfast PVR2マニュアル(FTPリンク。Macのプレビューでも問題があります) Swann TVチューナーカードマニュアル(FTPリンク。Macのプレビューでも問題があります) Phonediscライセンス契約(現在廃止されているDTMSから) マッコーリーIFP四半期ファンドレビュー BAN-TACSスモールビジネスブックレット(アーカイブ版) Easterfest 2004チラシ(アーカイブからも) Windows用のAdobe Reader(最新バージョン)を使用しています-おそらく別のビューアーが役立つでしょうか?Windows用の無料のソリューションを探しています。オープンソースはさらに良いでしょう。 編集:Multivalent Extract Textツールのドキュメントには、次のような問題が発生する理由の概要が記載されています。 テキストにUnicodeマッピングがない場合があります。PDF Type 3フォントには含まれないことが多く、TeX DVIにはUnicodeに相当する文字がない文字があります。 Unicodeエンコーディングにはバグがある場合があります。Open Officeは、一部の文字を同じUnicodeにマップします。その結果、見かけの文字が削除されて二重になります。 これらの場合の究極の解決策は、フォント内の各グリフをOCRして、実際にどの文字であるかを把握することだと思います。グリフの正確な形状が利用できるため、これはノイズの多いスキャンされたドキュメントをOCRするよりも簡単であることに注意してください(「ベクター」画像なので無限の解像度で)。