一部のPDFファイルでは、テキストをコピーするときにゴミが生成されます(「mojibake」)。これにより、それらを検索することができなくなります(検索するものはすべてゴミと一致しません)。
簡単な回避策はありますか?
例:
- TEAC TVマニュアルEU2816STF(WindowsとMacの両方のAdobe Readerで上記の問題が発生しますが、Macのプレビューでは正常に動作します)
- Leadtek Winfast PVR2マニュアル(FTPリンク。Macのプレビューでも問題があります)
- Swann TVチューナーカードマニュアル(FTPリンク。Macのプレビューでも問題があります)
- Phonediscライセンス契約(現在廃止されているDTMSから)
- マッコーリーIFP四半期ファンドレビュー
- BAN-TACSスモールビジネスブックレット(アーカイブ版)
- Easterfest 2004チラシ(アーカイブからも)
Windows用のAdobe Reader(最新バージョン)を使用しています-おそらく別のビューアーが役立つでしょうか?Windows用の無料のソリューションを探しています。オープンソースはさらに良いでしょう。
編集:Multivalent Extract Textツールのドキュメントには、次のような問題が発生する理由の概要が記載されています。
- テキストにUnicodeマッピングがない場合があります。PDF Type 3フォントには含まれないことが多く、TeX DVIにはUnicodeに相当する文字がない文字があります。
- Unicodeエンコーディングにはバグがある場合があります。Open Officeは、一部の文字を同じUnicodeにマップします。その結果、見かけの文字が削除されて二重になります。
これらの場合の究極の解決策は、フォント内の各グリフをOCRして、実際にどの文字であるかを把握することだと思います。グリフの正確な形状が利用できるため、これはノイズの多いスキャンされたドキュメントをOCRするよりも簡単であることに注意してください(「ベクター」画像なので無限の解像度で)。
clipbrd.exe
(mydigitallife.info/2008/11/06/…を参照)を使用すると、クリップボードの内容を確認できます。それはあなたに何を与えますか?