非標準の文字エンコーディングでPDFを検索

19

一部のPDFファイルでは、テキストをコピーするときにゴミが生成されます（「mojibake」）。これにより、それらを検索することができなくなります（検索するものはすべてゴミと一致しません）。

簡単な回避策はありますか？

例：

TEAC TVマニュアルEU2816STF（WindowsとMacの両方のAdobe Readerで上記の問題が発生しますが、Macのプレビューでは正常に動作します）
Leadtek Winfast PVR2マニュアル（FTPリンク。Macのプレビューでも問題があります）
Swann TVチューナーカードマニュアル（FTPリンク。Macのプレビューでも問題があります）
Phonediscライセンス契約（現在廃止されているDTMSから）
マッコーリーIFP四半期ファンドレビュー
BAN-TACSスモールビジネスブックレット（アーカイブ版）
Easterfest 2004チラシ（アーカイブからも）

Windows用のAdobe Reader（最新バージョン）を使用しています-おそらく別のビューアーが役立つでしょうか？Windows用の無料のソリューションを探しています。オープンソースはさらに良いでしょう。

編集：Multivalent Extract Textツールのドキュメントには、次のような問題が発生する理由の概要が記載されています。

テキストにUnicodeマッピングがない場合があります。PDF Type 3フォントには含まれないことが多く、TeX DVIにはUnicodeに相当する文字がない文字があります。

Unicodeエンコーディングにはバグがある場合があります。Open Officeは、一部の文字を同じUnicodeにマップします。その結果、見かけの文字が削除されて二重になります。

これらの場合の究極の解決策は、フォント内の各グリフをOCRして、実際にどの文字であるかを把握することだと思います。グリフの正確な形状が利用できるため、これはノイズの多いスキャンされたドキュメントをOCRするよりも簡単であることに注意してください（「ベクター」画像なので無限の解像度で）。

pdf search character-encoding

— ヒューアレン
ソース

clipbrd.exe（mydigitallife.info/2008/11/06/…を参照）を使用すると、クリップボードの内容を確認できます。それはあなたに何を与えますか？

— アルジャン

@Arjan van Bentem：これは、メモ帳に貼り付けるときとまったく同じゴミをくれます。

— ヒューアレン

フォーマットの詳細は？私はMacを使っていますが、Windowsが何かが画像かテキストかを教えてくれると思います。そして、テキストについてはエンコーディングについて何かを明らかにするかもしれません。

— アルジャン

テレビマニュアルの例：MacのAdobe Reader 8.1.2でも同じ問題が発生しますが、Macのプレビューを使用してテキストをコピーまたは検索しても問題ありません。そのドキュメントプロパティには、フォントの「エンコード：カスタム」が表示されます（img.skitch.com/20100318-827uckkb5i326eta291f3qig3u.pngを参照）。（のように：「はAnsiエンコーディング」または「ローマ」とMac上のAdobe Readerには問題がない、他のPDF文書は、のようなものを示してadobe.com/education/pdf/type_primer.pdfの利回りimg.skitch.com/20100318-tbyjrny9bsg684eqhr7b3au7fb.png）。

— アルジャン

1

また、pdftextonline.comは、TVマニュアルやPhonediscドキュメントからテキストを取得できません（他のドキュメントを試していない）。ただし、Gmailに送信してからHTMLとして表示することは、TVマニュアルでは機能します（プレビューでそのドキュメントに問題がないように）

— ...-Arjan

3

Foxit Reader、おそらく？

Mac OS X 10.6.2でSafari 4.0.4にリンクしたPDFを確認しましたが、いくつかのEngrishがありますが、PDFは画面上の「ゴミ」なしで完璧にレンダリングされます。おそらく、Unicodeの問題（Mac OSよりもWindowsの方が一般的です）がありますか？

— アレックス
ソース

ゴミは画面上にありません-テキストをコピーするときにクリップボードにあります。試してみるとどうなりますか？

— ヒューアレン

@ヒュー：機能􏰃これは、リモコン付きのカラーテレビです。V VHF、UHFバンド、またはケーブルチャンネルから100のプログラムをプリセットできます。cableケーブルチャンネルを調整できます。TVテレビの制御は、メニュー方式のシステムにより非常に簡単です。external外部デバイス（コンピューター、ビデオ、ビデオゲーム、オーディオセットなど）用の3つのEuroconnectorソケットがあります

— アレックスアレックス

@ヒュー：弾丸は正しくコピーされていませんが、残りはコピーされています。具体的にどのセクション/ページ/段落で問題が発生していますか、試してみますか？

— アレックス

それのすべて。Windows版Adobe Readerを使用しています。助けにならなかった最新バージョンにアップデートしました。+1情報ありがとう。Adobe Readerには、OSXと同等ではないバグがあると思います。

— ヒューアレン

4

Foxit Readerを試しましたが、同じ問題があります。そのインストーラーも本当に押し付けがましく、ツールバーのインストール、ホームページの変更などを求めています。（

— ヒューアレン

3

これを回避する最も簡単な方法は、PDF読み取りプラグインが組み込まれた最新バージョンのGoogle Chromeでファイルを開くことです。その後、Chromeの検索機能を使用してテキストを検索できます。コピーアンドペーストは正しく機能します。

— カタレプト
ソース

2

以下のためのテレビマニュアル例：同じMac上のAdobe Reader 8.1.2で問題が、ありませんコピーまたはテキストを検索するためにMacのプレビューを使用して問題。また、Gmailアカウントに送信し、[表示]、[プレーンHTML]の順に選択すると、テキストが表示されます。しかし、Adobe Readerはそれが好きではありません。

そのドキュメントプロパティには、フォントの「エンコード：カスタム」が表示されます。別のドキュメントには「エンコード：Ansi」や「ローマ」などが記載されており、MacのプレビューでもAdobe Readerでも問題はありません。

ここに画像の説明を入力してください

ただし、LeadtekとSwannの両方の例では、MacのプレビューとGmailでも問題が発生し、両方とも「エンコード：Identity-H」と表示されます。Phonediscのテストは、「：カスタムエンコーディング」で、あまりにも失敗します。

混乱を招き、一貫性はありませんが、Adobeのフォーラムで、「エンコード：カスタム」（エンファシスマイニング）を示すさらに別の例について次の説明を見つけました。

PDFの内部を見ると、ドキュメントのページに表示される文字/グリフの意味を導き出すための使用可能なエンコード情報が（PDFにも埋め込みフォントデータにも）存在しないことがわかりました。

実際にはフォントはすべて埋め込まれていますが、すべてのエンコーディング情報が削除されています。これは、PDF仕様に構文的に完全に準拠しているが、PDFの作成プロセス中にそのテキストの意味に関する重要な情報が破棄されているPDFの典型的な例です。私が知る限り、エンコード情報を復元することは非常に困難です。

これは、「エンコード：カスタム」であっても、Adobe Readerが失敗したときにMacのプレビュー（および明らかに Infixも）がいくつかの例を処理できる理由を説明していません。正確なフォントがコンピューター自体に存在する場合、プレビューに問題はないのでしょうか？または、エンコーディングを推測しているだけかもしれませんが、これはたまたますべてのドキュメントではなく一部のドキュメントで機能しますか？

これの原因が何であれ：Google DocsまたはGmailを通過できない場合、おそらく最も簡単な（しかし決して簡単ではない）回避策は、実際にTIFFとして保存してからOCRを実行することです。Evernoteのようなサービスは、オンザフライで実行する場合があります（画像に対してOCRを実行します。PDFに対してOCRを実行することはできません）。

— アルジャン
ソース

-1

ファイル1のダウンロードは失敗し、ファイル2は高速でオープンソースのpdfビューアであるxpdfで開くことができました。フォームを処理できないと思いますが、純粋なテキストとグラフィックの場合は、起動時間が速いため好まれます。

— ユーザー不明
ソース

1

問題は、PDFを「開く」ことではなく、「起動時間を短縮して開く」ことではありませんでした。代わりに、レンダリングされたページからテキストスニペットをコピーアンドペーストできないことについてでした。あなたの答えはおそらく良いものですが、この質問には合いません。

— カートPfeifle

-2

残念ながらそれは仕方がありません。PDFドキュメントには実際には文字が含まれていませんが、文字の形状が含まれています。つまり、他のPDF読み取りアプリケーションのように、Adobe Readerを画面に文字を読んで描画する代わりに、ファイルにエンコードされたベクターグラフィックスを単純に描画します。

ただし、一部のPDFリーダーには、テキスト認識を使用して形状を分析し、テキストを復元できるソフトウェアが付属しています。印刷されたテキストの紙をスキャンし、ABBYY FineReaderなどのソフトウェアを使用してテキストに戻す場合と同じように機能しますが、ベクター描画の品質は無限に高いため、通常はスキャンしたドキュメントよりもはるかに優れています。

一部のドキュメントは、Adobe Readerをだましてテキストに変換されないように保護できます。たとえば、文字は視覚的には同じように見えるが、テキスト認識ソフトウェアはテキストを認識できないような方法で、いくつかの重なり合った形状で描画できます。あなたの文書はそのような保護の一例です。

1つの方法は、ドキュメントを画像に印刷し、テキスト認識ソフトウェアに認識させることです。画像の解像度を高くすると、品質が向上します。ただし、この方法はあまり便利ではありません。

— セルギ・ベロゾロフ
ソース

2

PDFドキュメントには実際には文字が含まれていません。これは、ほとんどのスキャンされていないドキュメントには当てはまりません。参照en.wikipedia.org/wiki/Portable_Document_Format#Text

— Arjan

ありがとうございました。興味深い情報。私は常にPDFのテキストに関する情報がないことを常に持っています。それでも、Alexanderが提供するドキュメントにはテキストが埋め込まれていないようです。または、そこで使用されているフォントが文字の奇妙なエンコーディングを持っている可能性もあります。つまり、典型的なASCIIエンコーディングに対応していません。

— セルギーベロゾロフ

2

テキストが単なる図形である場合、PDFからテキストをコピーするにはどうすればよいですか？あなたは部分的に正しいです-それはPDFでラスタライズされていません（スキャンされたソースからのものでない限り）が、テキストデータは含まれています。ただし、フォントは（通常）埋め込まれているため、含まれているテキストをベクターレンダリングできます。

— アレックス