コピーペースト時にPDFが文字化けする


23

PDFファイルからテキストをコピーして貼り付けようとしています。

ただし、元のテキストを貼り付けると、文字化けが非常に大きくなります。テキストは次のようになります(これはほんの一部です)。

4$/)5=$13! ,4&1*%-! )5'$! 1$2$)&,$40! 65))! .*5)1! -#$! )/'8*/8$03! 
(4/+$6&4;0!/'1!-&&)0!*0$1!.9!/,,)5%/-5&'!1$2$)&,$403!5'!+*%#!-#$! 
0/+$!6/9! -#/-! &,$4/-5'8! 090-$+! 1$2$)&,$40! .*5)1!1$25%$! 1452$40! 
/'1! &-#$4! 090-$+! 0&(-6/4$! %&+,&'$'-0! *0$1! .9! /,,)5%/-5&'! 
1$2$)&,$40!-&1/97!"#$!+5M!&(!,4&1*%-!)5'$!/'1!,4&1*%-!1$2$)&,$40! 
65))! .$!+*%#!+&4$! $2$')9! ./)/'%$13! #&6$2$43! -#/'! -#$!+5M! &(! 
&,$4/-5'8!090-$+!/'1!/,,)5%/-5&'!1$2$)&,$40!-&1/97! 
)*+*+, C<88,?>8513AG<5A14, 

AdobeとFoxitの両方のPDFリーダーで試しました。Adobe Readerで「テキストとして保存」を実行しましたが、結果のテキストファイルは同じ文字化けしたテキストです。

このテキストを文字化けしないようにする方法はありますか?(手動入力以外に、抽出するテキストがたくさんあります。)


いくつかのスクリーンリーダーユーティリティ(jpegで動作し、印刷画面を実行し、そこに行く)を試すか、ここに別の方法があります。(「推測」だけで、私に噛まないでください。そのとき最初の方法を使用しました。もっと便利な方法があることを願っています)。
Apache


少なくとも10.8.2の時点で、OS Xでこの問題を確認することもできます。PDFファイルの構造を調べるのに少し時間を費やしましたが、残念ながら損傷を修復する方法がわかりません。Acrobat Proの「PreFlight」は、PDF / A標準に照らしてファイルをチェックするときにファイルの問題を報告し、インベントリレポートには、グリフが明らかに間違ったUnicode文字に対してマップされていることが示されます。Appleのバグレポート-ID 12655651を提起しました。アップデートがあった場合はいつでもここに報告します。
KenD

役立つはずですsuperuser.com/a/481510/153937
Ankit

回答:


11

これを回避する最も簡単な方法は、PDF読み取りプラグインが組み込まれた最新バージョンのGoogle Chromeでファイルを開くことです。その後、Chromeの検索機能を使用してテキストを検索できます。コピーアンドペーストは正しく機能します。

Shikiの答えに対するpipitasのコメントに投票したいのですが、信用がありません:(問題は暗号化ではなく、カスタムフォントエンコーディングである可能性があります。Acrobatで、[ファイル]-> [プロパティ]をクリックし、 、および[セキュリティ]タブで暗号化されているかどうかを確認します。


確かに、カスタムフォントエンコーディングが原因でした。ただし、Chromeは解決策ではありませんでした。PSからPDFを再生成するGhostscriptで問題を部分的に解決しました(PSのソースを入手できて幸運でした)。LaTeXが合字を適用する文字グループ(ff、c、fiなど)はPDFのコピーされたテキストに表示されないため、コピー/貼り付け時に編集が必要になります。
-Fuhrmanator

1
クロムと同じ問題
JinSnow

4

作成したPDFでこの問題を発見し、Mac OS Xのプレビューを使用してPDFファイルサイズを縮小するという問題の原因を突き止めたと考えています。

Colorsync Utilityを使用していくつかのQuartzフィルターを作成し、PDF内の画像を圧縮して、画像を含むPDFの全体的なファイルサイズを縮小しました。ここで説明されているような:http : //www.macosxhints.com/article.php?story=20031106133852693

元の(非圧縮)PDFファイルからテキストを簡単にコピーして貼り付けることができることがわかりましたが、作成したファイルサイズの縮小フィルターでそのPDFを実行した後、結果の圧縮PDFは貼り付けを明確にコピーしません(次のようになります)投稿した文字列)。

ただし、同じ元のPDFをAdobe Acrobat Proの[ドキュメント]> [ファイルサイズの縮小]機能で実行すると、結果の圧縮PDFはテキストを正常にコピーアンドペーストできます。

したがって、これは、PDFファイルが他の場所から受信され、何らかの方法で実際に圧縮されている場合、元のバージョンに到達できないと仮定して、完全に役に立ちません。しかし、それは説明かもしれません-ファイルがファイルサイズを減らすために何らかの形でマングルされたということです。

これは、PDFからのテキストのコピーと貼り付けで同様の問題が発生したコンテンツ作成者に役立つ場合があります。OSX Quartzフィルターを使用してPDFを縮小するよう注意してください。

--edit-- PDFとPreviewを組み合わせると、この問題にも気付きました。2つのソースPDFをコピーして貼り付けることはできますが、1つのファイルから別のファイルにページをドラッグし、結合されたPDFを保存すると、結合されたドキュメントのテキストをコピー/貼り付けできません。これらは両方ともMac上のFilemaker Pro 11で同時に生成された2つのドキュメントです-異なるエンコーディングやそのようなものを持つとは想像できません。


Mac OSユーザーからいくつかのPDFファイルを入手しました。選択は問題ありませんが、コピーと貼り付けを行うだけでゴミが発生します。googledoc、adobeをテキストとして保存など、pdfからwordへのコンバーターを多数試してください。すべてのテキストが文字化けします。
tigr

OS X PDFの縮小が原因であると思われます。そのような操作を「元に戻す」手段を知っている人はいますか?ありがとう!
tigr

pdfファイルを複数の(仮想)プリンターに印刷し、4xサイズのpdfファイルを膨らませました。印刷されたファイルは画像であり、テキストを選択することはできませんが、オリジナルを選択することはできます(ただし文字化​​けしています)。
tigr

4

回避策を作成する別の非常に簡単な方法があります:)

CutePdf、Adobe 2 Pdfプリンター、または同様のものを使用してドキュメントを印刷するだけです。一番下の行は、pdf形式で印刷する必要があるということです。

多くの場合、問題は簡単に解消されます。


2

私のために働いたソリューション:

  • ドキュメントをGoogleドライブ/ドキュメントにアップロードします
  • Googleはそれを(2013年現在)PDFとしてインポートします
  • PDFビューを開き、[ファイル] > [ アプリケーションから開く] > [ Googleドキュメント]を選択します
  • ドキュメントのエクスポートには約1分かかります

結果は完璧ではありませんでしたが、80%の道のりで、すべてを書き直す必要のない十分なテキストを提供してくれました!


2

解決済み:(Windows 8、Acrobat XI、Office 2010で私のために働いた)

オプション1:

  1. 「Microsoft XPS Document Writer」を使用してAcrobatから印刷出力は「your file name.oxps」です
  2. XPSビューアーで「... oxps」を開きます。*(下記のコメントのダウンロードリンクを参照)
  3. 最高の解像度(600 DPI)を使用して、PDF(Acrobat PDF、またはCutePDF)に印刷します。
  4. Acrobatで開き、OCR(Searchable Image(Exact))オプションを使用します。

ビンゴ!

コメント:

  • 最高の解像度とSearchable Image(exact)を使用すると、きれいな外観を失うことなくテキストが保存されます。低解像度では、テキストは読みやすくなりますが、見た目は安っぽくなります。
  • Microsoft XPS(ファイル)のダウンロード:http : //www.microsoft.com/en-us/download/details.aspx?id=11816
  • OCRとは何か、検索可能な画像(正確)の場所、または「Microsoft XPS Document Writer」を使用して印刷する方法がわからない場合は、自分で最高の体験のために自分でGoogleを試してください。

* XPSがインストールされていない場合のみダウンロードしてください。

オプション2:

同様の操作を行いますが、画像(png、tiff、...)として保存すると、すべてのページを1つの「PDF」ファイルに結合する必要があります。


1
手順1、2、および3は、手順3のPDFへの印刷にスキップできる場合には、長い道のりのようです。(たとえば、PDFリーダー内から)。XPS経由で迂回する必要はありません。
ヘネス

@Hennesのステップ4を実行するとエラーが発生するAcrobat could not perform OCR on this page because: This page contains renderable text
-Fuhrmanator

「レンダリング可能なテキスト」は、まだ描画(レンダリング)する必要があるものとして聞こえます。XPSを使用している場合は、すでに実行されており、OCR対応のビットマップとして保存されています。しかし、それは単なる推測です。
ヘネス

1

情報がまったく取得できないというリスクがあります。PDF文書は、基本的には別の文書、1つの単純なテキスト、もう1つの画像です。文書からコピーして貼り付けると、画像を見ながらテキストをマークしますが、クリップボードにコピーされるのはテキスト部分の対応する部分です。

ドキュメントの作成方法に応じて、テキスト部分の品質と可用性は大きく異なります。Acrobat、Word、PDFプリンタードライバーまたはその他の方法を使用してワードプロセッサドキュメントをPDF形式で保存する場合、テキストファイルは元のテキストから作成できるため、通常は品質が優れています。一部の特殊文字は歪む場合がありますが、通常はプレーンテキストで問題ありません。

ただし、スキャンした画像から文書を作成する場合、テキスト部分は通常、画像のOCR処理によって作成されます。これは、特にオリジナルが目的に最適でない場合、かなり残念な結果をもたらす可能性があります。

PDFの作成に使用されたプログラムが正しくないか、設定が間違っていると、作成後にファイルで何らかの暗号化が実行される可能性があるため、テキスト部分が完全に文字化けする可能性があります。

要するに、ドキュメントのテキスト部分が本当に悪い場合、それを改善する方法はありません。あなたの最善の策は、テキスト部分を完全に削除し、プログラムにOCRプロセスをやり直させることです。これはAcrobat内から実行できると思いますが、完全にはわかりません。


1

この理由の1つとして、PDFに埋め込むフォントがカスタムエンコーディングを使用していることが考えられます。これは、PDFからテキストをコピーするときに正しく適用されません。

さまざまな方法を適用して、すべてのコンテンツを手動で入力する手間を省くことができます。

  1. 「ネット全体にダウンロード可能な「pdftotext.exe」ツールのいずれかでテキストを抽出しようとしましたか?(ftp://ftp.foolabs.com/pub/xpdf/xpdf-3.02pl4-win32.zipに含まれているものをお勧めします)。
  2. Acrobat Readerの最新バージョンには、「テキストとして保存...」オプションがあります。これは "copy'n'paste"(文字化けしたテキストを与えた)を使用しませんが、おそらく画面上のテキストのレンダリングに使用したのと同じソフトウェアルーチンを使用します
  3. 「2.」の場合 動作せず、Acrobat Professionalにアクセスできる場合:フォント埋め込みDistillerプロファイルの1つを使用してPDFを再蒸留してみてください。
  4. 「3」の場合 Acrobat Professionalにアクセスしているにもかかわらず機能しない:PDFを再蒸留してみますが、今回は「画像として印刷」オプションを使用する必要があります(メイン印刷の左下隅にある「詳細」ボタンから利用可能)ダイアログ)。必ず600dpiを使用してください(ただし、巨大なファイルが生成される可能性があります)。結果のPDFをAcrobat Proで再度開きます。次に、Acrobatの「OCR」アルゴリズムをファイルに適用します。これにより、埋め込みテキストが生成されます(Readerでの画面上のレンダリングには使用されませんが、文字列の検索と強調表示に使用されます)。上記の方法のいずれかを使用して、このPDFからテキストの抽出を再試行できます。

私にとっては、Acrobat Pro XIを使用してPDFに再印刷しましたが、[ 印刷... ]ダイアログの[ 詳細... ]ボタン/サブダイアログで[ 画像として印刷 ]をオン(600 dpi)にしました。その後、最終的に結果を適切にOCRできます。このページに記載されている他の解決策はありませんでした。注:大きなドキュメントの場合、これには時間がかかる場合があり、結果のPDFは非常に大きくなる場合があります。
グレンスレイデン

@GlennSlayden:私のアドバイスがあなたのために働いてくれてうれしい...あなたがそれがまだ賛成に値しないと思ったのに何が欠けていたのですか?
カートPfeifle

ええと、私は賛成票を投じました。まだ「1」と表示されています。私の唯一の不満は、あなたの答えが一番下にあり、それを見つけるのに時間がかかったということです(あなたのせいではありません...)
グレン・スレイデン

わかりました、@ GlennSlayden、その賛成票は(上記のコメントのずっと前に)ずっと前にあったはずです。
カートファイフル

いいえ、私はコメントを書いたと同時に「12時間前」に賛成票を投じました...まだ青い矢印が表示されています。そして、昨夜のアップ投票前は「0」だったことを思い出します。
グレンスレイデン

1

ユーザーの1人が同じ問題を報告しました(PDFはDistiller for Windowsで作成されました)。コピーされたテキストは文字化けしているだけで、ドキュメント内を検索できませんでした。Macで試してみましたが、問題は見つかりませんでした。AppleのPreviewアプリケーションを使用し、WindowsマシンでAdobe Readerを使用していたことが判明しました。次に、MacでAdobe Readerを試してみましたが、同じ効果がありました。私には次のように見えます:

  • Adobe Readerは保存されたテキストを検索して検索します。

  • Appleのプレビューは、エンコードベクトルを適用した後にコピーして検索します。

確かに言うことはできませんが、それは私の観察を説明するでしょう。そして、ここの別の投稿で説明されているように、結合/縮小されたファイルを保存するときにあらゆる種類のエンコードを行うことができます。プレビューでは、テキストを再び取り出すことができます。

最初に、内部に穴を残して元の文字位置を使用するのではなく、埋め込みフォントサブセットを連続したエントリとしてエンコードする方が論理的だと考えました。しかし、その後、元のエントリを持つフォントサブセットにエンコードベクトルを使用することで、よく使用される文字のバイト数を1に減らすことができ、より良い方法で圧縮できることを認識しました(これにより、このように全体的なテキスト)。


1

Googleドキュメントにアップロードし、[ 表示]> [プレーンHTML ]オプションを使用すると、コピー可能なテキストが約80%に正確になり、スペースが少し失われます。

これでスレッド受け入れ答え同じ問題が作業例でこれを説明しています。


1

私のオフィスではまだサポートされていないため、Google Docsオプションを試したことはありません。ただし、ファイルを「ScanSoft PDF Create!」に印刷することにより 「Acrobat 9」(ファイル全体を画像に印刷する)から、「Nuance PDF Converter」で印刷したファイルを開く(画像ファイルを検索可能および編集可能にするかどうかを尋ねられたので、選択しました)簡単にコピーして貼り付けることができるWord文書があります。ただし、約80〜90%程度の精度で完全ではありません。ただし、元のPDFファイルをまだ比較して、修正できない部分を相殺することができます。すべてを入力する時間を節約できます。私の2c。


0

古いバージョンのScansoft PDF Converter for Windows XPで編集可能なテキストのPDFをいくつか作成し、Macのプレビュープログラムでページを結合しました。個別のページごとに、MacのAdobe Readerからテキストを正しく検索、コピー、エクスポートできました。プレビューで組み合わせて1つのファイルとして保存すると、すべてが画面上で適切に表示されましたが、正しく検索/エクスポートできるのはごく少数のパッセージのみでした。その問題が私をここに連れてきました。

ここの投稿は良いポインタをくれました(ありがとう!)。フォントのファイルプロパティを調べました。Win XPの単一ページファイル(すべてが順調)では、エンコーディングはANSIであると述べました。プレビュー(コピーされたテキストが文字化けしている)で結合されたファイルは、ほとんどのフォントのエンコードが「組み込み」として表示され、一部のフォントは「ローマ」として表示されました。

私の問題の解決策は常に私の鼻の下にありました。Scansoftプログラム自体はファイルを結合できます。Scansoftのコンバイナを使用してMacでファイルを開くと、すべてのフォントがANSIエンコードとして表示され、すべてのテキストが完全にエクスポート/コピーされました。いったいなぜ、私はそもそもPDF Converterでそれらを結合しなかったのか、私にはわかりません。ありがとう、ポスター!

Linuxシステムでファイルを開く場合も同様です。

PDFに似たような起源が混在していない限り、これはWindowsのみの問題を説明していないことを知っていますか?

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.