PDFファイルからテキストをコピーできません


40

foxit PDFリーダーを使用してテキストブックを表示しています。テキストをPDFファイルからワードドキュメントにコピーしたいのですが、許可されません。テキストを選択できますが、テキストをコピーするオプションは使用できません。他のドキュメントからテキストをコピーできますが、一部はコピーできません。Windowsでこの保護を回避する方法はありますか?


私の答えはあなたには役に立たないと思うので、あなたは賞金を出しました。そのようなpdfの例をどこかに投稿する場合、私はそれを見ます。
harrymc

@harrymc:具体的には、私はの表6.15から値をコピーするために探していたacousticslab.org/papers/VassilakisP2001Dissertation.pdf
endolith

@endolith:私の新しい答えをご覧ください。
harrymc

回答:


29

PDFファイルは、おそらくテキストのコピーに対してロックされています。以下にロックを解除する2つの方法を示します。

  1. PDFが印刷に対してロックされていない場合は、仮想PDFプリンターに印刷してロック解除されたファイルを作成できます。これを参照してください:
    「パスワードを削除し、秘密を知らなくても印刷できる保護されたPDFのロックを解除する」
  2. 印刷機能がロックアウトされている場合は、次を参照してください。
    「PDF Unlockerで制限を解除し、パスワードで保護されたPDFファイルを復号化する」を参照してください。

PDFがコピーのためにロックされているかどうかを確認できます。[ファイル]メニューから[プロパティ]を選択し、[セキュリティ]タブにコンテンツのコピーが許可されているかどうかが表示されます。
ロブセジウィック

PDFの印刷を試みました。印刷されたファイルでは、テキストを選択できません。テキストを画像に変換したようです。
queezz

@queezz:PDFには最初に画像が含まれている必要があります。
harrymc

@harrymcはい、画像があります。ただし、テキストも画像に変換されます。Google Chromeオプションは、同じドキュメントでうまく機能します。
queezz

最初のリンクはprimopdf.com/installers/4.0.1/FreewarePrimo64Setup.exeにリンクしていますが、 これは動作せず、archive.orgにアーカイブしたこともないようです。2番目のリンクは問題 ありませんが、ファイル共有サイトdfiles.eu/files/7kiqyvswkにリンクしていますが、ファイルは問題ありません。virustotalで確認します。しかし、そのmydigitallifeページにはさまざまなリンクがあるため、見つけるのは簡単ではありません。「PDF Unlockerは無料で使いやすいツールです。こちらのリンク(現在のバージョン1.0.4)からダウンロードできます。」
barlop

25
  1. Google ChromeでPDFを開きます(PDFファイルをChromeにドラッグアンドドロップします)。
  2. 特定のページをPDFとして印刷するか、印刷プレビューを開きます。
  3. これで、印刷プレビューまたは出力PDFからテキストをコピーできます。しかし、テーブルを直接コピーできるとは思わない。


4
これも私には有効です。これは私がここで見る最も簡単な方法です。
エンドリス

3
絶対に素晴らしい。ああ、ファイルをChromeのタブバーにドラッグして、すぐに開くことができます。
イオノ

これらの方法はどちらもChrome 53では機能しませんでした。抜け穴はおそらく閉じられていますか?
サイモンイースト

11

Ghostscript(Windowsで利用可能)を使用して、DRMフリーバージョンのPDFファイルを作成できました。

gs -q -dNOPAUSE -dBATCH -sDEVICE=pdfwrite -sOutputFile=stripped.pdf VassilakisP2001Dissertation.pdf

結果のファイルstripped.pdfはAdobe Readerにロードできます。Readerを使用すると、希望する部分をコピーできます。また、テーブルのほとんどの書式設定が保持されます。


これは素晴らしいです。税理士は、DRM以外のPDFや、DRMを削除するためのパスワードの提供を拒否しています。これは私の問題を解決します。素晴らしい仕事です!
ケビナープ

PDFにパスワードがある場合は、必ず-sPDFPasswordスイッチ(-sPDFPassword=password)を含めてください。
-palswim

2

Okular(Linuxの場合、KDEの一部)を使用して、PDFファイルからテーブルを正常にコピーできました。これを行うには、Okularの設定に移動し、「Obey DRM制限」のチェックを外す必要がありました。

Windowsを実行しているので、これは実際にはあまり役に立たないことは承知していますが、Linuxマシンを手元に持っているか、インストールしたい場合は可能性があります。

残念ながら、書式設定のないプレーンテキストですが、テーブルを再作成するのはそれほど難しくないはずです。ここで私のコピーアンドペーストアドベンチャーの結果を見ることができます


それがVirtualBoxの目的です。:DIはフォーマットせずにプレーンテキストをコピーすることもできますが、一度に1つの列を選択することで、エクスポートが非常に簡単です。
エンドリス

Okularを使用すると、テキストを長方形で選択し、単一の列を順番に抽出できるため、数字のテーブルに最適です。
エンドリス

単一の列の場合、おそらくそうです。テーブル全体については、他の回答を参照しください。
マイケルハンプトン

Okular Windowsで実行できることに注意してください。実際、多くのKDEソフトウェアはWindows上で実行できます
バクリウ

1

GT Textは、画像(pdfスナップショット= image)もテキストに変換するプログラムです。エリアを選択してクリップボードにコピーできます無料です

公式ホームページは http://gttext.googlecode.comです


1

コピーがグレー表示されている場合は、疑いがあるので、PDFは「ロック」されていますが、読むことはできますが、コピーや貼り付けは実際にはできません。

このウェブサイトはPDFのロックを解除します

https://smallpdf.com/unlock-pdf


0

短いスニペットだけを探している場合、クォートマーク内のいくつかの単語をグーグルに入力し、他の形式で既にスキャンされた、または他の誰かが入力した正確なクォートを見つけることができます。

別のオプションは、Google Docs Androidアプリの「Document from Photo」で、OCRを介してテキストを挿入します。もちろん、これはエラーを起こしやすいです。

PDFロック機能が存在しなかったことを望みます。:(


0

エンドリスへの回答:

PDFはコピーから保護されていますが、印刷からは保護されていません。

そのため、表6.15を含む1ページを、コピーから保護されていない別のPDFに印刷し、表を選択してコピーし、Wordに貼り付けました。驚いたことに、ペーストの結果は完全にゴミでした。

私は今、この表をさらに調べて、非常に驚​​くべき結果を見つけました。 これは表ではありません!

実際には、テーブルのように見えるようにページ上に配置された小さなテキストのモンタージュです。しかし、これは実際のテーブルではありません。

最善の方法は、全体を表として書き直すか、単にこの表のようなアセンブルされたテキストのスクリーンショットを使用することです。

生成された1ページのpdfドキュメントから取られた表のスクリーンショットは次のとおりです。

画像


2つのプログラムで印刷しようとしましたが、得られたのは空白のページだけでした。
エンドリス

Foxit Readerを使用して、ページに自分自身を配置し、現在のページをpdfプリンターに印刷しました(Cute Pdf Writerを使用しました)。今晩、テーブルのコピーに関する問題の分析を試みます。
harrymc

私は(Ghostscriptを使用する)プリモとqvPDFを試み
endolith

上記の追加を参照してください。
harrymc

... 1ページのPDF もここにアップロードしました(60秒の待機時間)。
harrymc

0

別の可能性はエビンスです。

Windowsでは、デフォルトでコピーをサポートしているようです。

Linuxでは、コピーがチェックすることで有効にすることができoverride_restrictions、それがまだない場合は、以下の、設定をこれらの方向dconf-editor/org/gnome/evinceoverride_restrictions)。


弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.