フォーマットを失わずにPDFからテキストをコピーする方法は?


41

テキストをPDFファイルからテキストエディターにコピーすると、さまざまな方法で破損します。太字や斜体などの書式設定は失われます。テキストの段落内のソフト改行はハード改行に変換されます。2行にまたがって単語を区切るダッシュは、あるべきではない場合でも保持されます。そして、一重引用符と二重引用符は?に置き換えられます サイン。

理想的には、PDFからテキストをコピーし、フォーマットをHTMLコードに変換し、「スマートクォート」を「および」に変換し、改行を適切に実行できるようにしたいと思います。これを行う方法はありますか?


2
Word 2013はPDFを開くことができます。完璧ではありません。しかし、なんとか
pratnala

関連する可能性があります
スティーブンR.ルーミス

回答:


54

まず、PDFが何であるかを理解する必要があります。PDFは印刷ページを模倣するように設計されており、入力形式ではなく出力形式としてのみ設計されています。PDFは基本的に、文字(個々の文字や句読点など)または画像の正確な位置を含むマップです。ほとんどの場合、PDFには1つの単語が終了して別の単語が開始する場所に関する情報さえ保存されず、段落区切りのソフトブレークとハードブレークのようなものははるかに少なくなります。

(最近のいくつかのPDFにはこのような情報が保存されていますが、それは新しい技術であり、そのようなPDFを見つけることができれば幸いです。たとえPDFビューアがそれを知らない場合もあります。)

とにかく、個々のキャラクターの場所から単語や段落などを抽出するための何らかの「人工知能」を実装するのは、ソフトウェア次第です。さまざまなソフトウェアがこれを他のソフトウェアよりもうまく実行し、PDFの作成方法にも依存します。いずれにせよ、完璧な結果を期待すべきではありません。出力PDFを持つことは、ソースドキュメントを持つことと同じではありません。可能であれば、それを取得しようとする方がはるかに良い。

あなたの種類の問題に対する標準的な解決策は、Adobe Acrobat Professional(無料のリーダーではなく高価なもの)を使用してPDFをHTMLに変換することです。それでさえ完璧な結果を得ることはできません。

書式設定の一部をそのままにしてPDFからテキストを抽出するために使用できる無料のソフトウェアがありますが、完全な結果を期待しないでください。たとえば、口径(RTF形式に変換可能)、pdftohtml / pdfreflow、またはAbiWordワードプロセッサ(すべてのインポート/エクスポートプラグインが有効)を参照してください。OpenOffice用のPDFインポートプラグインもあります。

ただし、これらの結果が完全であることを期待しないでください。あなたはここで穀物に反対しています。PDFは、単に編集可能な入力形式ではありません。


2
5年後のフィードバック:大きな改善なし:HTMLに変換(acrobat xを使用)してから、MSwordテーブルに各行を挿入する必要がありました。(単語、Excel、またはtxtを保存するだけですべてが台無しになり、クロムからの過去のコピーもまったく機能しませんでした)。(非常に)スマートなソフトウェアを待っています。
-JinSnow

上記の制限で、「フォーマット付きコピー」機能を選択するテーブルを右クリックします
-JinSnow

1
これは受け入れられた答えであるため、pratnalaが彼のコメントで書いた(新しい)オプションにも言及することをお勧めします。Word2013から直接PDFを開きます。
BornToCode

8

もう1つのオプションは、無料のPDFビューアであるFoxit(その良い)をダウンロードして使用を開始することです。次に、「名前を付けて保存」し、.txtを選択してテキストファイルに変換します。これにより、すべての書式設定が保持されます。Dunnoは、Adobeで同じことができるかどうか、しばらく前にFoxitに変換したときに使用をやめたためです。


「Save as ... Text」は、いくつかの無料のPDFビューアで機能しました。
ジェフ

私はFoxitを使用し、試してみましたが、フォーマットが保存されているとは言いません。そして、私が欲しかったのは、適切な行末と各段落を段落としてだけでした。
pgr

フォント、太字、斜体、色、そしてもちろん、より高度なオプションの:あなたTXT使用すると、すべての整形失うことになる
SKAN

Foxit Readerは私にとっては素晴らしい仕事でした
Michael Tranchida

5

Sej-daと呼ばれる非常に優れたオンラインツールがあります。Advanced PDF Manipulationを扱っています。ダウンロードするソフトウェアはありません。それがあるとして、新たなオンラインツールは、それはベータ版で、現在はまだです。PDFからテキストを抽出できるだけでなく、他の無数のPDF機能を提供できます。

http://www.sejda.com/

sejda機能の簡単なビデオレビューは、Revision 3によって2012年11月14日に行われました。

http://revision3.com/tzdaily/sejda-online-pdf


1
一つは、可能性がまだコマンドラインツールをダウンロード:sejda.org/downloadを(私はそれが可能に考えていないテキストを抽出書式設定で?)
Arjan

私はすでにアルジャンよりもセジダを推奨しています
サイモン

1
え?つまり、オンラインツールだと言っているのですが、同じものをダウンロードすることもできます。また、さらに調査します。要求されたように、書式を保持するとは思わないでしょうか?
アルジャン

フォーマットの保存が要求されたことは承知していますが、試していない限り、あなたは決して知りません。
サイモン

豊富な機能を備えた無料のツールであり、ベータ版でもない-失うものはありませんが、試してみてください。時間がたてば、その機能セットはおそらく拡張されるでしょうが、今のところは本当に不満はありません。
サイモン

5

ブラウザでPDFファイルを開き(GoogleクロームとFirefoxがテストされています)、そこにテキストをコピーします。


残念ながら、Firefoxではこれは機能しませんでした。
南軍兵

閉じる。FFは少なくともフォントサイズを維持しました。Chromeはひどく失敗し、改行さえも失敗しました。
nd34567s32e

2019年10月の時点で、ChromeでPDFを開き、テキストエディターにコピー/貼り付けすると、少なくとも行末が保持されます(ただし、悲しいことに、行の先頭の空白はありません)。
DocOc

4

これにはAdobe Acrobat Proを使用できます。

テーブルの場合:Acrobat 9/10では、テーブルの選択機能がありました。Acrobat Xでは、[名前を付けて保存]> [スプレッドシート]> [Excel]をクリックするだけです。さらに、ページを1つの長いスプレッドシートに連結します。素晴らしい機能。

テキストの場合:MS Wordにエクスポートするための同様の機能があります。[名前を付けて保存]> [Word]> [Word Doc]。

ソース:


0

Foxitは、元のファイルを通常のPDFとして表示するか、Ctrl + 6を押してテキストとして表示するかを切り替えます(テキストモードのズームレベルを少しいじると、読み取りとコピーの間で前後にジャンプすることはほとんどありません)


0

私はこれが非常に便利だと感じました(改行を削除する):

これは、すべての改行を手動で削除することなく、これをすばやく解決するための便利なトリックです。基本的に、すべての不要な改行を単一のスペースに自動的に置き換えて、すべてのテキストを1つの段落にまとめます。

1- PDFから必要なテキストをコピーします。

2-新しいWord文書に貼り付けます。

3-「編集」をクリックしてから「置換」

4-「何を見つける」フィールドにいることを確認します

5- [詳細]、[特別]の順にクリックします

6-「段落記号」(リストの上部)を選択します

7-「置換」フィールドをクリックします

8-スペースバーを1回押す

9- [すべて置換]をクリックします

10- [OK]をクリックし、[検索と置換]ボックスを閉じます。


-1

Adobe ReaderからMS Excelにコピーし、希望どおりにフォーマット(テーブル)してから、Excelからコピーして貼り付けることができます。このソリューションはうまく機能します。高価なアドビプロのコピーを購入する必要はありません。


質問ではテキストについて説明します。これは、書式設定をHTMLコードに変換するなど、テキストの一般的なソリューションとして適していると思いますか?
fixer1234

-1

テーブルに編成されたPDFのテキストと形式を保存しようとしていました。Acrobat Professionalでは、Excelドキュメントとして保存できる「名前を付けて保存」オプションがあることに気付きました。これは私のニーズに適していました。また、「Word文書として保存」オプションもあることに気付きました。私はそれを試しませんでした。


2
これは、user156787の回答を複製します。
fixer1234
弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.