pdftotextよりも優れたpdf to textコンバータがありますか?


63

pdftotext(poppler-utilsの一部)を使用して、PDFドキュメントをテキストに変換しています。大部分は機能しますが、私がしたいことの1つは、別々の段落をつなぎ合わせるのではなく、空白行を挿入することでした。

これを行うためにpdftotextを取得する方法はありますか?そうでない場合、これを行うことができる別のpdf to textユーティリティがありますか?


8
タイトルでは「pdftotext」(poppler-utilsの一部)と言い、本文では「pdt2text」(わかりません)と言います。どちらを参照していますか?
-enzotib

同様の質問PDF to audio software for academic papers? softwarerecs.stackexchange.com/questions/10640/…–
JinSnow

回答:


25

Calibreebook-convertから試すことができます。

どちらかといえば、それは他の方向に間違っていると言います:あまりにも多くの改行。

しかし、私が間違いなく検討したいもう1つのことは、pdfreflowを使用してHTMLに変換し、次にHTMLをTXTに変換することです。


注:ebook-convert複数列レイアウトを変換することはできません。列を1つの列にマージします。複数列のレイアウトでpdftotextは、はるかに優れた出力が生成されます。その他の制限については、manual.calibre-ebook.com/conversion.html#convert-pdf-documentsで説明されています
asmaier

117

使用している場合はpdftotextを、あなたは使用することができ-layout、あなたの入力PDFファイルのページ上のテキストのレイアウトを維持するフラグ:

pdftotext -layout input.pdf output.txt

6
また、特にテーブルレイアウト用の-tableがあり、すばらしい動作をします。
P.ウィンドリッジ

3
@ P.Windridge、このテーブルオプションはどこにありますか?Ubuntu 17.04のpoppler-utilsからバージョン0.48.0で見つけることができません
gozzilli

2
@gozzilliいるのです方法古いです。最新のpdftotextはv4.00で、こちらのXpdfツール tarball 入手できます
エイドリアン

2
@gozzilliのバージョンは0から始まります。Xpdfの元のコードのPopplersブランチであることを示します。彼らはコードを分岐したときにバージョン番号を始めました。現在、両方のグループは、これらのPDFツールの個別のバージョンを保持しているようです。
アンドリュー

1
@VivekSableは、指定された-r(解像度、デフォルトでは72 dpi)のポイント(ピクセル)です
vstepaniuk

14

オープンソース(および自動化)のファンとして、私はこれを言いたくありませんが、(非常に大規模で複雑なPDFで)得られた最良の結果は、Adobe Readerでそれを開き、[ファイル]、[テキストとして保存]を選択することでした

(読者としてではなく、テキスト分析実験の前処理をしていますが、最初と2番目の選択肢は同じだと思います。)

出力を並べて比較しています。私の2番目の選択肢は、ebook-convertです。

Adobe:改ページのFFのまま、ページ番号の左、見出し/段落は単一行に変換されていませんが、ハイフンが修正されています。PDFに隠されたジャンクは出力されませんでした。セクションの開始時に、「T he」や「T he」ではなく、「The」などの大資本を正しく取得しました。

ebook-convert:ページ番号に残され、ヘッダー/フッターに隠されたジャンク(FFはありません)。ほとんどの段落を単一行に変換します。それが逃したものはダブルスペースです!箇条書きは常にテキストと一致するとは限りません。チャプターの冒頭で正しく「The」を取得しました。

pdftotext(--layoutなし):悪くはありませんが、箇条書きは並んでいますが、ヘッダー/フッターのノイズです。FFがそこにあります。ハイフンが削除されました。チャプタービッグレターの開始が最悪: "T \ n \ nhe"。

pdftotext(with --layout):同様ですが、より多くのインデント。章の開始のための「T he」。

pdftohtml >> pdfreflow >> htmltotext:ページ番号を削除しましたが、ヘッダー/フッターにジャンクが残っています。章の開始のための「T he」。ハイフンが削除されました。(段落ごとに複数行を使用しますが、他のバージョンと同じ改行ではありません!)


私の場合、Linux上のAcrobat Reader 9はつぶれた単語を生成しました。ebook-convertうまくいきました。
ov7a

そのためにはAIアプリが本当に必要です。この種のタスクには最適のようです。
JinSnow

1
Adobe Readerは無料ですが、... PDFのみを読むことができます。その他の支払いが必要な場合(月額サブスクリプション)。(テキストへのPDFは数ページに制限されています)。Pdftoテキスト(または勝利のxpdf)は私のニーズに最適です。
JinSnow

表形式のデータの場合、-tableスイッチ "pdftotext -table file_name.pdf output_name.txt"を使用するのが最適です
Thom Ives

5

Googleアカウントをお持ちの場合は、Googleドキュメントを使用してPDFをアップロードし、編集可能なテキストに変換できます。


1

また、pypdfを試し、2つのドキュメントのpdftotextと比較しました。より多くの改行があり、いくつかのセクション名が分割されました(REFERENCESはREFERENCESでした)。

pdf2txtは完全なガベージを出力しました。

pdftotextが出力を台無しにする場合は、pdfBox(java)をよく使用します。試してみてください。

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.