LinuxのスクリプトでPDFからテキストを抽出する方法は？

23

Linuxの場合- .pdfスキャンされた画像ではなく、実際にテキストであるテキストからテキストを抽出する方法インタラクティブではなく、コマンドライン/スクリプトで使用できるものが必要です。（私は.tifOCR に変換して使用したくありません- .pdfファイル内でテキストがすでに利用可能であるので、なぜ不完全なOCRから不正確なものを導入するのですか？）

— RobM
ソース

askubuntuでの同様の質問

— Trevor Boyd Smith

25

pdftotext popplerに付属しているPDFで見つかったテキストを抽出しようとします。

— イグナシオ・バスケス・アブラムス
ソース

1

迅速な対応ありがとう、イグナシオ！xfoo（foolabs.comから）に付属するpdftotextを既にチェックアウトしていました-あなたの答えは私にもう一度見てみるように促し、それを機能させました。Popplerはxpdfから進化したように見えるので、私もそれを見ていきます。再度、感謝します！

— -RobM

9

イグナシオの答えは結構です。実際、それは私のリストの最初のものです。まあ、おそらく提案することをpdftohtmlツールをもと組み合わせるのpoppler、と来ることpdfreflowあなたは段落などにテキストを再構築しようとする場合（もちろん、これはあなたのHTMLに出力を与えるであろうが、プレーンテキスト缶にHTMLに変換多くの方法で行われます。）

他にもいくつかのオプションがあります。

Calibreのebook-convertコマンドラインツール。.PDFをプレーンテキスト（またはRTFまたはePubなどの多数の電子書籍形式）に変換できます。

pdftxtextractポドフォから

Abiwordをコマンドラインから呼び出して、入力/エクスポートできる形式間で変換し、適切なインポートプラグインを使用すると、これにはPDFが含まれます。

abiword --to=txt file.pdf

（公平には、AbiWordと口径はどちらもpopplerライブラリを使用していると思いますが、私は前向きではありません。）

— 狂った
ソース

どうもありがとう！この場合、特定の文字列（ベンダー名、アカウント番号）とパターン（請求書番号と日付）をスキャンできるようにテキストを抽出するだけです。したがって、再フォーマットまたは再表示する必要はありません。確証と代替案に感謝します-そして、他の人もそうなると確信しています！-ロブ

— RobM