LinuxのスクリプトでPDFからテキストを抽出する方法は?


23

Linuxの場合- .pdfスキャンされた画像ではなく、実際にテキストであるテキストからテキストを抽出する方法 インタラクティブではなく、コマンドライン/スクリプトで使用できるものが必要です。(私は.tifOCR に変換して使用したくありません- .pdfファイル内でテキストがすでに利用可能であるので、なぜ不完全なOCRから不正確なものを導入するのですか?)


回答:


25

pdftotext popplerに付属しているPDFで見つかったテキストを抽出しようとします。


1
迅速な対応ありがとう、イグナシオ!xfoo(foolabs.comから)に付属するpdftotextを既にチェックアウトしていました-あなたの答えは私にもう一度見てみるように促し、それを機能させました。Popplerはxpdfから進化したように見えるので、私もそれを見ていきます。再度、感謝します!
-RobM

9

イグナシオの答えは結構です。実際、それは私のリストの最初のものです。まあ、おそらく提案することをpdftohtmlツールをもと組み合わせるのpoppler、と来ることpdfreflowあなたは段落などにテキストを再構築しようとする場合(もちろん、これはあなたのHTMLに出力を与えるであろうが、プレーンテキスト缶にHTMLに変換多くの方法で行われます。)

他にもいくつかのオプションがあります。

Calibreebook-convertコマンドラインツール。.PDFをプレーンテキスト(またはRTFまたはePubなどの多数の電子書籍形式)に変換できます。

pdftxtextractポドフォから

Abiwordをコマンドラインから呼び出して、入力/エクスポートできる形式間で変換し、適切なインポートプラグインを使用すると、これにはPDFが含まれます。

abiword --to=txt file.pdf

(公平には、AbiWordと口径はどちらもpopplerライブラリを使用していると思いますが、私は前向きではありません。)


どうもありがとう!この場合、特定の文字列(ベンダー名、アカウント番号)とパターン(請求書番号と日付)をスキャンできるようにテキストを抽出するだけです。したがって、再フォーマットまたは再表示する必要はありません。確証と代替案に感謝します-そして、他の人もそうなると確信しています!-ロブ
RobM
弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.