回答:
たくさんのオプションがあります!
pdftotext
ポプラからはすでに言及されています。
よく機能するHaskellプログラムpdf2line
があります。
口径のebook-convert
コマンドラインプログラム(または口径自体は)別のオプションです。PDFをプレーンテキストまたは他の電子書籍形式(RTF、ePub)に変換できます。私の意見では、pdftotextよりも優れた結果を生成しますが、かなり遅いです。
ebook-convert file.pdf file.txt
AbiWordは、コマンドラインから認識している任意の形式間で変換でき、少なくともオプションでPDFインポートプラグインがあります。
abiword --to=txt file.pdf
さらに別のオプションはpodofotextextract
、podofo PDFツールライブラリからです。私は実際にそれを試していません。
2つのGhostscriptツールpdf2ps
とを組み合わせた場合ps2ascii
、さらに別のオプションがあります。
実際にはさらにいくつかの方法を考えることができますが、今のところはそのままにします。;)
pdftotext
より正確な結果が得られ、ebook-convert
非常に高速です。ebook-convert
遅いです。
pdftotext
-layout
オプションの岩!calibre
インストールには600MB以上必要です!それはクレイジーです)
pdftotext(Ubuntu:poppler-utils ; OpenBSD:xpdf-utils
パッケージ)を使用すると、コマンドラインでPDFをテキストに変換できます。
あなたは使用することができますRecoll
(:Ubuntuのrecoll ; OpenBSDの:なしポートを、しかしための1がありますFreeBSDの。)PDFなど様々なフォーマットされたテキスト文書の種類、内部で検索します。GUIがあり、内部で自動的にインデックスを作成します。pdftotext
PDFをテキストに変換するために使用します。
Acrobat Reader(Linuxでは少なくともバージョン9)には、複数ファイルの検索機能が制限されています(ディレクトリ内のすべてのファイルを検索できます)。
pdftotextはおそらく探しているものです:http : //en.wikipedia.org/wiki/Pdftotext抽出したいテキストが実際にグラフィカルなフォームの下にある場合を除きますが、これはpdfドキュメントでは一般的ではありません。