回答:
たくさんのオプションがあります!
pdftotextポプラからはすでに言及されています。
よく機能するHaskellプログラムpdf2lineがあります。
口径のebook-convertコマンドラインプログラム(または口径自体は)別のオプションです。PDFをプレーンテキストまたは他の電子書籍形式(RTF、ePub)に変換できます。私の意見では、pdftotextよりも優れた結果を生成しますが、かなり遅いです。
ebook-convert file.pdf file.txt
AbiWordは、コマンドラインから認識している任意の形式間で変換でき、少なくともオプションでPDFインポートプラグインがあります。
abiword --to=txt file.pdf
さらに別のオプションはpodofotextextract、podofo PDFツールライブラリからです。私は実際にそれを試していません。
2つのGhostscriptツールpdf2psとを組み合わせた場合ps2ascii、さらに別のオプションがあります。
実際にはさらにいくつかの方法を考えることができますが、今のところはそのままにします。;)
pdftotextより正確な結果が得られ、ebook-convert非常に高速です。ebook-convert遅いです。
pdftotext-layoutオプションの岩!calibreインストールには600MB以上必要です!それはクレイジーです)
pdftotext(Ubuntu:poppler-utils ; OpenBSD:xpdf-utilsパッケージ)を使用すると、コマンドラインでPDFをテキストに変換できます。
あなたは使用することができますRecoll
(:Ubuntuのrecoll ; OpenBSDの:なしポートを、しかしための1がありますFreeBSDの。)PDFなど様々なフォーマットされたテキスト文書の種類、内部で検索します。GUIがあり、内部で自動的にインデックスを作成します。pdftotextPDFをテキストに変換するために使用します。
Acrobat Reader(Linuxでは少なくともバージョン9)には、複数ファイルの検索機能が制限されています(ディレクトリ内のすべてのファイルを検索できます)。
pdftotextはおそらく探しているものです:http : //en.wikipedia.org/wiki/Pdftotext抽出したいテキストが実際にグラフィカルなフォームの下にある場合を除きますが、これはpdfドキュメントでは一般的ではありません。