PDFからテキストへのコンバーターはありますか?


21

コマンドラインから一括で検索できるように、テキストにPDFファイルが必要です。Ubuntu、OBSD、または同様のディストリビューション用のコンバーターはありますか?

おそらく関連記事は、UbuntuとOCR こちら



「実際の」PDF(テキストなどから作成)の場合、pdftotextが最善の策です。画像の場合、最善の策はいくつかのOCRのものです。
フォンブランド

1
常にpdftotext= を使用しますpdfcat
同型

回答:


22

たくさんのオプションがあります!

pdftotextポプラからはすでに言及されています。

よく機能するHaskellプログラムpdf2lineがあります。

口径ebook-convertコマンドラインプログラム(または口径自体は)別のオプションです。PDFをプレーンテキストまたは他の電子書籍形式(RTF、ePub)に変換できます。私の意見では、pdftotextよりも優れた結果を生成しますが、かなり遅いです。

ebook-convert file.pdf file.txt

AbiWordは、コマンドラインから認識している任意の形式間で変換でき、少なくともオプションでPDFインポートプラグインがあります。

abiword --to=txt file.pdf

さらに別のオプションはpodofotextextractpodofo PDFツールライブラリからです。私は実際にそれを試していません。

2つのGhostscriptツールpdf2psとを組み合わせた場合ps2ascii、さらに別のオプションがあります。

実際にはさらにいくつかの方法を考えることができますが、今のところはそのままにします。;)


calibre's ebook-convert ... 合字に対して何をするのか見ましたか?ブレア。このようにしましょう。あまり効果的なプログラムではありません。pdftotextははるかに忠実です。出力でエラーを発見したことはありません。
ixtmixilix

1
pdfファイルをテキストとして表示するためにlessを使用できます。pdftotextまたは同様のツールを呼び出すために、プリプロセッサ、つまりlesspipeを呼び出します。
ダニエルネスランド

pdftotextより正確な結果が得られ、ebook-convert非常に高速です。ebook-convert遅いです。
アミットパテル

pdftotext-layoutオプションの岩!calibreインストールには600MB以上必要です!それはクレイジーです)
Stalinko

9

pdftotext(Ubuntu:poppler-utils ; OpenBSD:xpdf-utilsパッケージ)を使用すると、コマンドラインでPDFをテキストに変換できます。

あなたは使用することができますRecoll (:Ubuntuのrecoll ; OpenBSDの:なしポートを、しかしための1がありますFreeBSDの。)PDFなど様々なフォーマットされたテキスト文書の種類、内部で検索します。GUIがあり、内部で自動的にインデックスを作成します。pdftotextPDFをテキストに変換するために使用します。

Acrobat Reader(Linuxでは少なくともバージョン9)には、複数ファイルの検索機能が制限されています(ディレクトリ内のすべてのファイルを検索できます)。


4

pdftotextはおそらく探しているものです:http : //en.wikipedia.org/wiki/Pdftotext抽出したいテキストが実際にグラフィカルなフォームの下にある場合を除きますが、これはpdfドキュメントでは一般的ではありません。



-1

gPDFTextは電子書籍のPDFコンテンツをASCIIテキストに変換し、長い行の段落用に再フォーマットします。


3
こんにちは、サイトへようこそ。ここでは、回答をもう少し包括的にしたいです。たとえば、gPDFText入手可能な場所、インストール方法、OPの質問への回答に使用する方法を追加できます。
テルドン
弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.