LinuxのすべてのMS Officeドキュメントタイプ(Word、Excel、Powerpoint)からテキストを抽出する方法が必要です。これを実現するには、BashまたはPythonスクリプト、PDFに変換してからpdftotextなどのツールを使用してテキストを抽出するなど、いくつかの異なるアプローチが考えられます。
これは、当たり前の要件かもしれないようです。これを簡単に達成するための確立された手順またはツールはありますか?
LinuxのすべてのMS Officeドキュメントタイプ(Word、Excel、Powerpoint)からテキストを抽出する方法が必要です。これを実現するには、BashまたはPythonスクリプト、PDFに変換してからpdftotextなどのツールを使用してテキストを抽出するなど、いくつかの異なるアプローチが考えられます。
これは、当たり前の要件かもしれないようです。これを簡単に達成するための確立された手順またはツールはありますか?
回答:
Catdocはdoc、xlsおよびpptをテキストに変換できます。2番目のオプションはwvWareです。
utilsチェックの詳細については、http://www.linux.com/archive/articles/52385をチェックして、単語からテキストへの変換者と
私はついにスクリプト解析ドキュメント解析のための完璧なツールを見つけました。それはapache-tikaで、膨大な数の非テキスト形式を非常にクールなテキストに解析できます!
ここでApache Tikaを入手してください:
(マック自作ユーザー:brew install tika
)
コマンドラインインターフェイスは次のように機能します。
tika --text something.docx > something.txt
Abiwordは、知っている任意のファイル形式間でコマンドラインから変換できます。
Wordからプレーンテキストに変換します。
abiword --to=txt myfile.doc
WordファイルからPDFを作成します。
abiword --to=pdf myfile.doc
等々。これらの場合の結果は、myfile.txtまたはmyfile.pdfになります。出力名を指定する場合は、それも実行できます。
abiword --to=txt --to-name=output.txt myfile.doc
ODTをWordに変換します。
abiword --to=doc myfile.odt
WordをODTに変換します。
abiword --to=odt myfile.doc
他の回答との公平性において、AbiWordはwvWareを使用してWord文書を処理することに注意する必要がありますが、wvWareホームページでさえ、ほとんどの変換ではなくAbiWordの使用を推奨しています。
ワープロが嫌いです。これが、AbiWordがインストールされている主な理由です。
また、unoconvにも興味があるかもしれません。これはOpenOfficeが知っている形式(スプレッドシートなどを含む)をサポートする同様のツールですが、個人的には経験がありません。
CUPS(仮想プリンター)を使用し、ldを使用することもできます。
Docsplitは、pdfからテキストを抽出するのに最適なツールです。それはルビーの宝石です。そのため、docsplitコマンドを使用する前に、Linuxシステムにrubyとgemをインストールする必要があります。
システムにrubyとgemがない場合は、指示に従ってください。
ソフトウェアをインストールするにはrootである必要があります(すべてのユーザーが利用できるようにしたい場合)。
Linuxにruby
をインストールします。yuminstall ruby gemをインストールします。最新のgemパッケージをダウンロードして、指示に従ってください。
tar xzf rubygems-xxxx.tgz
cd rubygems-xxxx
ruby setup.rb
RubyGemsがインストールされたので、gemコマンドが必要です(gemはRubyGemsパッケージシステムと対話するために使用されるコマンドです)。次を実行してテストします。
宝石リスト
次に、次のステップに進み、docsplit gemをインストールします。次のサイトにアクセスしてください。 http://documentcloud.github.com/docsplit/