Microsoft WordのGrep?


10

Microsoft WordのGrep?

Word文書から特定の文字列を含むすべての行を引き出したいのですが。UNIXの世界では... grepは問題なくこれを行います。Windowsは私には自明ではありません。

回答:


10

Cygwin(またはLinuxマシンへのアクセス)を使用すると、

antiword file.doc | grep "my phrase"

または

catdoc file.doc | grep "my phrase"

同様の方法でgrepを実行するためのコマンドラインファイル形式コンバーターはたくさんあります。

純粋で-Wordのソリューションがある可能性がありCtrlキー+ F(検索)した後、すべての検索 - MS Wordのすべてのバージョンがしている場合しかし、私はわからないすべての検索ボタンをクリックします。


2
質問のタイトルを見たとき、「はあ、いいね、」って思った。GNUプログラマーを過小評価してはならない。
Phoshi、2009年

/ にcatdoc指定したすべての.doc/ .docxファイルに最新バージョンのsegfaults が表示されantiword、「Word文書ではない」という文書が表示されます。他のオプションを知っていますか?
14年

私が使用したものはありません...クイック検索はdocx2txt、Debianリポジトリに存在することを示しています-うまくいくかもしれません。また、同じ目的で使用できるOpenOffice / LibreOfficeコマンドライン形式変換ユーティリティ(unoconv)も調べます。
クロノス2014

3

これは原始的なように聞こえるかもしれませんが、ファイルを.txtとして保存して、好みに応じてそれをリッピングすることを妨げているのは何ですか。


2
何百人もの人たちがそれをするために持っているのです。
tchrist

1

Wordのコンテキストで「行」とはどういう意味ですか?表示される行。ページの書式設定に何か変更を加えると変わりますか?段落?他に何か?

Wordの検索と置換機能を使用して、書式の変更やその他の自明ではないことなど、さまざまなことができますが、それらはすべて、周囲のテキストではなく、検索対象のテキスト自体にのみ作用します。


しかし、grepはその正規表現が好きです!
Phoshi 2009年

1

私が無料のオープンソースツールとして開発したCRGREPでは、MSドキュメント(Word、PowerPoint、Excel)のサポートがあります。また、データベーステーブル、画像、オーディオ、アーカイブ、PDF、およびこれらの組み合わせなど、他の検索が難しいものも検索します。楽しんで。



0

コメントするのに十分な担当者がいませんが、このドキュメントとdocxの問題が議論されているのを見ることができるので、スレッドを追跡している人(私がそうであったように)なら誰でもこれが役立つでしょう。

docxファイル用の特別なツールは必要ありません。docxは圧縮されたXMLファイルです。

XMLを抽出して取り除くには、

unzip -p "*.docx" word/document.xml | sed -e 's/<[^>]\{1,\}>//g; s/[^[:print:]]\{1,\}//g'

コマンドラインから


弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.