フルテキストインデックスエンジンなど、コマンドラインからクエリを実行でき、理想的にはGUIを使用する必要がないものはありますか?
電子書籍や論文の索引付けに特に興味があるので、pdf、epub、いくつかのdjvuが混在しています。(Open)Office docsはいいですが、私のリストではずっと低いです。
フルテキストインデックスエンジンなど、コマンドラインからクエリを実行でき、理想的にはGUIを使用する必要がないものはありますか?
電子書籍や論文の索引付けに特に興味があるので、pdf、epub、いくつかのdjvuが混在しています。(Open)Office docsはいいですが、私のリストではずっと低いです。
回答:
LuceneまたはSphinxを見ましたか?最初にインデックスを作成するドキュメントを解析する必要がありますが、それが完了すると、どちらかがcliから検索できます。
Luceneには、これを行うための情報があります。
Sphinxはもう少し曖昧ですが、いくつかのドキュメントも利用できます。xmlpipe2データソースを介して、選択した構造化XMLデータをsphinxに渡すことができます。
LuceneはJavaに依存していますが、Sphinxは外部依存関係を必要としないC ++で構築されています。
どちらもあなたが望むことをするのに少しの作業を必要としますが、完全に実行可能な解決策のようです。
トラッカーはコマンドラインから呼び出すことができ、gtk +はプロジェクトの強い依存関係ではありません(ただし、パッケージの場合もあります)。
この回答では、Googleのcodesearchの使用を推奨しています。
コード検索は、大量のソースコードに対してインデックスを作成し、正規表現検索を実行するためのツールです。
Debian / derivativesのスーパーユーザーは以下を試すことができます: sudo apt-get install codesearch
現在、安定版(0.8)と不安定版(0.9)の2つのトラッカーストリームがあります。お使いのOSはおそらくあなたが(それはいくつかあり、それを余裕があれば、0.8バージョンを持っている最先端のソフトウェアの依存関係)を、最新のtarファイル(0.9.x)をつかむ行きます。それは有する改良の多く 0.8上を、そして現在、安定化されている(偶数安定性を表す)0.10であるためにさらなる。このルートを選択した場合は、次のコマンドを使用して構成します。
./configure --disable-tracker-needle --disable-tracker-preferences --disable-tracker-explorer --disable-tracker-status-icon
依存関係はインストールされない可能性が高いため、単にディストリビューションから0.8をインストールし、GUIビットを回避する方が簡単です。Debian Squeeze、Ubuntu 10.10、およびUbuntu 11.04では、これらはうまく分割されています。(rootとして)実行:
apt-get install --no-install-recommends tracker-utils tracker-miner-fs
このためのCLIツールはtracker-search
ですので、--help
オプションを使用して実行し、その活用方法を確認してください:-)
注:
tracker-applet
とtracker-preferences
。ただしtracker-search-tool
、GUIの検索インターフェイス用に別のパッケージがあります。私は、この夏Sqlite3を使用してNetBSDのmanページを索引付けおよび検索するための全文検索ツール(新しいapropos)の作成に取り組みました。次の2つのコマンドラインツールで構成されています。
同様のツールを自分で簡単に作成できます。pdfの場合、pdfドキュメントを解析するためのライブラリと、同様にオープンオフィスドキュメントを解析するためのユーティリティが必要になります。
プロジェクトの詳細についてはこちらをご覧ください
コードはこちら