情報検索と情報抽出の関係と違いは?


11

ウィキペディアから

情報検索は、情報リソースのコレクションから情報ニーズに関連する情報リソースを取得するアクティビティです。検索は、メタデータまたはフルテキストインデックスに基づくことができます。

ウィキペディアから

情報抽出(IE)は、非構造化または半構造化された機械可読ドキュメントから構造化情報を自動的に抽出するタスクです。ほとんどの場合、このアクティビティは自然言語処理(NLP)による人間の言語のテキストの処理に関係しています。画像/音声/ビデオからの自動注釈やコンテンツ抽出などのマルチメディアドキュメント処理における最近の活動は、情報抽出と見なすことができます。

情報検索と情報抽出の関係と違いは何ですか?

ありがとう!

回答:


9

情報の取得クエリに基づいています。必要な情報を指定すると、人間が理解できる形式で返されます。

情報の抽出とは、構造化されていない情報を構造化することです。いくつかのソースを考えると、(関連する)すべての情報は、処理しやすい形式で構造化されています。これは、人間が理解できる形式である必要はありません。コンピュータプログラムを使用する場合のみです。

いくつかの情報源:


7

http://gate.ac.uk/ie/は、非常に優れた簡潔な区別を提供します。

情報抽出は情報検索ではありません。情報抽出は従来の手法とは異なり、キーワード検索(おそらくシソーラスによって拡張された)に基づいて、クエリに関連する可能性のあるドキュメントのサブセットをコレクションから回復しません。代わりに、目的は、さまざまな言語のドキュメントから、事前に指定されたタイプのイベント、エンティティ、または関係に関する顕著な事実を抽出することです。これらの事実は通常、データベースに自動的に入力されます。データベースは、傾向のデータを分析したり、自然言語の要約を提供したり、オンラインアクセスに役立てたりするために使用できます。

絵で表現するには:

情報検索では、関連する一連のドキュメントを取得します。

ここに画像の説明を入力してください

情報抽出は、ドキュメントから事実を取得します。

ここに画像の説明を入力してください


2

モデリングの観点から見ると、情報検索は、統計学、数学、言語学、人工知能、そして現在のデータサイエンスなど、いくつかの分野に基づいた深い分野です。実際には、これらのモデルはコーパス内のテキストに対して適用され、データのパターンを発見します。IRモデルはその使用法が重複しているだけでなく、k-meansやk-nearestネイバーモデルなどの他のモデルと「パートナー」でき、LDA / LDIなどの計算言語学の観点から他のモデルを適用できますトピックのモデリング次に、最終的なゲームは、この発見のある種の情報の視覚化です。情報の検索は不可解な規律のように見えるかもしれませんが、大変感謝しています。は、各モデルとモデル間の相互作用をより深く理解するための領域を切り開いています。IRの基礎を掘り下げるのに最適な場所として、「情報概念、検索、およびサービスに関する総合講義」シリーズを挙げます。

IRと情報抽出を完全に分離しているわけではありませんが、IEのサブセットであるコンセプトレベルの抽出では、関連するオントロジーを抽出するために、AIベースの推論ルールと共にIRパターンを適用します。これらの関係のグラフィカルな性質は、OWLとRDFのオントロジーモデリング、およびグラフデータベースによって強化されています。これにより、厳密ではない、または厳密でない一連の関係モデリングが可能になり、それ自体を制御するのではなく、より多くの関係を表面に関連付けることができます。情報抽出を動的に成長させる能力は、その「規律」を研究者にとって非常に興味深いものに保ちます。

IRとIEの両方が、「ダイナミックオントロジー」と呼ばれる独自の重要な「瞬間のエンティティ」で実行されます。一部はPalantirです。新しい情報源のモーフィングと既存の情報の変更の顔。概念、関係、定義、パターン、および存在論的モデリングは柔軟で、視覚化は同じでなければなりません。情報抽出および推論分野でのワトソンなどのAIエンジンの大幅な強化は、IEと率直に言ってIR分野に脚光を浴びています。また、自然言語処理と機械学習の普及は、IRおよびIEモデルとエンジンに注目を集めています。IRモデルが検索とSEO、およびセマンティックWebモデリングに与える影響は、その1つです」


1

情報の取得とは、特定のクエリまたは関心のあるフィールドに関連する情報を返すことです。この情報は一般的なドキュメントの形式である場合もあります。十分な検索エンジンがそのようなタスクの注目すべき例であることを確認してください。情報検索で認識できる最も重要なエンティティは、ドキュメント/情報の最初のセットと、「何を検索するか」を指定するクエリです。

一方、情報抽出とは、一連のドキュメントまたは情報から一般的な知識(または関係)を抽出(または推測)することです。ここで、ドキュメントのすべてのコンテンツは、知識を抽出するデータのコーパス全体と見なすことができます。もちろん、この場合でも、何を抽出するかをどうにか指定できますが、それは特定の主題/トピックよりもプロパティ/関係についてです。プロパティはドメイン固有ですが、一般的にリレーションはより一般的なシナリオをカバーしています。

繰り返しますが、検索エンジンでは、特定の主題に関する情報を含む可能性が最も高いサイトを取得するように求めています。情報検索の例です。

以下のための情報抽出あなたの代わりに、例えば、文書のコーパスに表示されるすべての都市の名前、または電子メールアドレスを抽出するために求めることができます。単純に知識を抽出するように依頼して、はるかに一般的なものにすることもできます。ご覧のとおり、これは非常に一般的ですが、たとえば、テキストの有効な文ごとにsubject-action-objectという形式のトリプレットを取得することで実現できます(これは自然言語テキストに最適です)。

これらの(およびその他の)トピックに興味がある場合は、 『Arti ficial Intelligence:A Modern Approach』の自然言語処理の章で詳しく説明しています。

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.