データで微妙な関係を表現するにはどうすればよいですか?


20

「A」は「B」および「C」に関連しています。このコンテキストによって、「B」と「C」が関連している可能性があることをどのように示しますか?

例:

最近のブロードウェイのプレイに関するいくつかの見出しがあります。

  1. アル・パチーノ主演のデビッド・マメットのグレンガリー・グレン・ロスがブロードウェイにオープン
  2. 「グレンガリーグレンロス」のアルパチーノ:批評家はどう思いましたか?
  3. アル・パチーノがブロードウェイのターンで不振のレビューを獲得
  4. 劇場レビュー:グレンガリーグレンロスはそのスターを激しく売っています
  5. グレンガリーグレンロス; ねえ、誰がKlieg Lightsを殺したの?

問題:

これらのレコードに対してファジー文字列一致を実行すると、人間の読者がより大きなデータセットのコンテキストからそれらを選択できたとしても、いくつかの関係が確立されますが、他の関係は確立されません。

#3が#4に関連していることを示唆する関係を見つけるにはどうすればよいですか?どちらも#1に簡単に接続できますが、相互には接続できません。

この種のデータまたは構造に(Googlable)名前はありますか?どのようなアルゴリズムを探していますか?

ゴール:

千の見出し、自動的にこれらの5つの項目がすべてであることを示唆しているシステムを考えると、おそらく同じことについて。

正直に言うと、プログラムを作成してから長い時間が経ち、この問題を適切に表現する方法に途方に暮れています。(それが理にかなっている場合、私は知らないことを知りません)。

これは個人的なプロジェクトであり、私はPythonで書いています。ヘルプ、アドバイス、およびポインタを事前に感謝します!


1
自然言語解析やその他の確率的手法が必要なように聞こえます
jk。

2
これは素晴らしい質問です!
マイケルブラウン

Prologに実装されたこれを実行できるシステムを見たと思います。
FrustratedWithFormsDesigner

1
@FrustratedWithFormsDesigner 論理プログラミング統一を考えているのではないかと思います。
イズカタ

回答:



7

あなたはセマンティクスの世界に入ります。テキストを解析して主要な概念(いくつかのSemantic APIのクイック検索)を引き出し、フリーフォームドキュメントを解析し、人、場所、物、日付、概念などの主要なトピックを返すパブリックサービスがあります。 。優れたもののいくつかは、[RDF]として知られる形式で返されます。

これを行うことができる独自のシステムを構築する場合、フィールドは自然言語処理であり、これは非常に興味深いウサギの穴です。


4

可能であれば、見出しとともにストーリーを入手してください。見出しは時々「キュート」になり、議論されている内容に対して接線方向の参照のみを行うことができます。これは人間には問題なく動作します(グローバルコンテキストがあるため)が、NLPではあまりうまくいきません。

Karl Bielefeldtの答えで述べたように、クラスタリングは良いアプローチですが、悪魔は詳細にあります。問題/ユーザー空間に適合するクラスタリング手法を選択するだけでなく、クラスター化されているものを把握する必要もあります。

私の背景は80年代から90年代の情報検索(IR)であり、類似検索重心ベースのクラスタリングに焦点を当てました。私たちのドキュメントは、基本的に用語のリストとドキュメント内での相対的な重要度である重み付き属性ベクトルで表されました。このアプローチは機能しますが(一部のコレクションでは他のコレクションよりも優れていますが)、短いキュートな見出しに問題があります。しかし、ドキュメント全体を使用すると、より豊富な用語のリスト(そしておそらく重要度の高い感覚)が得られ、その用語のリストはおそらく、見出しがあるときに接続を見つけやすくします(つまり、計算します) "可愛い"。

ベクトル生成の問題などを知りたい場合は、私のプロフィールに私のメールがあります。

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.