「A」は「B」および「C」に関連しています。このコンテキストによって、「B」と「C」が関連している可能性があることをどのように示しますか?
例:
最近のブロードウェイのプレイに関するいくつかの見出しがあります。
- アル・パチーノ主演のデビッド・マメットのグレンガリー・グレン・ロスがブロードウェイにオープン
- 「グレンガリーグレンロス」のアルパチーノ:批評家はどう思いましたか?
- アル・パチーノがブロードウェイのターンで不振のレビューを獲得
- 劇場レビュー:グレンガリーグレンロスはそのスターを激しく売っています
- グレンガリーグレンロス; ねえ、誰がKlieg Lightsを殺したの?
問題:
これらのレコードに対してファジー文字列一致を実行すると、人間の読者がより大きなデータセットのコンテキストからそれらを選択できたとしても、いくつかの関係が確立されますが、他の関係は確立されません。
#3が#4に関連していることを示唆する関係を見つけるにはどうすればよいですか?どちらも#1に簡単に接続できますが、相互には接続できません。
この種のデータまたは構造に(Googlable)名前はありますか?どのようなアルゴリズムを探していますか?
ゴール:
千の見出し、自動的にこれらの5つの項目がすべてであることを示唆しているシステムを考えると、おそらく同じことについて。
正直に言うと、プログラムを作成してから長い時間が経ち、この問題を適切に表現する方法に途方に暮れています。(それが理にかなっている場合、私は知らないことを知りません)。
これは個人的なプロジェクトであり、私はPythonで書いています。ヘルプ、アドバイス、およびポインタを事前に感謝します!