たとえば、プログラミングに関する文字列とプログラミングに関する他の文字列、物理学に関する文字列と物理学に関する他の文字列などを、さまざまなトピックについてグループ化しようとしています。問題の明白な理論的な言語的側面にもかかわらず、私は実際にプログラミング/ソフトウェアを使用してこれを行うことを探しています。
まとめ:多数の文字列がある場合、それらをセマンティックテーマでグループ化するにはどうすればよいですか?
特定のアプリケーション:一般的なグループ(車、コンピューター、政治、カナダ、食品、バラクオバマなど)に分類したい約20万の雑学クイズがあります。
調べた内容:ウィキペディアには自然言語処理ツールキットのリストがあります(私がやろうとしていることが実際にはNLPと呼ばれていると仮定しています)。
注:これを行うには追加の知識が必要であることが指摘されています(たとえば、ポルシェは自動車であり、C ++はプログラミング言語です)。次に、トレーニングデータが必要だと思いますが、質問と回答のリストしかない場合、どうすればトレーニングデータを生成できますか?次に、トレーニングデータをどのように使用しますか?
その他のメモ: Q&Aヘルプの現在のフォーマット(JSONのように見えますが、基本的には未加工のテキストファイルです)の場合:
// row 1: is metadata
// row 2: is a very specific kind of "category"
// row 3: is the question
// row 4: is the answer
{
15343
A MUSICAL PASTICHE
Of classical music's "three B's", he was the one born in Hamburg in 1833
Johannes Brahms
}
しかし、誰かがすでにカテゴリが存在していると指摘する前に、このように約20万の質問と回答があり、基本的には「カテゴリ」がいくつもあることに注意してください。私はこれらを上記のようなより広いグループにグループ化しようとしています。また、この書式はすべての質問に対して簡単に変更できます。プログラムで変更します。
さらに注意:自分ですべての質問を読んだわけではないので、必要なカテゴリの数(少なくとも10〜20)は実際にはわかりません。分類中に何らかの方法で有限数が決定されることを部分的に期待していました。いずれにせよ、私はいつでも手動でいくつかのカテゴリを作成できます。