こんにちは、データサイエンススタックの最初の質問です。テキスト分類のアルゴリズムを作成したい。大量のテキストと記事があるとします。約5000のプレーンテキストとしましょう。最初に単純な関数を使用して、4つ以上のすべての文字単語の頻度を決定します。次に、これを各トレーニングサンプルの機能として使用します。ここで、私のアルゴリズムがトレーニングセットをその特徴に応じてクラスター化できるようにしたいと思います。これは、記事内の各単語の頻度です。(この例では、記事ごとに異なる機能があるため、記事ごとに独自の機能があります。たとえば、記事には10の「水」と23の「純粋」があり、別の記事には8の「政治」と14の「レバレッジ」があります)。この例に最適なクラスタリングアルゴリズムを提案できますか?