テキスト処理でのクラスタリングの使用


11

こんにちは、データサイエンススタックの最初の質問です。テキスト分類のアルゴリズムを作成したい。大量のテキストと記事があるとします。約5000のプレーンテキストとしましょう。最初に単純な関数を使用して、4つ以上のすべての文字単語の頻度を決定します。次に、これを各トレーニングサンプルの機能として使用します。ここで、私のアルゴリズムがトレーニングセットをその特徴に応じてクラスター化できるようにしたいと思います。これは、記事内の各単語の頻度です。(この例では、記事ごとに異なる機能があるため、記事ごとに独自の機能があります。たとえば、記事には10の「水」と23の「純粋」があり、別の記事には8の「政治」と14の「レバレッジ」があります)。この例に最適なクラスタリングアルゴリズムを提案できますか?

回答:


5

Ted PedersenのSenseCluster(http://senseclusters.sourceforge.net/)を読んだことがあるかどうかはわかりません。センスクラスタリングのための非常に優れた論文。

また、言葉を分析するときは、「コンピュータ」、「コンピュータ」、「コンピュータ」、...は1つの概念を表すので、1つの機能だけを表すと考えてください。正しい分析には非常に重要です。

クラスタリングアルゴリズムについて説明するには、階層的クラスタリングを使用できます。アルゴの各ステップで、特徴に応じて2つの最も類似したテキストをマージします(非類似度の尺度、たとえばユークリッド距離を使用)。非類似度の測定値を使用すると、クラスターの数が最も多くなるため、テキストや記事に最適なクラスターを見つけることができます。

幸運を :)


6

既存のパスを続行したい場合は、コーパス全体での人気度によって各用語の頻度を正規化することをお勧めします。そのため、まれで予測可能な単語が促進されます。次に、ランダムな投影を使用して、これらの非常に長いベクトルの次元をサイズに減らし、クラスタリングアルゴリズムが適切に機能するようにします(高次元の空間でクラスター化したくない)。

しかし、トピックモデリングには他の方法があります。詳細については、このチュートリアルをお読みください。



弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.