私には次の問題があります:非常に長い単語のリスト、おそらく名前、姓などがあります。この単語リストをクラスタ化する必要があります。同じクラスター。たとえば、「algorithm」と「alogrithm」は同じクラスターに表示される可能性が高いはずです。
パターン認識の文献で、k-meansクラスタリング、EMクラスタリングなどの古典的な教師なしクラスタリング手法をよく知っています。ここでの問題は、これらのメソッドがベクトル空間にあるポイントで機能することです。私はここで手に弦の言葉を持っています。私のこれまでの調査努力によれば、数値ベクトル空間で文字列を表現し、文字列クラスタの「平均」を計算する方法の問題は十分に答えられていないようです。この問題を攻撃するための単純なアプローチは、k-Meansクラスタリングとレーベンシュタイン距離を組み合わせることですが、「ストリングの「手段」をどのように表現するのか?」という疑問は残ります。TF-IDFウェイトと呼ばれるウェイトがありますが、それは単一の単語のクラスタリングではなく、「テキストドキュメント」クラスタリングの領域にほとんど関連しているようです。 http://pike.psu.edu/cleandb06/papers/CameraReady_120.pdf
この分野での検索はまだ続いていますが、ここからもアイデアを得たいと思いました。この場合、何をお勧めしますか?この種の問題の方法を知っている人はいますか?
It seems that there are some special string clustering algorithms
。統計/データ分析ではなく、特にテキストマイニングフィールドから来ている場合、このステートメントは保証されます。ただし、クラスタリングブランチをそのまま習得すると、文字列データ用の「特別な」アルゴリズムが存在しないことがわかります。「特殊」とは、クラスター分析に入力する前に、このようなデータを前処理する方法です。