@gungは完全に正しいので、距離行列からデータを作成するための予備ツール として多次元スケーリング(MDS)を推奨しますpoints X dimensions
。ストロークをいくつか追加するだけです。K平均クラスタリングは、ユークリッド距離を意味します。MDSは次元座標を提供し、ユークリッド距離を保証します。目的は2Dまたは3Dにマッピングするのではなく、データの再構築のエラーを最小限に抑えることであるため、メトリックMDSを使用し、できるだけ多くのディメンション数を要求する必要があります。
MDSソフトウェアを手元に持っていないが、固有値分解や特異値分解などの行列関数を持っている場合はどうなりますか?次に、単純なメトリックMDSを自分で実行できます。これは、プリンシパル座標分析(PCoA)とも呼ばれるTorgerson MDSです。それは、主成分分析の少し「ねじれた」ものになります。ここでは説明しませんが、非常に簡単です。あなたはそれについて多くの場所で読むことができます、例えばここ。
最後に、PCoAまたは別のメトリックMDSを実行する関数を呼び出したり記述したりすることなく、「距離行列入力のK-means」を直接プログラムできます。(a)重心からの偏差の二乗の合計は、対ごとの二乗ユークリッド距離の合計をポイント数で割ったものに等しいことを知っています。(b)距離行列からクラスター重心間の距離を計算する方法を知っている。(c)さらに、平方和がK-meansでどのように相互に関連しているかを知っています。すべてを組み合わせることで、複雑な作業ではなく、簡単なアルゴリズムを作成できます。ただし、K-meansはユークリッド距離/ユークリッド空間専用であることを覚えておいてください。非ユークリッド距離には、K-medoidまたは他の方法を使用します。
同様の質問。