テストポイントから各クラスのポイントまでの平均距離に基づく分類アルゴリズム


7

平均距離が最小のポイントのクラスターに新しいテストベクトルを割り当てる分類アルゴリズムはありますか?

もっと上手に書いてみましょう:それぞれにポイントの個のクラスターがあるとしましょう。各クラスターkについて、x(0)x(i)の間のすべての距離の平均を計算します。ここで、x(i)はクラスターk内の点です。KTkx(0)x(i)x(i)k

テストポイントは、このような距離が最小のクラスターに割り当てられます。

これは有効な分類アルゴリズムだと思いますか?理論的には、クラスターが線形フィッシング判別マッピング後のように「整形式」である場合、良好な分類精度が得られるはずです。

このアルゴをどう思いますか?私は試しましたが、その結果、分類は要素数が最大のクラスターに強く偏っています。

def classify_avg_y_space(logging, y_train, y_tests, labels_indices):
    my_labels=[]
    distances=dict()
    avg_dist=dict()
    for key, value in labels_indices.items():
        distances[key] = sk.metrics.pairwise.euclidean_distances(y_tests, y_train[value])
        avg_dist[key]=np.average(distances[key], axis=1)

    for index, value in enumerate(y_tests):
      average_distances_test_cluster = { key : avg_dist[key][index] for key in labels_indices.keys() }
      my_labels.append(min(average_distances_test_cluster, key=average_distances_test_cluster.get))
    return my_labels

それは割り当てと呼ばれます。ポイントとクラスの間の距離関数-リンケージ関数(stats.stackexchange.com/a/217742/3277を参照)は、使用している平均リンケージの間だけでなく、使用できます。各種連携機能による代入を行うSPSSの機能を実装しました。
ttnphns 2017年

回答:


9

これはいいアイデアですが、大きな欠点が1つあります。データの広がりに非常に敏感です。

質問を明確にするために、互いに素なクラスター与えられた場合、ルールに従って新しいサンプルを分類することが理にかなっているかどうかを尋ねますkC1,,Ckx

argmini[k]1|Ci|xCixx

このルールは、ような、よく知られているアルゴリズムとして存在するルールと実際に似ていることに注意してください。これは実際には1-最近傍-またはで呼ばれるが、クラスタの割り当てのためのkによって使用された場合にLDAに見ることができる場合、基礎となる共分散行列は(スカラーまでの)単位です。(一般に、LDAはクラスターの形状[スプレッド+方向]も考慮に入れます)。

argmini[k]minxCixx
argmini[k]1|Ci|xCixx
sklearnNearestCentroid

多くの場合、提案されたルールはNearestCentroid、特にクラスターが十分に分離されており、分散が類似している場合に動作します(そのような場合、重心からの距離に関して平均距離を制限することは可能だと思います)。

ただし、クラスター内のすべてのポイントの距離を平均化するため、露骨に低分散クラスターに偏っています。私はあなたが気づいた誤ったラベル付けの真の原因であると信じています。

この効果を説明するために、分類子の決定境界をプロットできます。プロットは恥知らずにsklearn例に基づいています。

ここに画像の説明を入力してください

前のプロットでは、異なる正規分布から2つのデータセットを生成しました。紫はから来ました黄色はから来ました次に、スペースの各ポイントがルールに従って色付けされます。領域を区切る線が決定境界です。紫色のクラスターには200ポイント、黄色のクラスターには50ポイントがあります。マーク各クラスタの重心。LDAとNearest Centroidの違いを強調するために、紫色のクラスターは軸と整列していません。

N((03),(10221)2)
N((03),(1001))
+

これは、直感的でない点の優れたイラストです。ありがとう、そしてCVへようこそ!
ステファンコラサ2017年

+1とてもいいですが、左上のプロットに混乱しています。最も近い重心には、2つの重心を結ぶ線に垂直な決定境界が必要です。これはそうではないようです。
amoeba

答えの中で絵を説明してください。特に、2つの領域の境界線は何ですか。
ttnphns 2017年

@amoebaそうです。ただし、軸は同じ縮尺ではないことに注意してください(同じ理由で、黄色のクラスターは円の形状ではありません)。
tmrlvi 2017年

@ttnphns 2つのエリア間のライン境界線は、決定境界です。記事に説明を追加しました。
tmrlvi 2017年
弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.