アイリスデータセットのように通常は分散されない多くのデータセットを使用してk平均法をテストする多くの論文を読み、良い結果を得ました。k平均法は正規分布データ用であると理解しているので、なぜ非正規分布データ用にk平均法が使用されているのですか?
たとえば、以下の論文では、正規分布曲線に基づいてk平均から重心を修正し、正規分布されていない虹彩データセットを使用してアルゴリズムをテストしました。
ほとんどすべてのインライア(正確には99.73%)は、母平均から3標準偏差(𝜎)以内の点から重心までの距離を持ちます。
ここで理解できないことはありますか?
- Olukanmi&Twala(2017)。K-means-sharp:外れ値にロバストなk-meansクラスタリングのための変更されたセントロイド更新
- アイリスデータセット
iris
データセット内のインライヤの何%が実際に重心の3 sd以内にあるかを確認しましたか それはおそらくまだ真実である可能性が高く、分布が正常でない場合は自動的に追跡されません。おそらく、著者はそれを明確にするワンライナーを追加する必要があるだけです。