k-meansは非正規分布データに使用できますか？

アイリスデータセットのように通常は分散されない多くのデータセットを使用してk平均法をテストする多くの論文を読み、良い結果を得ました。k平均法は正規分布データ用であると理解しているので、なぜ非正規分布データ用にk平均法が使用されているのですか？

たとえば、以下の論文では、正規分布曲線に基づいてk平均から重心を修正し、正規分布されていない虹彩データセットを使用してアルゴリズムをテストしました。

ほとんどすべてのインライア（正確には99.73％）は、母平均から3標準偏差（𝜎）以内の点から重心までの距離を持ちます。

ここで理解できないことはありますか？

Olukanmi＆Twala（2017）。K-means-sharp：外れ値にロバストなk-meansクラスタリングのための変更されたセントロイド更新
アイリスデータセット

normal-distribution outliers k-means

— ユーザー
ソース

これが単に非常に悪い紙である場合はどうなりますか？私には高級な会場のようには聞こえません。

— QUITあり--Anony-Mousse

あなたが論文から引用する主張は、データが正常であるという仮定が先行しています。その論文で不必要に制限されているのは、k-meansが正規性を仮定しているという主張であり、データが一緒に正常でなければ、それは満足できるクラスタリング手順ではない可能性があることを示唆しています。

— CloseToC

論文はIEEEで公開されています

— ユーザー

私の質問は、同じ論文のアイリスデータセットの実験に関するものです。アイリスデータセットが通常は配布されていないことに気づきました。kaggle.com/saurabh00007/iriscsv

— ユーザー

さて、irisデータセット内のインライヤの何％が実際に重心の3 sd以内にあるかを確認しましたかそれはおそらくまだ真実である可能性が高く、分布が正常でない場合は自動的に追跡されません。おそらく、著者はそれを明確にするワンライナーを追加する必要があるだけです。

— smci

回答:

ここに完全な引用があります：

ガウス混合モデル（GMM）のインスタンスであるK平均は、ガウスデータ分布[20] [26]を想定しています。その結果、ほぼすべてのインライア（正確には99.73％）は、母平均から3標準偏差（）以内の点から重心までの距離を持ちます。 $\sigma$

セクションIV.Aに記載されています。

Irisデータセットへのアプリケーションは、お気づきのように、通常は配布されませんが、セクションV（「実験」）に表示されます。

最初に、正規性などの特定の仮定の下でアルゴリズムのプロパティに注目し、その仮定が有効でない場合にそれをテストすることで、論理的な問題が発生しません。

そしてもちろん、k-meansはどのデータセットにも適用できます。それが有用な結果をもたらすかどうかは別の問題です。

— ステファン・コラサ
ソース

ありがとう、標準偏差内の平均点の仮定は、非正規分散データセットでは受け入れられますか？

— ユーザー

それはあなたが仮定するディストリビューションに依存します。

— Stephan Kolassa、

もっと説明できますか？歪んだ正しい分散データセットがある場合、外れ値> mean + 4 stdを追加して、紙の同じ仮定に従って検出することができますか？。

— ユーザー

分布の仮定から始める場合、単に「外れ値を追加する」ことはできません。「外れ値」の確率は、想定している分布によって異なります。（「外れ値」とは何かが疑わしいこともよくあります。）この論文について何かが不明確な場合は、新しい質問を作成する方が良いでしょう。

— ステファンコラサ

このホワイトペーパーの各機能にはエラーが追加されています（データセットの5％〜20％）。このペーパーについて何か不明な点がある場合は、別の質問をします。どうもありがとう。

— ユーザー

質問が正確に何であるかはわかりませんが、標準偏差は正規分布に対して定義されているだけではありません。これは、すべてのデータ分布に関連する指標です。平均から（stdの観点から）離れているほど、このポイントが発生する可能性は低くなります。標準偏差に関する正規分布の唯一の特別な点は、ポイントが1、2、または3標準偏差内で発生する確率を知っていることです（たとえば、ポイントが99.7％の確率で $\pm 3$ 平均からの標準偏差）。

ただし、これは、標準偏差が他の（おそらく不明な）分布に無関係であることを意味するものではありません。それはまだ関連していますが、それに関連する確率はわかりません。

— CaucM
ソース

わかりましたが、この論文では、データセットは正規分布されておらず、データを前提としています（99.7％が平均からの±3標準偏差内にある）。この点に関連する私の質問

— ユーザーの

私はあなたが正しいと思います。私の考えでは、この仮定は誤りです。

— CaucM

The farther away you are from the mean (in terms of std) the more unlikely this point is to occur.これは、マルチモーダル分布には当てはまらない場合があります。

— JAD

他の分布でも1、2、または3標準偏差内で発生する可能性が非常に高いため、これは特別なことではありません。特別なことの1つは、特定の平均と分散について、正規分布が最もエントロピーを持つ分布であるため、平均と分散しかわからない場合は、最大エントロピーの原則en.wikipedia.org/wiki

— etarion

このルールは他のディストリビューションでも機能しますか？

— ユーザー