誰かが尖度に関する情報を手伝ってくれるかどうか疑問に思っていました(つまり、データを変換して削減する方法はありますか?)
多数のケースと変数を含むアンケートデータセットがあります。いくつかの変数について、データはかなり高い尖度値(すなわち、レプトクルト分布)を示しています。これは、多くの参加者が変数に対して正確に同じスコアを与えたという事実から派生しています。私は特に大きなサンプルサイズを持っているので、中心極限定理によれば、正規性の違反はまだ問題ないはずです。
ただし、問題は、特に高レベルの尖度が私のデータセットに多くの単変量の外れ値を生成しているという事実です。そのため、データを変換したり、外れ値を削除/調整したりしても、高レベルの尖度は、次に最も極端なスコアが自動的に外れ値になることを意味します。(判別関数分析)を利用することを目指しています。DFAは、違反が外れ値ではなく歪度によって引き起こされている場合、正常からの逸脱に対して堅牢であると言われています。さらに、DFAはデータの外れ値の影響を特に受けているとも言われています(Tabachnick&Fidel)。
これを回避する方法のアイデアはありますか?(私の最初の考えは尖度を制御する何らかの方法でしたが、私のサンプルのほとんどが同様の評価を与えているのであれば、それは一種の良いことではありませんか?)