尖度によって生成された外れ値の処理


10

誰かが尖度に関する情報を手伝ってくれるかどうか疑問に思っていました(つまり、データを変換して削減する方法はありますか?)

多数のケースと変数を含むアンケートデータセットがあります。いくつかの変数について、データはかなり高い尖度値(すなわち、レプトクルト分布)を示しています。これは、多くの参加者が変数に対して正確に同じスコアを与えたという事実から派生しています。私は特に大きなサンプルサイズを持っているので、中心極限定理によれば、正規性の違反はまだ問題ないはずです。

ただし、問題は、特に高レベルの尖度が私のデータセットに多くの単変量の外れ値を生成しているという事実です。そのため、データを変換したり、外れ値を削除/調整したりしても、高レベルの尖度は、次に最も極端なスコアが自動的に外れ値になることを意味します。(判別関数分析)を利用することを目指しています。DFAは、違反が外れ値ではなく歪度によって引き起こされている場合、正常からの逸脱に対して堅牢であると言われています。さらに、DFAはデータの外れ値の影響を特に受けているとも言われています(Tabachnick&Fidel)。

これを回避する方法のアイデアはありますか?(私の最初の考えは尖度を制御する何らかの方法でしたが、私のサンプルのほとんどが同様の評価を与えているのであれば、それは一種の良いことではありませんか?)

回答:


8

問題を解決する明白な「常識」の方法は

  1. 完全なデータセットを使用して結論を取得します。つまり、中間計算を無視してどのような結果を宣言しますか?
  2. 上記の「外れ値」を削除したデータセットを使用して結論を取得します。つまり、中間計算を無視してどのような結果を宣言しますか?
  3. ステップ2とステップ1を比較する
  4. 違いがない場合は、問題があることを忘れてください。外れ値はあなたの結論とは無関係です。外れ値は、これらのデータを使用して引き出された可能性のある他のいくつかの結論に影響を与える可能性がありますが、これはあなたの作業には無関係です。それは誰か他の人の問題です。
  5. 違いがある場合は、基本的に「信頼」の質問があります。これらの「外れ値」は、分析について何かを本当に表しているという意味で本当ですか?あるいは、「外れ値」は、「汚染されたソース」に由来するという点で悪いのでしょうか。

状況5では、基本的に、「母集団」を説明するために使用した「モデル」が不完全であるというケースがあります。詳細は明記されていませんが、結論には重要です。これを解決するには、2つの「信頼」シナリオに対応する2つの方法があります。

  1. 「外れ値」を説明するように、モデルにいくつかの追加の構造を追加します。したがって、代わりに、検討してください。P(D|θ)P(D|θ)=P(λ|θ)P(D|θ,λ)dλ
  2. 「model-model」を作成します。1つは「良い」観測用、もう1つは「悪い」観測用です。だから、代わりにあなたが使用するであったuが得られる確率でありますサンプルの「良好な」観測値、GBは「良好な」データと「不良な」データのモデルを表します。P(D|θ)P(D|θ)=G(D|θ)u+B(D|θ)(1u)

「標準」手順のほとんどは、この種のモデルの近似であることが示されています。最も明白な方法は、ケース1を考慮することです。この場合、分散は観測全体で一定であると想定されています。この仮定を分布に緩和すると、混合分布になります。これは、「正規」と「t」の分布の間の関係です。法線には一定の分散がありますが、「t」は異なる分散にわたって混合しますが、「混合」の量は自由度に依存します。高いDFは混合が少ないことを意味し(外れ値はありそうもない)、DFが低いことは高い混合を意味します(外れ値がありそうです)。実際、ケース2をケース1の特殊なケースとして捉えることができます。この場合、「良好」な観測は正常で、「不良」観測はコーシー(tは1 DF)です。



明確にするための注記:最適な分類には、真の多変量分布の知識が必要です。これらの分布をうまく推定できる場合、結果の分類関数はほぼ最適です。(尖度によって示される)外れ値は、密度を推定する領域にデータがほとんどないため、実際に問題があります。多変量データでは、次元の呪いもこの問題の一因となります。
Peter Westfall、2017年
弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.