統計とビッグデータ outliers

4

ここでの質問に続いて、外れ値を検出するための標準偏差の使用について、または反対の強い見解があるのではないかと考えています（たとえば、2標準偏差を超えるデータポイントは外れ値です）。これは研究の文脈に依存していることを知っています。例えば、データポイントの48kgは確かに赤ちゃんの体重の研究では外れ値になりますが、大人の体重の研究ではそうではありません。外れ値は、データ入力ミスなどの多くの要因の結果です。私の場合、これらのプロセスは堅牢です。私が尋ねている質問は、標準偏差を使用して外れ値を検出するための適切な方法ですか？

27 outliers

1

PCAが外れ値に敏感なのはなぜですか？

このSEには、主成分分析（PCA）への堅牢なアプローチを説明する多くの投稿がありますが、そもそもPCAが外れ値に敏感である理由についての良い説明を見つけることができません。

26 machine-learning pca outliers

4

RANSACが統計で最も広く使用されていないのはなぜですか？

コンピュータービジョンの分野から来て、私はRANSAC（ランダムサンプルコンセンサス）メソッドを使用して、多くの外れ値を持つデータにモデルを適合させてきました。ただし、統計学者によって使用されるのを見たことはなく、「統計的に健全な」方法とは見なされていないとの印象を受けていました。どうしてこんなことに？本質的にランダムであるため、分析が難しくなりますが、ブートストラップ方法も同様です。または、単に学術的なサイロが互いに話し合っていない場合ですか？

26 outliers bootstrap robust

3

時系列ベースの異常検出アルゴリズムへのウェーブレットの適用

私はを通じて、私のように動作し始めてきたアンドリュー・ムーアによって統計的データマイニングチュートリアル（非常に誰が最初にこの分野に進出を推奨します）。「時系列ベースの異常検出アルゴリズムの概要」というタイトルの非常に興味深いPDFを読むことから始めました。ムーアは、病気の発生を検出するアルゴリズムの作成に使用される多くのテクニックを追跡します。スライドの途中の27ページで、彼は、アウトブレイクの検出に使用される他の多くの「最先端の方法」をリストしています。最初にリストされているのはウェーブレットです。ウィキペイダは、ウェーブレットを次のように説明していますゼロから始まり、増加し、その後ゼロに戻る振幅を持つ波状の振動。通常、「簡単な振動」として視覚化できます。統計への適用については説明していません。私のGoogle検索では、ウェーブレットが統計または主題に関する完全な書籍にどのように関連するかを知っている高度な学術論文が生成されます。 Mooreがチュートリアルで他のテクニックを説明するのと同じように、時系列の異常検出にウェーブレットがどのように適用されるかについての基本的な理解をお願いします。誰かが、ウェーブレットを使用した検出方法の仕組みの説明や、その問題に関する理解可能な記事へのリンクを提供できますか？

25 time-series outliers signal-processing wavelet

3

歪んだ分布での外れ値の検出

データポイントとしての上位値または下位四分位数からの1.5 * IQRを超える外れ値の古典的な定義では、非歪分布の仮定があります。歪んだ分布（指数関数、ポアソン、幾何学など）の場合、元の関数の変換を分析して外れ値を検出するのに最適な方法ですか？たとえば、指数分布で緩やかに管理されている分布は、対数関数で変換できます-どの時点で、同じIQR定義に基づいて外れ値を探すことは許容できますか？

24 distributions outliers skewness exponential interquartile

2

線形回帰診断はどの順序で行う必要がありますか？

線形回帰分析では、外れ値を分析し、多重共線性を調査し、不均一分散性をテストします。問題は、これらを適用する順序はありますか？つまり、まず異常値を分析してから、多重共線性を調べる必要がありますか？または逆ですか？これについての経験則はありますか？

24 regression multiple-regression outliers

2

観測レベルのマハラノビス距離の分布

私は多変量正規IIDサンプルがある場合はX1,…,Xn∼Np(μ,Σ)X1,…,Xn∼Np(μ,Σ)X_1, \ldots, X_n \sim N_p(\mu,\Sigma)、そして定義（サンプルポイントから重み付けに行列を使用したベクトルへのマハラノビス距離[平方]のようなもの）、の分布（サンプルへのマハラノビス距離サンプル共分散行列を使用した平均）？AとD 2 I（ˉ X、S ）ˉ X Sd2i(b,A)=(Xi−b)′A−1(Xi−b)di2(b,A)=(Xi−b)′A−1(Xi−b)d_i^2(b,A) = (X_i - b)' A^{-1} (X_i - b)aaaAAA d2i(X¯,S)di2(X¯,S)d_i^2(\bar X,S)X¯X¯\bar XSSS 私はそれがであると主張する論文を見ていますが、これは明らかに間違っています：の（未知の）平均ベクトルを使用して分布が得られたでしょうおよび共分散行列。サンプルアナログをプラグインすると、Hotelling分布、スケーリングされた分布、またはそのようなものを取得する必要がありますが、できません。Muirhead（2005）でもAnderson（2003）でも、Mardia、Kent and Bibby（1979、2003 ）でも正確な結果を見つけることができませんでした χ 2 P D 2 I（μ 、Σ ）T 2 F （⋅ ）χ 2 Pχ2pχp2\chi^2_pχ2pχp2\chi^2_pd2i(μ,Σ)di2(μ,Σ)d_i^2(\mu,\Sigma)T 2T 2T^{\ 2}F(⋅)F(⋅)F(\cdot)χ2pχp2\chi^2_p。どうやら、多変量正規分布は完全であり、多変量データを収集するたびに簡単に取得できるため、これらの人は異常値の診断を気にしませんでした：-/。物事はそれよりも複雑かもしれません。Hotelling分布の結果は、ベクトル部分と行列部分の間の独立性の仮定に基づいています。このような独立性はとには当てはまりますが、とは当てはまりません。T 2T 2T^{\ 2}X¯X¯\bar XSSSXiXiX_iSSS

23 multivariate-analysis outliers

4

重回帰の実行時に統計ソフトウェアによって異常値としてフラグが付けられたケースを削除するかどうか？

重回帰分析を行っていますが、データの外れ値を削除すべきかどうかわかりません。私が心配しているデータは、SPSS箱ひげ図では「円」として表示されますが、アスタリスクはありません（これは「それほど悪くない」と思わせます）。気になるケースは、出力の「casewise diagnostics」テーブルの下に表示されます。したがって、これらのケースを削除する必要がありますか？

23 regression outliers

1

カウントデータでの外れ値の検出

私は、多くの異なるカウントデータセットの外れ値の検出を伴う、かなり単純な問題であると単純に考えたものがあります。具体的には、一連のカウントデータ内の1つ以上の値が、分布内の残りのカウントと比較して予想よりも高いか低いかを判断します。交絡要因は、3,500の分布に対してこれを行う必要があることであり、それらの一部はゼロ膨張した過分散ポアソンに適合する可能性がありますが、他のものは負の二項分布またはZINBに最も適合する可能性がありますが、他の分布は正規分布する可能性があります。このため、単純なZスコアまたは分布のプロットは、多くのデータセットには適していません。外れ値を検出するカウントデータの例を次に示します。 counts1=[1 1 1 0 2 1 1 0 0 1 1 1 1 1 0 0 0 0 1 2 1 1 2 1 1 1 1 0 0 1 0 1 1 1 1 0 0 0 0 0 1 2 1 1 1 1 1 1 …

21 outliers count-data fitting

2

ブートストラップ-最初に外れ値を削除する必要がありますか？

新しい製品機能の分割テストを実行し、収益の増加が著しいかどうかを測定したいと考えています。私たちの観察結果は間違いなく正規分布ではありません（ほとんどのユーザーは使いません、そしてそうする人の中では、多くの小さな消費者といくつかの非常に大きな消費者に大きく偏っています）。ブートストラップを使用して手段を比較し、データが正常に配信されないという問題を回避することにしました（サイド質問：これはブートストラップの合法的な使用ですか？）私の質問は、ブートストラップを実行する前に、データセット（例：非常に大きな支出者）から外れ値を削除する必要がありますか、それとも問題ではありませんか？

19 bootstrap outliers

3

ボックスプロットから歪度を評価する方法は？

このデータから作成された箱ひげ図を見て歪度を決定する方法： 340、300、520、340、320、290、260、330 ある本は、「下位の四分位数が上位の四分位数よりも中央値から遠い場合、分布は負に歪んでいます」と述べています。他のいくつかの情報源は、ほぼ同じことを言った。 Rを使用して箱ひげ図を作成しました。次のようなものです。下の四分位数は上の四分位数よりも中央値から遠いので、それは負に歪んでいると思います。しかし、問題は、歪度を決定するために別の方法を使用する場合です。平均（337.5）>中央値（325）これは、データが正に歪んでいることを示します。私は何か見落としてますか？

19 outliers skewness boxplot

2

ダミー機能（およびその他の離散/カテゴリ機能）による異常検出

tl; dr discrete異常検出を実行するときにデータを処理する推奨方法は何ですか？ categorical異常検出を実行するときにデータを処理する推奨方法は何ですか？この答えは、離散データを使用して結果をフィルタリングすることを示唆しています。おそらく、カテゴリの値を観測の割合で置き換えますか？イントロここに初めて投稿するので、フォーマットや正しい定義の使用のいずれかが技術的に正しくないと思われる場合は、代わりに何を使用すべきかを知りたいと思います。今後。私は最近、Andrew NgによるMachine Learningクラスに参加しています異常検出については、データセット内の特定の特徴/変数に対する正規/ガウス分布パラメーターが何であるかを判断し、それからトレーニング例/観測値の選択されたセットの確率を判断するように教えられました特定のガウス分布、および特徴の確率の積を取得します。xixi{x_i} 方法問題のアクティビティを説明すると思われる機能/変数を選択します： \ {x_1、x_2、\ dots、x_i \}xixix_i{x1,x2,…,xi}{x1,x2,…,xi}\{x_1, x_2,\dots,x_i\} 各フィーチャのガウスのパラメーターを近似します。 \ mu_j = \ frac {1} {m} \ sum_ {i = 1} ^ m x_j ^ {（i）} μj=1m∑i=1mx(i)jμj=1m∑i=1mxj(i)\mu_j = \frac{1}{m}\sum_{i = 1}^m x_j^{(i)} σ2=1m∑i=1m(x(i)j−μj)2σ2=1m∑i=1m(xj(i)−μj)2\sigma^2 = \frac{1}{m}\sum_{i = 1}^m (x_j^{(i)} …

18 machine-learning categorical-data outliers discrete-data anomaly-detection

1

外れ値検出のための堅牢なPCAと堅牢なマハラノビス距離

堅牢なPCA（Candes et al 2009またはNetrepalli et al 2014 によって開発された）は多変量異常値検出の一般的な方法ですが、マハラノビス距離は、共分散行列の堅牢で正規化された推定値が与えられると、異常値検出にも使用できます。私は、あるメソッドを他のメソッドよりも使用することの（不利な）利点に興味があります。私の直感では、2つの最大の違いは次のとおりであることがわかります。データセットが（統計的な意味で）「小さい」場合、ロバストPCAは低いランクの共分散を提供し、代わりにロバストな共分散行列推定は完全なLedoit-Wolf正則化によるランク共分散。これはどのように異常値の検出に影響しますか？

17 pca outliers covariance-matrix robust anomaly-detection

4

外れ値のBox and Whisker Plot定義の根拠は何ですか？

Box and Whiskerプロットの外れ値の標準定義は、範囲外側の点です。ここで、およびは最初の四分位数、データの3番目の四分位数です。 I Q R = Q 3 − Q 1 Q 1 Q 3{ Q 1 − 1.5 IQ R 、Q 3 + 1.5 IQ R }{Q1−1.5IQR,Q3+1.5IQR}\left\{Q1-1.5IQR,Q3+1.5IQR\right\}私Q R = Q 3 − Q 1IQR=Q3−Q1IQR= Q3-Q1Q 1Q1Q1Q 3Q3Q3 この定義の根拠は何ですか？多数のポイントがある場合、完全に正規分布でも外れ値が返されます。たとえば、次のシーケンスで開始するとします。 xseq<-seq(1-.5^1/4000,.5^1/4000, by = -.00025) このシーケンスにより、4000ポイントのデータのパーセンタイルランキングが作成されます。 qnormこのシリーズの正規性をテストすると、次の結果が得られます。 shapiro.test(qnorm(xseq)) Shapiro-Wilk normality …

17 outliers normality-assumption qq-plot boxplot

1

外れ値を明らかにするために、1つの平均値と標準偏差を残して使用できますか？

データを正常に配信したとします。データの各要素について、平均からどれだけのSDが離れているかを確認します。データに外れ値がある可能性があります（おそらく1つだけですが、2つまたは3つかもしれません）が、この外れ値は基本的に私が探しているものです。平均とSDの計算から現在見ている要素を一時的に除外することは意味がありますか？私の考えでは、平均に近い場合、影響はありません。外れ値である場合、平均とSDの計算にバイアスがかかり、検出される確率が低くなる可能性があります。私は統計学者ではないので、どんな助けでも大歓迎です！

17 cross-validation standard-deviation mean outliers

タグ付けされた質問 「outliers」

タグ付けされた質問「outliers」