タグ付けされた質問 「outliers」

外れ値は、データセットの単純な特徴付けと比較して、異常であるか、十分に説明されていないように見える観察です。不愉快な可能性は、これらのデータが、調査対象の人々とは異なる母集団からのものであるということです。

13
多変量データの外れ値を識別する最良の方法は何ですか?
少なくとも3つの変数を持つ多変量データの大きなセットがあるとします。外れ値を見つけるにはどうすればよいですか?ペアワイズ散布図は、2次元の部分空間のいずれでも外れ値ではない3次元に異常値が存在する可能性があるため、機能しません。 回帰問題ではなく、真の多変量データについて考えています。したがって、堅牢な回帰またはコンピューティングレバレッジを含む回答は役に立ちません。 1つの可能性は、主成分スコアを計算し、最初の2つのスコアの2変量散布図で外れ値を探すことです。それが機能することが保証されますか?より良いアプローチはありますか?

6
重要なデータチェックテスト
私の職務では、他の人のデータセットをよく使用します。専門家ではない人が臨床データを持ってきて、それを要約して統計テストを行うのを助けます。 私が抱えている問題は、私が持ってくるデータセットがほとんどの場合、タイプミス、矛盾、その他あらゆる種類の問題に満ちていることです。他の人が、入ってくるデータセットをチェックしようとする標準テストを持っているかどうかを知りたいです。 よく見るために各変数のヒストグラムを描いていましたが、このテストを乗り切ることができる恐ろしいエラーがたくさんあることに気付きました。たとえば、先日、反復測定データセットがありました。一部の個人では、反復測定が時間2と時間1で同一でした。これは、予想どおり正しくないことが判明しました。別のデータセットには、非常に重度の障害(高スコアで表される)から問題のない状態に移行した個人がいて、全体で0で表されています。これは絶対に不可能ですが、明確に証明することはできませんでした。 それでは、各データセットでどのような基本的なテストを実行して、タイプミスや不可能な値が含まれていないことを確認できますか? 前もって感謝します!

1
plot.lm()の解釈
Rのplot(lm)によって生成されたグラフの解釈について質問がありました。スケール位置プロットとレバレッジ残差プロットの解釈方法を教えていただけませんか。コメントをいただければ幸いです。統計、回帰、計量経済学の基本的な知識があると仮定します。

14
一般的な時系列のオンライン異常値検出のためのシンプルなアルゴリズム
私は大量の時系列で作業しています。これらの時系列は基本的に10分ごとに発生するネットワーク測定値であり、一部は定期的(帯域幅)であり、一部はそうでない(つまりルーティングトラフィックの量)です。 オンラインの「異常値検出」を行うための簡単なアルゴリズムが欲しいです。基本的に、各時系列の履歴データ全体をメモリ(またはディスク)に保持し、ライブシナリオ(新しいサンプルがキャプチャされるたびに)で異常値を検出します。これらの結果を達成する最良の方法は何ですか? 現在、ノイズを除去するために移動平均を使用していますが、次に何をしますか?データセット全体に対する標準偏差、狂気などの単純なものはうまく機能しません(時系列が定常的であるとは思いません)。 double outlier_detection(double * vector、double value); ここで、vectorは履歴データを含むdoubleの配列であり、戻り値は新しいサンプル "value"の異常スコアです。

14
なぜロバスト(および耐性)統計が従来の手法に取って代わらないのですか?
データを使用してビジネス上の問題を解決する場合、従来の統計を裏付ける少なくとも1つの重要な仮定が無効であることが一般的です。ほとんどの場合、誰もこれらの仮定を確認する必要がないため、実際に知ることはありません。 たとえば、一般的なWebメトリックの多くが(正規分布と比較して)「ロングテール」であることは、今では十分に文書化されており、当然のことと考えています。別の例、オンラインコミュニティは、数千人のメンバーがいるコミュニティであっても、これらのコミュニティの多くへの貢献/参加の圧倒的最大のシェアは、「スーパー貢献者」のごくわずかなグループに起因することを十分に文書化しています。(たとえば、数か月前、SO APIがベータ版で利用可能になった直後に、StackOverflowメンバーはAPIを通じて収集したデータから簡単な分析を公開しました;彼の結論-SOメンバーの1%未満がほとんどを占めていますSOのアクティビティ (おそらく質問をして回答する)、残りの1〜2%が残り、圧倒的多数のメンバーが何もしません)。 この種の分布は、例外よりも規則の方が多い場合が多いが、しばしばべき乗密度関数でモデル化するのが最適です。これらのタイプの分布では、中心極限定理でさえ適用するのに問題があります。 このようにアナリストが関心を寄せる人口が豊富であり、古典的なモデルがこれらのデータに対して明らかに不十分に機能し、堅牢で耐性のある方法がしばらく(少なくとも20年は信じられている)より頻繁に使用されていませんか?(なぜ私も疑問に思って、私はより頻繁に利用していないが、それは本当にのための問題ではないのですCrossValidated。) はい、私は堅牢な統計に完全に専念する教科書の章があることを知っており、(いくつかの)Rパッケージがあることを知っています(robustbaseは私が使い慣れているものです)。 そして、これらの技術の明らかな利点を考えると、それらは仕事のためのより優れたツールであることがよくあります。なぜ頻繁に使用されないのですか?古典的な類似物と比較して、はるかに頻繁に(おそらく推定的に)使用される堅牢な(および耐性のある)統計情報を期待するべきではありませんか? 私が聞いた唯一の実質的な(すなわち技術的な)説明は、ロバストなテクニック(抵抗性メソッドの場合も同様)が古典的なテクニックのパワー/感度に欠けているということです。これが実際にいくつかの場合に当てはまるかどうかはわかりませんが、多くの場合に当てはまらないことは知っています。 先取りの最後の言葉:はい、私はこの質問に明確に正しい答えが一つもないことを知っています。このサイトでの質問はほとんどありません。さらに、この質問は本物の質問です。視点を進めることは口実ではありません。ここには視点がありません。単なる洞察に満ちた答えを期待している質問です。

3
例:バイナリ結果にglmnetを使用したLASSO回帰
私は興味のある結果が二分されglmnetているLASSO回帰の使用に手を出し始めています。以下に小さな模擬データフレームを作成しました。 age <- c(4, 8, 7, 12, 6, 9, 10, 14, 7) gender <- c(1, 0, 1, 1, 1, 0, 1, 0, 0) bmi_p <- c(0.86, 0.45, 0.99, 0.84, 0.85, 0.67, 0.91, 0.29, 0.88) m_edu <- c(0, 1, 1, 2, 2, 3, 2, 0, 1) p_edu <- c(0, 2, 2, …
77 r  self-study  lasso  regression  interpretation  anova  statistical-significance  survey  conditional-probability  independence  naive-bayes  graphical-model  r  time-series  forecasting  arima  r  forecasting  exponential-smoothing  bootstrap  outliers  r  regression  poisson-distribution  zero-inflation  genetic-algorithms  machine-learning  feature-selection  cart  categorical-data  interpretation  descriptive-statistics  variance  multivariate-analysis  covariance-matrix  r  data-visualization  generalized-linear-model  binomial  proportion  pca  matlab  svd  time-series  correlation  spss  arima  chi-squared  curve-fitting  text-mining  zipf  probability  categorical-data  distance  group-differences  bhattacharyya  regression  variance  mean  data-visualization  variance  clustering  r  standard-error  association-measure  somers-d  normal-distribution  integral  numerical-integration  bayesian  clustering  python  pymc  nonparametric-bayes  machine-learning  svm  kernel-trick  hyperparameter  poisson-distribution  mean  continuous-data  univariate  missing-data  dag  python  likelihood  dirichlet-distribution  r  anova  hypothesis-testing  statistical-significance  p-value  rating  data-imputation  censoring  threshold 

9
線形回帰分析で外れ値をどのように扱う必要がありますか?
多くの場合、統計アナリストにセットのデータセットが渡され、線形回帰などの手法を使用してモデルに適合するように求められます。データセットには、「そうそう、これらのデータポイントのいくつかを収集するのがめちゃくちゃになった-できることをする」というような免責条項が付いていることが非常に多い。 この状況は、データの誤りである可能性のある外れ値の存在によって大きな影響を受ける回帰適合につながります。次の場合: 科学的にも道徳的にも、「フィット感が悪く見える」以外の理由でデータを捨てることは危険です。 実際には、データを収集した人は、「このデータセットを生成するとき、どの点を正確に台無しにしましたか」などの質問に答えることができません。 線形回帰分析で外れ値を除外するための基礎として使用できる統計的テストまたは経験則は何ですか? 多重線形回帰に関する特別な考慮事項はありますか?

8
既存の変数と定義された相関関係を持つランダム変数を生成します
シミュレーション研究のために、既存の変数に対する事前定義された(母集団)相関を示すランダム変数を生成する必要があります。YYY 私は、に見えたRパッケージcopulaとCDVine特定の依存構造を持つランダムな多変量分布を生成することができました。ただし、結果の変数の1つを既存の変数に修正することはできません。 アイデアや既存の機能へのリンクを歓迎します! 結論: さまざまなソリューションで、2つの有効な答えが出ました。 カラカルによるR スクリプト。事前定義された変数との正確な(サンプル)相関を持つランダム変数を計算します 事前定義された変数に対する定義された母集団相関を持つランダム変数を計算するR 関数 [@ttnphnsの追加:質問のタイトルを単一の固定変数の場合から任意の数の固定変数に拡大するために自由を取りました。すなわち、いくつかの固定された既存の変数と事前定義された相関を持つ変数を生成する方法]

4
外れ値にロバストな高速線形回帰
外れ値のある線形データを扱っていますが、その一部は推定回帰線から5標準偏差以上離れています。私は、これらのポイントの影響を減らす線形回帰技術を探しています。 これまでのところ、すべてのデータで回帰直線を推定し、非常に大きな2乗残差(上位10%など)を持つデータポイントを破棄し、それらのポイントなしで回帰を繰り返しました。 文献には多くの可能なアプローチがあります:最小二乗、分位点回帰、m-推定量など。どのアプローチを試すべきか本当に分かりませんので、提案を探しています。私にとって重要なのは、最適化ルーチンの各ステップでロバスト回帰が計算されるため、選択した方法が高速であることです。どうもありがとう!

8
外れ値の厳密な定義?
多くの場合、統計で異常値を扱うことについて話します。これについて私を悩ませているのは、私が知る限り、外れ値の定義は完全に主観的であるということです。たとえば、あるランダム変数の真の分布が非常に裾が大きく、または二峰性である場合、外れ値を検出するための標準の視覚化または要約統計は、サンプリングしたい分布の部分を誤って削除します。異常値が存在する場合、その異常値の厳密な定義とは何ですか?また、分析に不当な量の主観性を導入することなく、異常値にどのように対処できますか?

1
Rのtsoutliersパッケージを使用した時系列(LS / AO / TC)の外れ値の検出。方程式形式で外れ値を表す方法
コメント: まず、1993年にオープンソースソフトウェア Journal of the American Statistical Associationに発表されたChenとLiuの時系列外れ値検出を実装する新しいtsoutliersパッケージの作成者に感謝します。RRR このパッケージは、時系列データで5種類の外れ値を繰り返し検出します。 加算的外れ値(AO) イノベーションの外れ値(IO) レベルシフト(LS) 一時的な変更(TC) 季節的レベルシフト(SLS) さらに素晴らしいのは、このパッケージが予測パッケージからauto.arimaを実装しているため、異常値の検出がシームレスに行われることです。また、このパッケージは、時系列データをよりよく理解するためのすてきなプロットを生成します。 以下は私の質問です。 このパッケージを使用していくつかの例を実行してみましたが、うまくいきました。加算的な外れ値とレベルシフトは直感的です。ただし、一時的な変更の外れ値とイノベーションの外れ値の処理に関して、理解できない2つの質問がありました。 一時的な変更の外れ値の例: 次の例を考えてみましょう。 library(tsoutliers) library(expsmooth) library(fma) outlier.chicken <- tsoutliers::tso(chicken,types = c("AO","LS","TC"),maxit.iloop=10) outlier.chicken plot(outlier.chicken) プログラムは、次の場所でレベルシフトと一時的な変更を正しく検出します。 Outliers: type ind time coefhat tstat 1 LS 12 1935 37.14 3.153 2 TC 20 1943 36.38 3.350 以下はプロットと私の質問です。 方程式の形式で一時的な変更を書き込む方法は?(レベルシフトは、1935 …

8
データから外れ値を削除しても大丈夫ですか?
データセットから外れ値を削除する方法を探しましたが、この質問を見つけました。 ただし、この質問に対するいくつかのコメントと回答では、データから外れ値を削除するのは悪い習慣であると人々は言及しました。 私のデータセットには、測定エラーが原因である可能性が高いいくつかの外れ値があります。それらのいくつかがそうでなくても、私はそれをケースバイケースでチェックする方法がありません。なぜなら、あまりにも多くのデータポイントがあるからです。外れ値を削除するだけでなく、統計的に有効ですか?または、そうでない場合、別の解決策は何ですか? それらのポイントをそこに残すだけで、それらは現実を反映しない方法で平均に影響を与えます(それらのほとんどはとにかくエラーであるため)。 編集:私は皮膚コンダクタンスデータを扱っています。極端な値のほとんどは、誰かがワイヤーを引っ張るようなアーティファクトによるものです。 EDIT2:データの分析における私の主な関心は、2つのグループに違いがあるかどうかを判断することです
33 outliers 

3
ランダムフォレストはどのように外れ値に敏感ではないのですか?
これを含むいくつかの情報源で、ランダムフォレストは外れ値の影響を受けないことを読みました(たとえば、ロジスティック回帰や他のMLメソッドのように)。 ただし、2つの直観がそれ以外のことを教えてくれます。 決定木が作成されるたびに、すべてのポイントを分類する必要があります。これは、外れ値でも分類されるため、ブースティング中に選択された決定木に影響を与えることを意味します。 ブートストラップは、RandomForestがサブサンプリングを行う方法の一部です。ブートストラップは外れ値の影響を受けやすくなっています。 異論のある情報源で、外れ値に対する感度に関する私の直感を調整する方法はありますか?

1
時間的ネットワークでのリンク異常検出
リンク異常検出を使用してトレンドのトピックを予測するこの論文に出会いましたが、非常に興味深いことがわかりました。この論文は、「リンク異常検出によるソーシャルストリームの新興トピックの発見」です。 別のデータセットに複製したいのですが、それらの使用方法を知るための方法に十分な知識がありません。6か月の間にノードのネットワークの一連のスナップショットがあるとします。ノードには、次数の長い分布があり、ほとんどはわずかな接続しかありませんが、一部は非常に多くの接続を持ちます。この期間内に新しいノードが表示されます。 バーストの前兆と思われる異常なリンクを検出するために、論文で使用されている逐次割引正規化最尤計算をどのように実装できますか?より適切な他の方法はありますか? 理論的にも実際的にもお願いします。誰かがこれをPythonまたはRで実装する方法を教えてくれたら、それは非常に役立ちます。 誰でも?私はあなたが賢明な人々が答えのためのいくつかの最初の考えを持っていることを知っています、

8
外れ値を平均で置き換える
この質問は、インターネットに精通していない友人によって尋ねられました。私は統計のバックグラウンドがなく、この質問をインターネットで検索しています。 問題は、外れ値を平均値で置き換えることは可能ですか?可能であれば、この声明をバックアップするための書籍の参照/ジャーナルはありますか?

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.