タグ付けされた質問 「outliers」

外れ値は、データセットの単純な特徴付けと比較して、異常であるか、十分に説明されていないように見える観察です。不愉快な可能性は、これらのデータが、調査対象の人々とは異なる母集団からのものであるということです。

4
重要ではないため、研究からデータを除外できますか?
sciencemag.orgの記事を読んでいるときにこの文章に遭遇しました。 最後に、残りのデータが統計的に有意であると見なされなかったため、12か国のわずか7600人の研究者からの回答が含まれました。 これは研究を行うための適切な方法ですか?統計的に有意であると見なされなかったために結果を除外するには?

4
変数の順序は線形回帰で重要ですか
2つの変数(と)間の相互作用を調査しています。これらの変数の間には、かなりの線形相関があります。問題の性質から、因果関係については何も言えません(が引き起こすか、またはその逆か)。外れ値を検出するために、回帰直線からの偏差を調べたいと思います。これを行うには、関数として線形回帰を作成するか、またはその逆を行います。可変順序の選択は結果に影響しますか?x 2 r > 0.9 x 1x1x1x_1x2x2x_2r>0.9r>0.9r>0.9x1x1x_1x 1 x 2x2x2x_2x1x1x_1x2x2x_2

5
異常検出の自動しきい値決定
私は時系列の異常スコアを操作しています(背景はコンピューターネットワークでの異常検出です)。毎分、異常なスコアが表示されます。これは、ネットワークの現在の状態が「予期しない」または異常な状態であることを示しています。スコアが高いほど、現在の状態が異常になります。5に近いスコアは理論的には可能ですが、ほとんど発生しません。バツt∈ [ 0 、5 ]バツt∈[0、5]x_t \in [0, 5] 次に、この異常時系列のしきい値を自動的に決定するアルゴリズムまたは式を考え出します。異常スコアがこのしきい値を超えるとすぐに、アラームがトリガーされます。 以下の頻度分布は、1日にわたる異常時系列の例です。ただし、すべての異常時系列がそのようになると想定するのは安全ではありません。この特別な例では、非常に右側の少数のスコアを異常と見なすことができるため、.99-分位数などの異常しきい値は理にかなっています。 そして、時系列と同じ頻度分布(時系列に高い異常スコアがないため、範囲は0から1のみです): 残念ながら、頻度分布は形状を持っている可能性があり、.99-分位数は役に立ちません。以下に例を示します。右尾は非常に低いため、.99-分位数をしきい値として使用すると、多くの誤検出が発生する可能性があります。この頻度分布には異常が含まれていないようなので、しきい値は分布の約0.25の外側にある必要があります。 要約すると、これらの2つの例の違いは、最初の例では異常が見られるように見え、2番目の例では異常が見られないことです。 私の素朴な観点から、アルゴリズムはこれらの2つのケースを考慮する必要があります: 頻度分布の右端が大きい場合(つまり、いくつかの異常スコア)、. 99-分位数は適切なしきい値になります。 頻度分布の右裾が非常に短い(つまり、異常スコアがない)場合、しきい値は分布の外側にあるはずです。 /編集:グラウンドトゥルースもありません。つまり、ラベル付きデータセットが利用可能です。したがって、アルゴリズムは異常スコアの性質に対して「ブラインド」です。 現在、これらの観察がアルゴリズムまたは式の観点からどのように表現されるかはわかりません。この問題を解決する方法を誰かが提案していますか?私の統計的背景は非常に限られているので、私の説明が十分であることを願っています。 ご協力いただきありがとうございます!

2
データのROC曲線を計算する
そのため、ハミング距離を使用して生体認証特性から個人を認証しようとしている16のトライアルがあります。しきい値は3.5に設定されています。私のデータは以下であり、トライアル1のみが真陽性です。 Trial Hamming Distance 1 0.34 2 0.37 3 0.34 4 0.29 5 0.55 6 0.47 7 0.47 8 0.32 9 0.39 10 0.45 11 0.42 12 0.37 13 0.66 14 0.39 15 0.44 16 0.39 私の混乱のポイントは、このデータからROC曲線(FPR対TPR OR FAR対FRR)を作成する方法が本当にわからないということです。どちらでもかまいませんが、どうやって計算するのか混乱しています。任意の助けいただければ幸いです。
9 mathematical-statistics  roc  classification  cross-validation  pac-learning  r  anova  survival  hazard  machine-learning  data-mining  hypothesis-testing  regression  random-variable  non-independent  normal-distribution  approximation  central-limit-theorem  interpolation  splines  distributions  kernel-smoothing  r  data-visualization  ggplot2  distributions  binomial  random-variable  poisson-distribution  simulation  kalman-filter  regression  lasso  regularization  lme4-nlme  model-selection  aic  r  mcmc  dlm  particle-filter  r  panel-data  multilevel-analysis  model-selection  entropy  graphical-model  r  distributions  quantiles  qq-plot  svm  matlab  regression  lasso  regularization  entropy  inference  r  distributions  dataset  algorithms  matrix-decomposition  regression  modeling  interaction  regularization  expected-value  exponential  gamma-distribution  mcmc  gibbs  probability  self-study  normality-assumption  naive-bayes  bayes-optimal-classifier  standard-deviation  classification  optimization  control-chart  engineering-statistics  regression  lasso  regularization  regression  references  lasso  regularization  elastic-net  r  distributions  aggregation  clustering  algorithms  regression  correlation  modeling  distributions  time-series  standard-deviation  goodness-of-fit  hypothesis-testing  statistical-significance  sample  binary-data  estimation  random-variable  interpolation  distributions  probability  chi-squared  predictor  outliers  regression  modeling  interaction 

1
散布図で外れ値を見つける
ある場所に座ってパターンに従うはずのデータポイントのセットがありますが、最終的な分析で不確実性を引き起こす主な場所からのいくつかの散乱ポイントがあります。きちんとした軌跡を取得して、後で分析に適用したいと考えています。青い点は、手動で行わずに洗練された方法で見つけて除外したい散乱点です。 Nearest Neighbors Regressionのようなものを使用することを考えていましたが、それが最善のアプローチであるかどうか、または適切な結果を得るためにどのように実装する必要があるのか​​よくわかりません。ちなみに、フィッティングは一切せずにやりたいです。 データの転置バージョンは次のとおりです。 X=array([[ 0.87 , -0.01 , 0.575, 1.212, 0.382, 0.418, -0.01 , 0.474, 0.432, 0.702, 0.574, 0.45 , 0.334, 0.565, 0.414, 0.873, 0.381, 1.103, 0.848, 0.503, 0.27 , 0.416, 0.939, 1.211, 1.106, 0.321, 0.709, 0.744, 0.309, 0.247, 0.47 , -0.107, 0.925, 1.127, 0.833, 0.963, 0.385, 0.572, …

2
k-meansは非正規分布データに使用できますか?
アイリスデータセットのように通常は分散されない多くのデータセットを使用してk平均法をテストする多くの論文を読み、良い結果を得ました。k平均法は正規分布データ用であると理解しているので、なぜ非正規分布データ用にk平均法が使用されているのですか? たとえば、以下の論文では、正規分布曲線に基づいてk平均から重心を修正し、正規分布されていない虹彩データセットを使用してアルゴリズムをテストしました。 ほとんどすべてのインライア(正確には99.73%)は、母平均から3標準偏差(𝜎)以内の点から重心までの距離を持ちます。 ここで理解できないことはありますか? Olukanmi&Twala(2017)。K-means-sharp:外れ値にロバストなk-meansクラスタリングのための変更されたセントロイド更新 アイリスデータセット

4
外れ値の影響を受けにくいバージョンの相関係数はありますか?
相関係数は次のとおりです。 r =Σk(バツk−バツ¯)(yk−yk¯)sバツsyn − 1r=∑k(xk−x¯)(yk−yk¯)sxsyn−1 r = \frac{\sum_k \frac{(x_k - \bar{x}) (y_k - \bar{y_k})}{s_x s_y}}{n-1} 標本平均と標本標準偏差は外れ値に敏感です。 同様に、 r =Σkものkn − 1r=∑kstuffkn−1 r = \frac{\sum_k \text{stuff}_k}{n -1} 一種の平均値のようなものであり、変動の影響を受けにくい変動があるかもしれません。 標本平均は次のとおりです。 バツ¯=Σkバツkんx¯=∑kxkn \bar{x} = \frac{\sum_k x_k}{n} 標本標準偏差は次のとおりです。 sバツ=Σk(バツk−バツ¯)2n − 1−−−−−−−−−−−√sx=∑k(xk−x¯)2n−1 s_x = \sqrt{\frac{\sum_k (x_k - \bar{x})^2}{n -1}} 欲しいと思う 中央値: 中央値[ x ]Median[x] \text{Median}[x] …

2
「フリンジリア」とは何ですか?
最近、ジャーナルの投稿からレビュアーコメントを受け取りました。 外れ値とフリンジリアをどのように処理したかを報告します。 「フリンジリア」という言葉を聞いたことがなく、グーグルで検索すると、いくつかの記事がありましたが、簡潔な定義はありませんでした。したがって、「フリンジリア」とは何かを明確にし、同じ質問をする自分と将来の人々の両方に定義を提供できるような質問をするのは良いことだと思いました。

2
外れ値の検出に関する問題
Andrew Gelmanはブログ投稿でこう書いています: ステップワイズ回帰は、外れ値の検出や円グラフなど、これらの1つです。統計学者の間では人気が高いように見えますが、統計学者はちょっと冗談だと考えています。 円グラフへの参照を理解しましたが、Gelmanによると、統計学者が異常値の検出を軽視しているのはなぜですか?それは人々が彼らのデータを過剰に剪定することを引き起こすかもしれないということだけですか?

1
ベータ分布での異常値の検出
私は値の大きなサンプルを持っていると言う[0,1][0,1][0,1]。基礎となるBeta(α,β)Beta(α,β)\text{Beta}(\alpha, \beta)分布を推定したいと思います。サンプルの大部分は、この想定されるBeta(α,β)Beta(α,β)\text{Beta}(\alpha, \beta)分布からのものですが、残りは、αα\alphaおよび推定で無視したい外れ値ですββ\beta。 これについて進める良い方法は何ですか? なる標準:Inliers={x∈[Q1−1.5IQR,Q3+1.5IQR]}Inliers={x∈[Q1−1.5IQR,Q3+1.5IQR]}\text{Inliers} = \left\{x \in [Q1 - 1.5\, \text{IQR}, Q3 + 1.5 \,\text{IQR}] \right\}箱ひげ図で使用される式は、悪い近似ですか? これを解決するためのより原則的な方法は何でしょうか?この種の問題でうまく機能する、αα\alphaと特定の事前分布はありますββ\betaか?

2
膨大なデータセットが与えられた場合、なぜ統計モデルは過剰適合しますか?
現在のプロジェクトでは、特定のグループの行動を予測するモデルを構築する必要があるかもしれません。トレーニングデータセットには6つの変数のみが含まれます(idは識別目的のみです)。 id, age, income, gender, job category, monthly spend その中で monthly spend応答変数です。ただし、トレーニングデータセットには約300万行が含まれid, age, income, gender, job category、予測されるデータセット(応答変数は含まれるが、含まれない)には100万行が含まれます。私の質問は、統計モデルにあまりにも多くの行(この場合は300万行)を投げた場合に潜在的な問題はありますか?計算コストが懸念事項の1つであることを理解していますが、他に懸念事項はありますか?データセットのサイズの問題を完全に説明している本/紙はありますか?
8 modeling  large-data  overfitting  clustering  algorithms  error  spatial  r  regression  predictive-models  linear-model  average  measurement-error  weighted-mean  error-propagation  python  standard-error  weighted-regression  hypothesis-testing  time-series  machine-learning  self-study  arima  regression  correlation  anova  statistical-significance  excel  r  regression  distributions  statistical-significance  contingency-tables  regression  optimization  measurement-error  loss-functions  image-processing  java  panel-data  probability  conditional-probability  r  lme4-nlme  model-comparison  time-series  probability  probability  conditional-probability  logistic  multiple-regression  model-selection  r  regression  model-based-clustering  svm  feature-selection  feature-construction  time-series  forecasting  stationarity  r  distributions  bootstrap  r  distributions  estimation  maximum-likelihood  garch  references  probability  conditional-probability  regression  logistic  regression-coefficients  model-comparison  confidence-interval  r  regression  r  generalized-linear-model  outliers  robust  regression  classification  categorical-data  r  association-rules  machine-learning  distributions  posterior  likelihood  r  hypothesis-testing  normality-assumption  missing-data  convergence  expectation-maximization  regression  self-study  categorical-data  regression  simulation  regression  self-study  self-study  gamma-distribution  modeling  microarray  synthetic-data 

2
ランクベースのテストを使用するとき、外れ値について心配する必要がありますか?
これが非常に基本的な質問である場合はお詫びします。 正規分布されていないデータがあり(たとえば、ゆがんだ、Shapiro-Wilk検定が重要である)、ランクベースの方法(たとえばWilcoxon Signed Rank test)に頼る場合、異常値を考慮する必要がありますか? たとえば、ボックスプロットを使用してデータをプロットし、少数のデータポイントが外れ値としてマークされていると想像してください。これらのポイントを変換する必要がありますか?またはそれらを削除しますか?多くの教科書が外れ値の扱いについて話しているように思えますが、それはそれらが平均や標準偏差などのパラメーターに大きな影響を与えるからです。ただし、ランクベースのテストを使用する場合、それらはすでにランクの次の値になるように「変換」されるため、テストに大きな影響を与えることはありません。これまでのところ、統計の本に明記されていないので、ここで質問したいと思いました。 ランクベースのテストを使用するとき、外れ値について心配する必要がありますか?
8 outliers  ranks 

3
SPSSを使用した2x3混合設計ANOVAの事後テスト?
実験中に3回評価された10人の参加者の2つのグループがあります。グループ間および3つの評価全体の違いをテストするために、group(コントロール、実験)、time(最初、2、3)、およびを使用して2x3混合設計ANOVAを実行しましたgroup x time。両方timeとgroup有意な相互作用があったほか、重大な結果group x time。 グループメンバーシップに関しても、3回の評価の違いをさらにチェックする方法をよく知りません。実際、最初は、ANOVAのオプションで、ボンフェローニの補正を使用してすべての主要な効果を比較することだけを指定しました。しかし、この方法で、グループを区別せずに、サンプル全体の時間の違いをこのように比較したことに気付きましたね。 したがって、可能な解決策を見つけるためにインターネットでたくさん検索しましたが、結果はほとんどありませんでした。私と同じようなケースは2つしか見つかりませんでしたが、解決策は逆です! 記事では、混合設計の後、著者らは被験者ごとに1つずつ、2回の反復測定ANOVAを事後的に実行しました。このようにして、2つのグループは修正なしで個別に分析されます。 インターネットのガイドでは、混合ANOVAの実行中に、SPSS構文のCOMPARE(time) ADJ(BONFERRONI)直後にを手動で追加すると述べています/EMMEANS=TABLES(newgroup*time)。このように、3つの時間はグループごとに個別に比較されます。ボンフェローニ補正を使用すると、私は正しいのでしょうか。 どう思いますか?どちらが正しい方法でしょうか?
8 anova  mixed-model  spss  post-hoc  bonferroni  time-series  unevenly-spaced-time-series  classification  normal-distribution  discriminant-analysis  probability  normal-distribution  estimation  sampling  classification  svm  terminology  pivot-table  random-generation  self-study  estimation  sampling  estimation  categorical-data  maximum-likelihood  excel  least-squares  instrumental-variables  2sls  total-least-squares  correlation  self-study  variance  unbiased-estimator  bayesian  mixed-model  ancova  statistical-significance  references  p-value  fishers-exact  probability  monte-carlo  particle-filter  logistic  predictive-models  modeling  interaction  survey  hypothesis-testing  multiple-regression  regression  variance  data-transformation  residuals  minitab  r  time-series  forecasting  arima  garch  correlation  estimation  least-squares  bias  pca  predictive-models  genetics  sem  partial-least-squares  nonparametric  ordinal-data  wilcoxon-mann-whitney  bonferroni  wilcoxon-signed-rank  traminer  regression  econometrics  standard-error  robust  misspecification  r  probability  logistic  generalized-linear-model  r-squared  effect-size  gee  ordered-logit  bayesian  classification  svm  kernel-trick  nonlinear  bayesian  pca  dimensionality-reduction  eigenvalues  probability  distributions  mathematical-statistics  estimation  nonparametric  kernel-smoothing  expected-value  filter  mse  time-series  correlation  data-visualization  clustering  estimation  predictive-models  recommender-system  sparse  hypothesis-testing  data-transformation  parametric  probability  summations  correlation  pearson-r  spearman-rho  bayesian  replicability  dimensionality-reduction  discriminant-analysis  outliers  weka 

1
ベイズの定理を使用する場合の信頼区間
いくつかの条件付き確率と、95%の信頼区間を計算しています。私のケースの多くでは、(分割表からの)試行からのx成功の単純なカウントがあるnため、で提供さbinom.confint(x, n, method='exact')れてRいるような二項信頼区間を使用できます。 しかし、他の場合では、そのようなデータがないので、ベイズの定理を使用して、持っている情報から計算します。たとえば、イベントおよび与えられた場合:baaabbb P(a | b )= P(B |)⋅ P(a )P(b )P(a|b)=P(b|a)⋅P(a)P(b) P(a|b) = \frac{P(b|a) \cdot P(a)}{P(b)} \ textrm {binom.confint}(\#\ left(b \ cap {} a)、\#(a)\ right)を使用してP(b | a)の周りの95%信頼区間を計算でき、比率P(a)/ P(b)を周波数比\#(a)/ \#(b)として。この情報を使用してP(a | b)の周囲の信頼区間を導出することは可能ですか?P(b | a )P(b|a)P(b|a)binom.confint(#(B ∩a )、#(a ))binom.confint(#(b∩a),#(a))\textrm{binom.confint}(\#\left(b\cap{}a),\#(a)\right)P(a )/ P(b )P(a)/P(b)P(a)/P(b)#(a )/#(b )#(a)/#(b)\#(a)/\#(b)P(a | b )P(a|b)P(a|b) ありがとう。

4
正規分布を仮定せずに外れ値を見つける
サイズが40〜50ポイントの小さなデータセットがあります。データが正規分布であると想定せずに、少なくとも90%の信頼度で外れ値を見つけたかったのです。私は箱ひげ図がそれを行うための良い方法であるかもしれないと思いました、しかし私はわかりません。 助けてくれてありがとう。 また、boxplot実装では、プロットを描画する以外に、外れ値を明示的に出力する実装を見つけることができませんでした。

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.