タグ付けされた質問 「robust」

一般にロバスト性とは、統計がその基礎となる仮定からの逸脱に鈍感であることを指します(Huber and Ronchetti、2009)。

14
なぜロバスト(および耐性)統計が従来の手法に取って代わらないのですか?
データを使用してビジネス上の問題を解決する場合、従来の統計を裏付ける少なくとも1つの重要な仮定が無効であることが一般的です。ほとんどの場合、誰もこれらの仮定を確認する必要がないため、実際に知ることはありません。 たとえば、一般的なWebメトリックの多くが(正規分布と比較して)「ロングテール」であることは、今では十分に文書化されており、当然のことと考えています。別の例、オンラインコミュニティは、数千人のメンバーがいるコミュニティであっても、これらのコミュニティの多くへの貢献/参加の圧倒的最大のシェアは、「スーパー貢献者」のごくわずかなグループに起因することを十分に文書化しています。(たとえば、数か月前、SO APIがベータ版で利用可能になった直後に、StackOverflowメンバーはAPIを通じて収集したデータから簡単な分析を公開しました;彼の結論-SOメンバーの1%未満がほとんどを占めていますSOのアクティビティ (おそらく質問をして回答する)、残りの1〜2%が残り、圧倒的多数のメンバーが何もしません)。 この種の分布は、例外よりも規則の方が多い場合が多いが、しばしばべき乗密度関数でモデル化するのが最適です。これらのタイプの分布では、中心極限定理でさえ適用するのに問題があります。 このようにアナリストが関心を寄せる人口が豊富であり、古典的なモデルがこれらのデータに対して明らかに不十分に機能し、堅牢で耐性のある方法がしばらく(少なくとも20年は信じられている)より頻繁に使用されていませんか?(なぜ私も疑問に思って、私はより頻繁に利用していないが、それは本当にのための問題ではないのですCrossValidated。) はい、私は堅牢な統計に完全に専念する教科書の章があることを知っており、(いくつかの)Rパッケージがあることを知っています(robustbaseは私が使い慣れているものです)。 そして、これらの技術の明らかな利点を考えると、それらは仕事のためのより優れたツールであることがよくあります。なぜ頻繁に使用されないのですか?古典的な類似物と比較して、はるかに頻繁に(おそらく推定的に)使用される堅牢な(および耐性のある)統計情報を期待するべきではありませんか? 私が聞いた唯一の実質的な(すなわち技術的な)説明は、ロバストなテクニック(抵抗性メソッドの場合も同様)が古典的なテクニックのパワー/感度に欠けているということです。これが実際にいくつかの場合に当てはまるかどうかはわかりませんが、多くの場合に当てはまらないことは知っています。 先取りの最後の言葉:はい、私はこの質問に明確に正しい答えが一つもないことを知っています。このサイトでの質問はほとんどありません。さらに、この質問は本物の質問です。視点を進めることは口実ではありません。ここには視点がありません。単なる洞察に満ちた答えを期待している質問です。

3
なぜ必要ないのに、線形回帰の正規分布誤差項(および同次分散性)にそれほど注意を払うのですか?
残差の非正規性および/または不均一分散性がOLSの仮定に違反していると誰かが言うのを聞くたびにイライラするでしょう。OLSモデルのパラメーターを推定するには、これらの仮定はどちらもガウスマルコフの定理では必要ありません。OLSモデルの仮説検定で、これがどのように重要であるかがわかります。これらのことから、t検定、F検定、およびより一般的なWald統計のきちんとした公式が得られるからです しかし、それらなしで仮説検定を行うことはそれほど難しくありません。等分散性だけを落とすと、ロバストな標準誤差とクラスター化された標準誤差を簡単に計算できます。正規性を完全に落とす場合は、ブートストラップを使用し、エラー項、尤度比、およびラグランジュ乗数検定の別のパラメーター仕様を指定できます。 多くの人がそもそも満たす必要のない仮定に苦しんでいるのを見るので、このように教えるのは残念です。 より堅牢な手法を簡単に適用できる能力があるのに、なぜこれらの仮定にそれほど重点を置いているのでしょうか?重要なものが欠けていますか?

4
外れ値にロバストな高速線形回帰
外れ値のある線形データを扱っていますが、その一部は推定回帰線から5標準偏差以上離れています。私は、これらのポイントの影響を減らす線形回帰技術を探しています。 これまでのところ、すべてのデータで回帰直線を推定し、非常に大きな2乗残差(上位10%など)を持つデータポイントを破棄し、それらのポイントなしで回帰を繰り返しました。 文献には多くの可能なアプローチがあります:最小二乗、分位点回帰、m-推定量など。どのアプローチを試すべきか本当に分かりませんので、提案を探しています。私にとって重要なのは、最適化ルーチンの各ステップでロバスト回帰が計算されるため、選択した方法が高速であることです。どうもありがとう!

4
RでStataの「堅牢な」オプションを複製する
robustR のStataオプションの結果を複製しようとしています。MASSパッケージrlmのコマンドlmrobとパッケージ「robustbase」のコマンドを使用しました。どちらの場合も、結果はStataの「堅牢な」オプションとはまったく異なります。誰でもこの文脈で何かを提案できますか? Stataで堅牢なオプションを実行したときに得られた結果は次のとおりです。 . reg yb7 buildsqb7 no_bed no_bath rain_harv swim_pl pr_terrace, robust Linear regression Number of obs = 4451 F( 6, 4444) = 101.12 Prob > F = 0.0000 R-squared = 0.3682 Root MSE = .5721 ------------------------------------------------------------------------------ | Robust yb7 | Coef. Std. Err. t P>|t| [95% Conf. Interval] …

6
ほぼ正規分布のスケールを推定するためのロバストなベイジアンモデルはどうなりますか?
scaleの多数の堅牢な推定量が存在します。顕著な例は、標準偏差に関する中央値絶対偏差であるσ= M A D ⋅ 1.4826σ=MAD⋅1.4826\sigma = \mathrm{MAD}\cdot1.4826。ベイジアンフレームワークでは、位置をロバストに推定する方法がいくつか存在しますは、おおよそ正規分布(たとえば、外れ値に汚染された正規)のたとえば、データが分布またはラプラス分布で分布していると仮定できます。今私の質問: ほぼ正規分布のスケールをロバストな方法で測定するためのベイジアンモデルは、MADまたは同様のロバストな推定量と同じ意味でロバストでしょうか? MADの場合と同様に、データの分布が実際に正規分布している場合に、ベイジアンモデルが正規分布のSDに近づくことができれば適切です。 編集1: データy私y私y_iがほぼ正規であると仮定した場合の汚染/外れ値に対してロバストなモデルの典型的な例は、次のような分布で使用しています。 y私〜T(M 、S 、ν)y私〜t(m、s、ν)y_i \sim \mathrm{t}(m, s,\nu) ここで、mmmは平均、sssはスケール、νν\nuは自由度です。m 、sm、sm, sおよびνν\nuに適切な事前分布がある場合、mmmは外れ値に対してロバストなの平均の推定yiy私y_i値になります。ただし、sssはνに依存するため、sはのSDの一貫した推定値ではありません。たとえば、νが4.0に固定され、上記のモデルがN o r m(μ =yiy私y_isssνν\nuνν\nu分布の場合、 sは約0.82になります。私が探しているのは、tモデルのようなロバストなモデルですが、平均の代わりに(または平均に加えて)SDです。Norm(μ=0,σ=1)Norm(μ=0、σ=1)\mathrm{Norm}(\mu=0,\sigma=1)sss 編集2: ここで、上記のtモデルがどのように平均に関してより堅牢であるかを示すRとJAGSのコード例を示します。 # generating some contaminated data y <- c( rnorm(100, mean=10, sd=10), rnorm(10, mean=100, sd= 100)) #### A "standard" normal model #### model_string …

8
外れ値を平均で置き換える
この質問は、インターネットに精通していない友人によって尋ねられました。私は統計のバックグラウンドがなく、この質問をインターネットで検索しています。 問題は、外れ値を平均値で置き換えることは可能ですか?可能であれば、この声明をバックアップするための書籍の参照/ジャーナルはありますか?

2
50%信頼区間は95%信頼区間よりも堅牢に推定されていますか?
私の質問はAndrew Gelmanのブログ投稿のこのコメントから流れています。AndrewGelmanのブログ投稿では、95%の信頼区間の代わりに50%の信頼区間の使用を提唱しています。 次の3つの理由から、50%から95%の間隔が好ましいです。 計算の安定性、 より直感的な評価(50%間隔の半分に真の値を含める必要があります)、 用途では、パラメータと予測値がどこにあるのかを把握することが最善であり、非現実的なほぼ確実性を試みるのではないという意味。 コメント者の考えは、信頼区間の構築の基礎となる仮定に関する問題は、50%CIである場合よりも95%CIである場合により大きな影響を与えると思われる。しかし、彼はその理由を本当に説明していません。 [...]間隔を大きくすると、一般的にモデルの詳細や仮定に敏感になります。たとえば、99.9995%の間隔を正しく識別したとは思わないでしょう。または、少なくともそれが私の直感です。正しい場合、50パーセントが95パーセントよりも適切に推定されるべきであると主張します。それとも、おそらくノイズに関する仮定の影響を受けにくいため、「より堅牢に」推定されるのでしょうか? 本当ですか?なぜ/なぜないのか?

2
通常のエラーの代わりにtエラーを使用する必要があるのはなぜですか?
で、このアンドリュー・ゲルマンによって、ブログの記事、次の一節があります: 50年前のベイジアンモデルは絶望的に単純に見えます(もちろん、単純な問題を除いて)。そして、今日のベイジアンモデルは50年後には絶望的に単純に見えると思います。(簡単な例として:ほぼどこでも通常のエラーの代わりに日常的にtを使用する必要がありますが、馴染み、習慣、数学的利便性のため、まだ使用していません。政治では、保守主義には賛成で多くの良い議論がありますが、最終的には、より複雑なモデルに慣れると、その方向に進むと思います。) なぜ「ほぼどこでも通常のエラーの代わりに通常tを使用する」必要があるのでしょうか?

2
glmを実行しているときのエラー「システムは計算上特異」
glm推定を実行するために、robustbaseパッケージを使用しています。しかし、それを行うと、次のエラーが表示されます。 Error in solve.default(crossprod(X, DiagB * X)/nobs, EEq) : system is computationally singular: reciprocal condition number = 1.66807e-16 これはどういう意味ですか?そして、どうすればデバッグできますか? PS。答えるために何か(式/仕様またはデータ)が必要な場合は、喜んで提供します。

4
RANSACが統計で最も広く使用されていないのはなぜですか?
コンピュータービジョンの分野から来て、私はRANSAC(ランダムサンプルコンセンサス)メソッドを使用して、多くの外れ値を持つデータにモデルを適合させてきました。 ただし、統計学者によって使用されるのを見たことはなく、「統計的に健全な」方法とは見なされていないとの印象を受けていました。どうしてこんなことに?本質的にランダムであるため、分析が難しくなりますが、ブートストラップ方法も同様です。 または、単に学術的なサイロが互いに話し合っていない場合ですか?

5
サンプルの分布が非正規の場合、独立したサンプルのt検定はどの程度堅牢ですか?
サンプルの分布が正規性から外れている場合、t検定は「合理的に堅牢」であると読みました。もちろん、重要なのは差異のサンプリング分布です。2つのグループのデータがあります。グループの1つは、従属変数に大きく偏っています。サンプルサイズは両方のグループで非常に小さくなっています(一方のグループではn = 33、もう一方のグループでは45)。これらの条件下で、t検定は正規性の仮定の違反に対してロバストになると仮定する必要がありますか?

4
新しいベクターをPCA空間に投影する方法は?
主成分分析(PCA)を実行した後、新しいベクトルをPCA空間に投影します(つまり、PCA座標系で座標を見つけます)。 を使用してR言語でPCAを計算しましたprcomp。これで、ベクトルにPCA回転行列を掛けることができるはずです。このマトリックスの主成分を行または列に配置する必要がありますか?
21 r  pca  r  variance  heteroscedasticity  misspecification  distributions  time-series  data-visualization  modeling  histogram  kolmogorov-smirnov  negative-binomial  likelihood-ratio  econometrics  panel-data  categorical-data  scales  survey  distributions  pdf  histogram  correlation  algorithms  r  gpu  parallel-computing  approximation  mean  median  references  sample-size  normality-assumption  central-limit-theorem  rule-of-thumb  confidence-interval  estimation  mixed-model  psychometrics  random-effects-model  hypothesis-testing  sample-size  dataset  large-data  regression  standard-deviation  variance  approximation  hypothesis-testing  variance  central-limit-theorem  kernel-trick  kernel-smoothing  error  sampling  hypothesis-testing  normality-assumption  philosophical  confidence-interval  modeling  model-selection  experiment-design  hypothesis-testing  statistical-significance  power  asymptotics  information-retrieval  anova  multiple-comparisons  ancova  classification  clustering  factor-analysis  psychometrics  r  sampling  expectation-maximization  markov-process  r  data-visualization  correlation  regression  statistical-significance  degrees-of-freedom  experiment-design  r  regression  curve-fitting  change-point  loess  machine-learning  classification  self-study  monte-carlo  markov-process  references  mathematical-statistics  data-visualization  python  cart  boosting  regression  classification  robust  cart  survey  binomial  psychometrics  likert  psychology  asymptotics  multinomial 

2
ロバスト線形モデルの重み付き
MASSパッケージのRを使用してrlm()、MMの重みでロバストな線形モデルを推定しました。`R``はモデルの値を提供しませんが、意味のある量であればR 2が欲しいです。また、ロバスト回帰で観測値に重みが付けられたのと同じ方法で、合計分散と残差を重み付けするR 2値を持つことに意味があるかどうかを知りたいと思っています。私の一般的な考え方は、回帰の目的で、何らかの方法で外れ値であるため、いくつかの推定値の影響が少ない重みを本質的に使用している場合、r 2を計算するためにそれらを与える必要があるかもしれないということです同じ見積もりは影響が少ない?R2R2R^2R2R2R^2r2r2r^2 と重み付きR 2の2つの簡単な関数を書きました。それらは以下にあります。また、HI9と呼ばれる私のモデルに対してこれらの関数を実行した結果も含めました。編集:私は式を与えるUNSWのアデルコスターのウェブページが見つかりそれは両方の計算の計算に重みベクトルを含んでいると、私がやったように、そしてより正式な参照のために彼女に尋ねた:のhttp://web.maths。 unsw.edu.au/~adelle/Garvan/Assays/GoodnessOfFit.html(この重み付けされたr 2の解釈方法については、Cross Validatedからのヘルプを引き続き探しています。)R2R2R^2R2R2R^2R2SSeSStr2r2r^2 #I used this function to calculate a basic r-squared from the robust linear model r2 <- function(x){ + SSe <- sum((x$resid)^2); + observed <- x$resid+x$fitted; + SSt <- sum((observed-mean(observed))^2); + value <- 1-SSe/SSt; + return(value); + } r2(HI9) [1] 0.2061147 #I …

5
実際に使用されている堅牢な相関法はどれですか?
いくつかのロバストな相関手法のパフォーマンスを異なる分布(スキュー、外れ値など)と比較するシミュレーション研究を行う予定です。で堅牢、私は)歪んだ分布、b)の外れ値、およびc)重い尾に対して堅牢であることの理想的なケースを意味します。 ベースラインとしてのピアソン相関に加えて、次のより堅牢な測定を含めることを考えていました。 スピアマンのρρ\rho パーセント曲げ相関(Wilcox、1994、[1]) 最小量は(共分散行列式、最小楕円体cov.mve/ cov.mcdとcor=TRUEオプション) おそらく、ウィンザー化された相関 もちろん、さらに多くのオプションがあります(特に堅牢な回帰手法も含める場合)が、ほとんど使用されている/ほとんど有望なアプローチに限定したいと思います。 現在、3つの質問があります(1つだけお気軽に回答してください)。 他に含めることができる/含めるべき堅牢な相関法はありますか? あなたの分野で実際に 使用されて いる堅牢な相関技術はどれですか?(心理学の研究について言えば、スピアマンの除いて、技術論文以外ではロバストな相関技術を見たことはありません。ブートストラップはますます一般的になっていますが、他のロバストな統計は多かれ少なかれ存在しません)。ρρ\rho すでに知っている複数の相関手法の体系的な比較はありますか? また、上記のメソッドのリストにコメントしてください。 [1]ウィルコックス、RR(1994)。曲げ相関係数のパーセンテージ。Psychometrika、59、601から616まで。

4
平均および中央値のプロパティ
誰かが2つのステートメント(a)と(b)をリンクする数学的論理を明確に説明してもらえますか?値のセット(分布)があります。さて、 a)中央値はすべての値に依存するわけではありません[1つまたは2つの中間値に依存するだけです]。b)中央値は、そこからの絶対偏差の最小値の軌跡です。 同様に、対照的に、 a)(算術)平均はすべての値に依存します。b)平均は、それからの最小二乗偏差の軌跡です。 私の把握はこれまでのところ直感的です。

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.