タグ付けされた質問 「robust」

一般にロバスト性とは、統計がその基礎となる仮定からの逸脱に鈍感であることを指します(Huber and Ronchetti、2009)。

1
ロジットの線形性の違反に対するロジスティック回帰のロバスト性の調査
バイナリの結果(開始と開始ではない)でロジスティック回帰を行っています。私の予測因子の組み合わせは、すべて連続変数または二分変数です。 Box-Tidwellアプローチを使用すると、私の連続予測子の1つがロジットの線形性の仮定に違反する可能性があります。適合度の統計から、適合度に問題があるという兆候はありません。 その後、元の連続変数を次のように置き換えて、回帰モデルを再度実行しました。1つ目は平方根変換、2つ目は変数の二分法バージョンです。 出力を調べると、適合度はわずかに向上しているようですが、残差が問題になります。パラメータ推定値、標準誤差、およびは比較的似ています。データの解釈は、3つのモデル間で私の仮説の観点からは変わりません。exp(β)exp⁡(β)\exp(\beta) したがって、私の結果の有用性とデータの解釈の観点から、元の連続変数を使用して回帰モデルを報告するのが適切なようです。 私はこれを思っています: ロジスティック回帰は、ロジット仮定の線形性の潜在的な違反に対して堅牢なのはいつですか? 上記の例を考えると、元の連続変数をモデルに含めることは許容できると思われますか? モデルがロジットの線形性の潜在的な違反に対してロバストであることを受け入れることが十分である場合に推奨するためのリファレンスまたはガイドはありますか?

3
ポアソン回帰でロバストな標準誤差を使用するのはいつですか?
カウントデータにポアソン回帰モデルを使用していて、パラメーター推定にロバストな標準誤差を使用しない理由があるかどうか疑問に思っていますか?ロバストなしの推定値の一部は有意ではない(たとえばp = 0.13)が、ロバストありの場合は有意(p <0.01)であるため、私は特に心配しています。 SASでは、これはproc genmod(例repeated subject=patid;)の繰り返しステートメントを使用して利用できます。私が使用してきたhttp://www.ats.ucla.edu/stat/sas/dae/poissonreg.htmを堅牢な標準誤差を使用しての支援でキャメロンとTrivediの(2009)の論文を引用例として。

1
Student-Tエラーのある回帰は役に立ちませんか?
編集をご覧ください。 裾が重いデータがある場合、student-tエラーで回帰を行うと、直感的に行えるように見えます。この可能性を調査しているときに、私はこの論文に出くわしました。 Breusch、TS、Robertson、JC、およびWelsh、AH(1997年11月1日)。皇帝の新しい服:多変量t回帰モデルの批評。Statistica Neerlandica、51、3.)(link、pdf) これは、スケールパラメータと自由度パラメータが何らかの意味で相互に識別可能ではなく、このため、tエラーのある回帰を行っても、標準の線形回帰の場合を超えることはできないと主張しています。 Zellner(1976)は、データベクトル(または誤差ベクトル)が多変量スチューデントt分布からの実現として表される回帰モデルを提案しました。このモデルは、通常のガウス仮定を拡張して、より裾の長い誤差分布を可能にするように見えるため、かなりの注目を集めています。文献の多くの結果は、ガウスモデルの標準推論手順がより広い分布の仮定の下で適切なままであり、標準メソッドの堅牢性の主張につながることを示しています。数学的には2つのモデルは異なりますが、統計的推論の目的では区別できないことを示しています。多変量tモデルの経験的意味は、ガウスモデルのそれとまったく同じです。したがって、データのより広範な分布表現の提案は偽であり、堅牢性の主張は誤解を招くものです。これらの結論は、頻度主義者とベイズの両方の観点から達しています。 これには驚きました。 私はそれらの引数を適切に評価するための数学的洗練度を持っていないので、いくつか質問があります。t-エラーを使用して回帰を行うことは一般的に役に立たないのは本当ですか?それらが時々役立つ場合、私はその論文を誤解しているのでしょうか、それとも誤解を招くものですか?それらが役に立たない場合、これはよく知られた事実ですか?重い尾を持つデータを説明する他の方法はありますか? 編集:パラグラフ3とセクション4をよく読んでみると、以下の論文は私がスチューデントt回帰と考えていたものについて話していないようです(エラーは独立した一変量t分布です)。エラーは代わりに単一の分布から引き出され、独立したものではありません。私が正しく理解していれば、この独立性の欠如が、スケールと自由度を独立して推定できない理由を正確に説明しています。 この論文は、読まないようにするための論文のリストを提供していると思います。

1
ガウス効率とはどういう意味ですか?
堅牢な推定量の場合、ガウス効率とはどういう意味ですか?たとえば、は82%のガウス効率と50%のブレークダウンポイントを持っています。QんQんQ_{_n} 参照は次のとおりです:Rousseeuw PJおよびCroux、C.(1993)。「絶対偏差の中央値の代替案。」J. American Statistical Assoc。、88、1273-1283

1
不適切な線形モデルはいつロバストに美しくなりますか?
質問: 不適切な線形モデルは実際に使用されていますか、それとも科学雑誌で時々説明されているある種の好奇心ですか?もしそうなら、それらはどの領域で使用されていますか? そのようなモデルの他の例はありますか? 最後に、そのようなモデルのOLSから取得した標準誤差、値、R 2などは正しいのでしょうか、それとも何らかの方法で修正する必要がありますか?pppR2R2R^2 背景:不適切な線形モデルは、文献に随時説明されています。一般に、そのようなモデルは次のように説明できます。 y=a+b∑iwixi+εy=a+b∑iwixi+ε y = a + b \sum_i w_i x_i + \varepsilon 回帰との違いは、はモデルで推定された係数ではなく、wjwjw_j 各変数等しい(単位加重回帰)、wi=1wi=1w_i = 1 相関に基づく(Dana and Dawes、2004)、wi=ρ(y,xi)wi=ρ(y,xi)w_i = \rho(y, x_i) ランダムに選択された(Dawes、1979)、 −1−1-1yyy111yyy ZZZ y=a+bv+εy=a+bv+ε y = a + b v + \varepsilon v=∑wixv=∑wixv = \sum w_i x 参考文献: Dawes、Robyn M.(1979)。意思決定における不適切な線形モデルの堅牢な美しさ。アメリカの心理学者、 34、571-582。 Graefe、A.(2015)。均等に重み付けされた予測子を使用して予測を改善します。Journal of …

1
「ロバスト統計:影響関数に基づくアプローチ」の2.2a.16を実行するためのソリューション
ロバスト統計の 180ページ:影響関数に基づくアプローチには、次の質問があります。 16:示すことが常に位置不変の推定のための 。nが奇数またはnが偶数の場合の両方で、有限標本分解点ε ∗ nの対応する上限を求めます。ε∗≤12ε∗≤12\varepsilon^*\leq\frac{1}{2}ε∗nεn∗\varepsilon^*_nnnnnnn 2番目の部分(ピリオドの後)は実際には取るに足らない(最初の部分を与える)ですが、質問の最初の部分(文)を証明する方法を見つけることができません。 この質問に関する本のセクションでは、次のことがわかります(p98)。 定義2:サンプル(x l、… 、x n)における推定量T nの有限サンプル分解点は、次の式で与えられます。ε ∗ n(T n ; x i、… 、x n):= 1ε∗nεn∗\varepsilon^*_nTnTnT_n(xl,…,xn)(xl,…,xn)(x_l,\ldots, x_n) ε∗n(Tn;xi,…,xn):=1nmax{m:maxi1,…,imsupy1,…,ym|Tn(z1,…,zn)|&lt;∞}εn∗(Tn;xi,…,xn):=1nmax{m:maxi1,…,imsupy1,…,ym|Tn(z1,…,zn)|&lt;∞}\varepsilon^*_n(T_n;x_i,\ldots,x_n):=\frac{1}{n}\max\{m:\max_{i_1,\ldots,i_m}\sup_{y_1,\ldots,y_m}\;|T_n(z_1,\ldots,z_n)|<\infty\} (z1,…,zn)(z1,…,zn)(z_1,\ldots,z_n)mmmxi1,…,ximxi1,…,ximx_{i_1},\ldots,x_{i_m}y1,…,ym.y1,…,ym.y_1,\ldots,y_m. ε∗ε∗\varepsilon^*ε∗=limn→∞ε∗nε∗=limn→∞εn∗\varepsilon^*=\underset{n\rightarrow\infty}{\lim}\varepsilon^*_nTnTnT_nTn(x1,…,xn)=Tn(x1+c,…,xn+c), for all c∈RTn(x1,…,xn)=Tn(x1+c,…,xn+c), for all c∈RT_n(x_1,\ldots,x_n)= T_n(x_1+c,\ldots,x_n+c), \text{ for all } c\in \Bbb{R} 以下のコメントでwhuberの質問に(私が)答えます。この本は、推定量がp82から始まる数ページであると定義しています。私は主要な部分を再現しようとしています(whuberの質問に答えると思います)。TnTnT_n (X1,…,Xn)(X1,…,Xn)(X_1,\ldots,X_n)HH\mathcal{H}RR\mathbb{R}HH\mathcal{H}RR\mathbb{R}FθFθF_\thetaθθ\thetaΘΘ\Theta ... (X1,…,Xn)(X1,…,Xn)(X_1,\ldots,X_n)GnGnG_nGnGnG_n(1/n)∑ni=1Δxi(1/n)∑i=1nΔxi(1/n)\sum_{i=1}^n\Delta_{x_i}ΔXΔX\Delta_{X}XXXθθ\thetaTn=Tn(X1,…,Xn)=Tn(Gn)Tn=Tn(X1,…,Xn)=Tn(Gn)T_n=T_n(X_1,\ldots,X_n)=T_n(G_n){Tn,n≥1}{Tn,n≥1}\{T_n,n\geq 1\}nnn{Fθ;θ∈Θ}{Fθ;θ∈Θ}\{F_\theta;\theta\in\Theta\}F(H)F(H)\mathcal{F}(\mathcal{H})HH\mathcal{H} Tn(Gn)=T(Gn)Tn(Gn)=T(Gn)T_n(G_n)=T(G_n)nnnGnGnG_nT:domain(T)→RT:domain(T)→RT:\mbox{domain}(T)\rightarrow\mathbb{R}TTTF(H)F(H)\mathcal{F}(\mathcal{H})TTTTn(X1,…,Xn)→n→∞T(G)Tn(X1,…,Xn)→n→∞T(G)T_n(X_1,\ldots,X_n)\underset{n\rightarrow\infty}{\rightarrow}T(G)GGGdomain(T)domain(T)\mbox{domain}(T)T(G)T(G)T(G){Tn;n≥1}{Tn;n≥1}\{T_n;n\geq 1\}GGG ... T(Fθ)=θ for all …

2
O(1)更新効率によるロバストな平均推定
特定の特性を持つ平均のロバストな推定を探しています。この統計を計算する要素のセットがあります。次に、新しい要素を1つずつ追加し、要素を追加するたびに統計(オンラインアルゴリズムとも呼ばれます)を再計算します。この更新の計算を高速に、できればO(1)に、つまりリストのサイズに依存しないようにしたいと思います。 通常の平均には、効率的に更新できるという特性がありますが、外れ値に対して堅牢ではありません。四分位間平均やトリム平均のような、平均の典型的なロバストな推定量は、効率的に更新できません(ソートされたリストを維持する必要があるため)。 効率的に計算/更新できる堅牢な統計についての提案があれば幸いです。

2
自己相関がない可能性がありますが、HAC標準エラーの使用
私はいくつかのリグレッションを実行しており、安全を確保したいと思ったため、全体にわたってHAC(不均一分散と自己相関の一貫性)標準エラーを使用することにしました。シリアル相関が存在しないいくつかのケースがあるかもしれません。これはとにかく有効なアプローチですか?欠点はありますか?

1
Theil-Sen推定器を効率的に計算する方法は?
Theil-Sen推定量は私にとって興味深いものですが、自分で実装すると、O(n ^ 2)としてスケーリングするものになってしまいます。ウィキペディアによると、O(n log(n))で正確に計算できます。誰かが効率的な実装に私を向けることができますか(pythonまたはmathematicaが最善であり、MatlabまたはRが許容できるでしょう)、そうでなければ効率的なバージョンがどのように機能するかを簡単な言葉で説明できますか?

2
膨大なデータセットが与えられた場合、なぜ統計モデルは過剰適合しますか?
現在のプロジェクトでは、特定のグループの行動を予測するモデルを構築する必要があるかもしれません。トレーニングデータセットには6つの変数のみが含まれます(idは識別目的のみです)。 id, age, income, gender, job category, monthly spend その中で monthly spend応答変数です。ただし、トレーニングデータセットには約300万行が含まれid, age, income, gender, job category、予測されるデータセット(応答変数は含まれるが、含まれない)には100万行が含まれます。私の質問は、統計モデルにあまりにも多くの行(この場合は300万行)を投げた場合に潜在的な問題はありますか?計算コストが懸念事項の1つであることを理解していますが、他に懸念事項はありますか?データセットのサイズの問題を完全に説明している本/紙はありますか?
8 modeling  large-data  overfitting  clustering  algorithms  error  spatial  r  regression  predictive-models  linear-model  average  measurement-error  weighted-mean  error-propagation  python  standard-error  weighted-regression  hypothesis-testing  time-series  machine-learning  self-study  arima  regression  correlation  anova  statistical-significance  excel  r  regression  distributions  statistical-significance  contingency-tables  regression  optimization  measurement-error  loss-functions  image-processing  java  panel-data  probability  conditional-probability  r  lme4-nlme  model-comparison  time-series  probability  probability  conditional-probability  logistic  multiple-regression  model-selection  r  regression  model-based-clustering  svm  feature-selection  feature-construction  time-series  forecasting  stationarity  r  distributions  bootstrap  r  distributions  estimation  maximum-likelihood  garch  references  probability  conditional-probability  regression  logistic  regression-coefficients  model-comparison  confidence-interval  r  regression  r  generalized-linear-model  outliers  robust  regression  classification  categorical-data  r  association-rules  machine-learning  distributions  posterior  likelihood  r  hypothesis-testing  normality-assumption  missing-data  convergence  expectation-maximization  regression  self-study  categorical-data  regression  simulation  regression  self-study  self-study  gamma-distribution  modeling  microarray  synthetic-data 

1
Rのロバストな単調回帰
次のテーブルがあります R df &lt;- structure(list(x = structure(c(12458, 12633, 12692, 12830, 13369, 13455, 13458, 13515), class = "Date"), y = c(6080, 6949, 7076, 7818, 0, 0, 10765, 11153)), .Names = c("x", "y"), row.names = c("1", "2", "3", "4", "5", "6", "8", "9"), class = "data.frame") &gt; df x y 1 2004-02-10 …

3
SPSSを使用した2x3混合設計ANOVAの事後テスト?
実験中に3回評価された10人の参加者の2つのグループがあります。グループ間および3つの評価全体の違いをテストするために、group(コントロール、実験)、time(最初、2、3)、およびを使用して2x3混合設計ANOVAを実行しましたgroup x time。両方timeとgroup有意な相互作用があったほか、重大な結果group x time。 グループメンバーシップに関しても、3回の評価の違いをさらにチェックする方法をよく知りません。実際、最初は、ANOVAのオプションで、ボンフェローニの補正を使用してすべての主要な効果を比較することだけを指定しました。しかし、この方法で、グループを区別せずに、サンプル全体の時間の違いをこのように比較したことに気付きましたね。 したがって、可能な解決策を見つけるためにインターネットでたくさん検索しましたが、結果はほとんどありませんでした。私と同じようなケースは2つしか見つかりませんでしたが、解決策は逆です! 記事では、混合設計の後、著者らは被験者ごとに1つずつ、2回の反復測定ANOVAを事後的に実行しました。このようにして、2つのグループは修正なしで個別に分析されます。 インターネットのガイドでは、混合ANOVAの実行中に、SPSS構文のCOMPARE(time) ADJ(BONFERRONI)直後にを手動で追加すると述べています/EMMEANS=TABLES(newgroup*time)。このように、3つの時間はグループごとに個別に比較されます。ボンフェローニ補正を使用すると、私は正しいのでしょうか。 どう思いますか?どちらが正しい方法でしょうか?
8 anova  mixed-model  spss  post-hoc  bonferroni  time-series  unevenly-spaced-time-series  classification  normal-distribution  discriminant-analysis  probability  normal-distribution  estimation  sampling  classification  svm  terminology  pivot-table  random-generation  self-study  estimation  sampling  estimation  categorical-data  maximum-likelihood  excel  least-squares  instrumental-variables  2sls  total-least-squares  correlation  self-study  variance  unbiased-estimator  bayesian  mixed-model  ancova  statistical-significance  references  p-value  fishers-exact  probability  monte-carlo  particle-filter  logistic  predictive-models  modeling  interaction  survey  hypothesis-testing  multiple-regression  regression  variance  data-transformation  residuals  minitab  r  time-series  forecasting  arima  garch  correlation  estimation  least-squares  bias  pca  predictive-models  genetics  sem  partial-least-squares  nonparametric  ordinal-data  wilcoxon-mann-whitney  bonferroni  wilcoxon-signed-rank  traminer  regression  econometrics  standard-error  robust  misspecification  r  probability  logistic  generalized-linear-model  r-squared  effect-size  gee  ordered-logit  bayesian  classification  svm  kernel-trick  nonlinear  bayesian  pca  dimensionality-reduction  eigenvalues  probability  distributions  mathematical-statistics  estimation  nonparametric  kernel-smoothing  expected-value  filter  mse  time-series  correlation  data-visualization  clustering  estimation  predictive-models  recommender-system  sparse  hypothesis-testing  data-transformation  parametric  probability  summations  correlation  pearson-r  spearman-rho  bayesian  replicability  dimensionality-reduction  discriminant-analysis  outliers  weka 

1
回帰モデルにおける同時不均一性と重い裾
回帰を使用して予測モデルを作成しようとしています。これは、Rでlm()を使用して取得したモデルの診断プロットです。 QQプロットから読み取ったのは、残差が裾が重い分布であり、残差vs適合プロットは残差の分散が一定でないことを示唆しているようです。堅牢なモデルを使用して、残差の重い裾を飼いならすことができます。 fitRobust = rlm(formula, method = "MM", data = myData) しかし、それは物事が止まるところです。ロバストモデルの重さはいくつかの点0です。これらの点を削除すると、ロバストモデルの残差と近似値は次のようになります。 異分散はまだそこにあるようです。使用する logtrans(model, alpha) αα\alpha rlm(formula, method = "MM") ログ(Y+ α )〜X1+ ⋯ + Xんログ⁡(Y+α)〜バツ1+⋯+バツん\log(Y + \alpha) \sim X_1+\cdots+X_nαα\alpha 私には、残差がまだ一定の分散を持っていないように見えます。私は他の応答変換(Box-Coxを含む)を試しましたが、それらも改善のようには見えません。私がやっていることの第2段階(つまり、ロバストなモデルでの応答の変換を見つけること)が、どの理論によってもサポートされているかどうかさえわかりません。コメント、考え、または提案をいただければ幸いです。

1
ポアソン分布のロバストな推定
ポアソン分布からのものであると想定される一連の数値があります。セットにはいくつかの外れ値もあり、そのため、最尤推定値は悪影響を受けます。このような状況では、堅牢な推定手順が役立つと聞きました。誰でもこれを行う方法を説明できますか?私は統計学の学生ではありません。 glmrobR の関数がこれに使用できることがわかりました。(私はRにかなり新しいです)。しかし、マニュアルページを読んだにもかかわらず、それをどのように使用するのか理解できませんでした。特にforumula、glmrob関数の最初の引数であるaを取得する方法を理解できません。 ありがとう。


弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.