タグ付けされた質問 「robust」

一般にロバスト性とは、統計がその基礎となる仮定からの逸脱に鈍感であることを指します(Huber and Ronchetti、2009)。

1
外れ値検出のための堅牢なPCAと堅牢なマハラノビス距離
堅牢なPCA(Candes et al 2009またはNetrepalli et al 2014 によって開発された)は多変量異常値検出の一般的な方法ですが、マハラノビス距離は、共分散行列の堅牢で正規化された推定値が与えられると、異常値検出にも使用できます。私は、あるメソッドを他のメソッドよりも使用することの(不利な)利点に興味があります。 私の直感では、2つの最大の違いは次のとおりであることがわかります。データセットが(統計的な意味で)「小さい」場合、ロバストPCAは低いランクの共分散を提供し、代わりにロバストな共分散行列推定は完全なLedoit-Wolf正則化によるランク共分散。これはどのように異常値の検出に影響しますか?

3
Rのt分布のフィッティング:スケーリングパラメーター
t分布のパラメーター、つまり正規分布の「平均」と「標準偏差」に対応するパラメーターをどのように適合させますか。私はそれらがt分布の「平均」と「スケーリング/自由度」と呼ばれていると思いますか? 次のコードは、多くの場合「最適化に失敗しました」エラーになります。 library(MASS) fitdistr(x, "t") 最初にxをスケーリングするか、確率に変換する必要がありますか?それを行うのに最適な方法は?

1
堅牢な方法は本当に優れていますか?
私は2つのグループの被験者AとBを持ち、それぞれ約400のサイズと約300の予測変数を持っています。私の目標は、バイナリ応答変数の予測モデルを構築することです。私の顧客は、AからBに構築されたモデルを適用した結果を見たいと思っています(彼の本、「回帰モデリング戦略」で、@ FrankHarrellは、2つのデータセットを組み合わせて、パワーと精度--- 90ページ、外部検証を参照してください。私が持っているデータの種類を収集するのは非常に費用と時間がかかることを考えると、私は彼に同意する傾向があります。 。)私の予測子の多くは、非常に相関があり、非常に歪んでいます。ロジスティック回帰を使用して、予測モデルを構築しています。 私の予測子は主に力学から来ています。たとえば、対象がおよびさまざまな値に対して期間しきい値よりも高いストレス下にあった合計時間。それらの定義から、これらの合計時間の多くが互いに代数的に関連していることは明らかです。代数的に関連していない予測因子の多くは、それらの性質のために関連している:期間中に高応力下にある科目期間中に高応力下になる傾向がありも、αα\alpha[t1,t2][t1,t2][t_1, t_2]α&gt;0α&gt;0\alpha > 00≤t1&lt;t20≤t1&lt;t20 \leq t_1 < t_2[t1,t2][t1,t2][t_1, t_2][t3,t4][t3,t4][t_3,t_4][t1,t2]∩[t3,t4]=∅[t1,t2]∩[t3,t4]=∅[t_1,t_2] \cap [t_3,t_4] = \emptyset。データの次元を削減するために、関連する予測変数をクラスター化し(たとえば、すべての合計ストレス時間を一緒に)、主成分分析を使用して各クラスターを表しました。変数が歪んでいるため、2つの代替パスを試しました。 PCAを実行する前に、変数のスキューを減らすために対数変換を使用しました。 Rのパッケージrrcov(PcaHubert)で実装されているMia HubertのROBPCAアルゴリズムを使用して、堅牢な主成分を見つけました。 ROC曲線の全体形状、精密リコール曲線の形状、およびROC曲線下面積(AUC)をパフォーマンス測定として使用していますが、データセットAとBの両方で同様の結果を取得したいです。堅牢な主成分を使用することでより良い結果が得られると期待していましたが、驚いたことに、最初の方法の方が優れていました。曲線。 これの説明は何ですか?そして、データを通常のように見せようとする代わりに、堅牢な主成分をどのように使用できますか?ROBPCAの代わりに推奨する特定の堅牢なPCAメソッドはありますか?

4
平均のロバストt検定
ランダム変数に対して、軽度から中程度のスキューとランダム変数の尖度の影響を受けるローカル代替に対して、ヌルをテストしようとしています。「ロバスト推定と仮説検定入門」でのウィルコックスの提案に従って、トリミングされた平均値、中央値、および位置のM推定量(Wilcoxの「ワンステップ」手順)に基づいた検定を見てきました。これらの堅牢なテストは、歪んでいないがレプトクルティックな分布でテストする場合、パワーの点で標準のt検定よりも優れています。E [ X ] &gt; 0 XE[ X] = 0E[X]=0E[X] = 0E[ X] &gt; 0E[X]&gt;0E[X] > 0バツXX ただし、偏った分布でテストする場合、これらの片側検定は、分布が左スキューであるか右スキューであるかに応じて、帰無仮説の下で非常にリベラルまたは保守的すぎます。たとえば、観測値が1000の場合、中央値に基づくテストでは、実際には、公称5%レベルで、時間の約40%が拒否されます。この理由は明らかです。歪んだ分布では、中央値と平均値はかなり異なります。しかし、私のアプリケーションでは、中央値ではなく、平均値をテストする必要があります。 平均を実際にテストするt検定のより堅牢なバージョンはありますが、スキューと尖度の影響を受けませんか? 理想的には、この手順は、スキューのない、尖度の高いケースでもうまく機能します。「1ステップ」テストはほぼ十分で、「bend」パラメーターは比較的高く設定されていますが、スキューがない場合のトリム平均テストよりも強力ではなく、スキュー下のリジェクトの公称レベルを維持するのに問題があります。 背景:中央値ではなく平均値を本当に気にする理由は、テストが金融アプリケーションで使用されるからです。たとえば、ポートフォリオに正の期待対数収益があるかどうかをテストする場合、ポートフォリオに投資すると、すべての収益(平均サンプル数)が発生するため、平均は実際に適切です中央値の重複。つまり、私は本当にRVからのドローの合計に関心があります。n XnnnnnnバツXX

1
反復的に再重み付けされた最小二乗の定義と収束
次の形式の関数を最小化するために、反復的に再重み付けされた最小二乗(IRLS)を使用しています。 J(m)=∑Ni=1ρ(|xi−m|)J(m)=∑i=1Nρ(|xi−m|)J(m) = \sum_{i=1}^{N} \rho \left(\left| x_i - m \right|\right) ここで、はのインスタンスの数、は必要な堅牢な推定値、は適切な堅牢なペナルティ関数です。今は凸であり(必ずしも厳密ではないが)微分可能であるとしましょう。そのような良い例は、フーバー損失関数です。NNNxi∈Rxi∈Rx_i \in \mathbb{R}m∈Rm∈Rm \in \mathbb{R}ρρ\rhoρρ\rho 私がやってきたことは、をに関して微分し(そして操作して)、J(m)J(m)J(m)mmm dJdm=∑Ni=1ρ′(|xi−m|)|xi−m|(xi−m)dJdm=∑i=1Nρ′(|xi−m|)|xi−m|(xi−m)\frac{dJ}{dm}= \sum_{i=1}^{N} \frac{\rho'\left( \left|x_i-m\right|\right) }{\left|x_i-m\right|} \left( x_i-m \right) 0に設定し、繰り返し重みを(x_i = m {(k)}で知覚される特異点は、気になるすべての\ rhoで実際に除去可能な特異点であることに注意してください)。その後、私は取得し、kkkwi(k)=ρ′(|xi−m(k)|)|xi−m(k)|wi(k)=ρ′(|xi−m(k)|)|xi−m(k)|w_i(k) = \frac{\rho'\left( \left|x_i-m{(k)}\right|\right) }{\left|x_i-m{(k)}\right|}xi=m(k)xi=m(k)x_i=m{(k)}ρρ\rho ∑Ni=1wi(k)(xi−m(k+1))=0∑i=1Nwi(k)(xi−m(k+1))=0\sum_{i=1}^{N} w_i(k) \left( x_i-m{(k+1)} \right)=0 そして解くと、m(k+1)=∑Ni=1wi(k)xi∑Ni=1wi(k)m(k+1)=∑i=1Nwi(k)xi∑i=1Nwi(k)m(k+1) = \frac{\sum_{i=1}^{N} w_i(k) x_i}{ \sum_{i=1}^{N} w_i(k)}。 「収束」までこの固定小数点アルゴリズムを繰り返します。微分が0で凸関数であるため、固定小数点に到達する場合は最適であることに注意してください。 この手順について2つの質問があります。 これは標準のIRLSアルゴリズムですか?このトピックに関するいくつかの論文を読んだ後(そしてそれらは非常に散らばっていて、IRLSとは曖昧でした)、これは私が見つけることができるアルゴリズムの最も一貫した定義です。人々が望むなら、私は論文を投稿することができます、しかし、私は実際にここで誰にも偏りたくありませんでした。もちろん、この基本的な手法は、ベクトルxixix_iと\ left | …

2
正規分布のパラメーターの推定:平均ではなく中央値?
正規分布のパラメーターを推定するための一般的なアプローチは、平均とサンプルの標準偏差/分散を使用することです。 ただし、外れ値がある場合は、中央値と中央値からの中央値偏差がより堅牢になりますよね? いくつかのデータセットでは、私は、によって推定正規分布しようとしたN(median(x),median|x−median(x)|)N(median(x),median|x−median(x)|)\mathcal{N}(\text{median}(x), \text{median}|x - \text{median}(x)|)古典よりもはるかに優れフィット作るように思わN(μ^,σ^)N(μ^,σ^)\mathcal{N}(\hat\mu, \hat\sigma)の平均を使用してのRMS偏差。 データセットにいくつかの異常値があると仮定した場合、中央値を使用しない理由はありますか?このアプローチのリファレンスを知っていますか?Googleでのクイック検索では、ここで中央値を使用する利点を説明する有用な結果が見つかりませんでした(ただし、明らかに、「正規分布パラメーター推定中央値」は検索用語の特定のセットではありません)。 偏差の中央値は偏っていますか?乗算する必要がありn−1nn−1n\frac{n-1}{n}バイアスを減らすためにますか? ガンマ分布や指数関数的に修正されたガウス分布(パラメーター推定にスキューネスが必要であり、外れ値が実際にこの値を台無しにする)などの他の分布に対する同様の堅牢なパラメーター推定アプローチを知っていますか?

1
Rのrlm()回帰係数の推定値がlm()と異なるのはなぜですか?
R MASSパッケージのrlmを使用して、多変量線形モデルを回帰しています。多くのサンプルでうまく機能しますが、特定のモデルの準ヌル係数を取得しています: Call: rlm(formula = Y ~ X1 + X2 + X3 + X4, data = mymodel, maxit = 50, na.action = na.omit) Residuals: Min 1Q Median 3Q Max -7.981e+01 -6.022e-03 -1.696e-04 8.458e-03 7.706e+01 Coefficients: Value Std. Error t value (Intercept) 0.0002 0.0001 1.8418 X1 0.0004 0.0000 13.4478 X2 -0.0004 …

3
ロバスト平均推定のクラッシュコース
私にはたくさんの(約1000)の推定値があり、それらはすべて長期的な弾力性の推定値であると想定されています。もう少しこれらの半分以上が、私は、メソッドBが何か推計だと思う」のようなB.どこかに私が何かを読む方法使用方法Aと休息を用いて推定される非常に見積もりが高い(50から60パーセント)くらいあるので、方法Aとは異なるが「。堅牢な統計に関する私の知識はほとんどないため、両方のサンプルのサンプル平均と中央値のみを計算しました...すぐに違いがわかりました。方法Aは非常に集中しており、中央値と平均値の差はほとんどありませんが、方法Bのサンプルは大きく異なります。 外れ値と測定誤差がメソッドBのサンプルを歪めると結論付けたので、理論と非常に矛盾する約50の値(約15%)を捨てました...そして突然、両方のサンプル(CIを含む)の平均は非常に似ていました。密度もプロットします。 (外れ値を排除するために、サンプルAの範囲を調べ、その範囲外にあるBのすべてのサンプルポイントを削除しました。)手段の堅牢な推定の基本を見つけることができる場所を教えてくださいこの状況をより厳密に判断させてください。そして、いくつかの参照があります。さまざまな手法を深く理解する必要はありませんが、堅牢な推定の方法論に関する包括的な調査を読んでください。 外れ値を削除した後の平均差の有意性についてt検定を行い、p値は0.0559(t約1.9)であり、完全なサンプルの場合、t statは約4.5でした。しかし、それは実際にはポイントではありません。平均は少し異なる可能性がありますが、上記のように50〜60%異なることはありません。そして、彼らはそうは思わない。

2
堅牢な統計検定とは何ですか?強力な統計検定とは何ですか?
堅牢な統計テストとそうでない統計テストがあります。堅牢性とはどういう意味ですか?驚いたことに、私はこのサイトでそのような質問を見つけることができませんでした。 さらに、テストの堅牢性と強力性が一緒に議論されることもあります。直感的には、2つの概念を区別できませんでした。強力なテストとは何ですか?堅牢な統計的検定とはどう違いますか?

3
CARTモデルを堅牢にすることはできますか?
私のオフィスの同僚は、今日、「ツリーモデルは極端な観察に巻き込まれるため、良くない」と私に言いました。 ここで検索した結果、このスレッドは基本的にクレームをサポートしています。 それは私を疑問に導きます-どのような状況でCARTモデルは堅牢になりますか、そしてそれはどのように示されますか?

3
Rousseeuw's and Croux '(1993)Qnスケール推定量の大きなサンプルの計算方法
してみましょうQn=Cn.{|Xi−Xj|;i&lt;j}(k)Qn=Cn.{|Xi−Xj|;i&lt;j}(k)Q_n = C_n.\{|X_i-X_j|;i < j\}_{(k)}ので、同様に非常に短いサンプルについて{1,3,6,2,7,5}{1,3,6,2,7,5}\{1,3,6,2,7,5\}、それが発見から計算することができるkkkペアワイズ差の第順序静的。 7 6 5 3 2 1 1 6 5 4 2 1 2 5 4 3 1 3 4 3 2 5 2 1 6 1 7 h = [n / 2] + 1 = 4 k = h(h-1)/ 2 = 8 したがって、Qn=Cn.2Qn=Cn.2Q_n=C_n. 2 明らかに、80,000レコードで構成されていると言っている大きなサンプルの場合、非常に大きなメモリが必要です。 …

4
外れ値を削除するのに適した形式ですか?
私はソフトウェアビルドの統計情報に取り組んでいます。成功/失敗および経過時間に関する各ビルドのデータがあり、1週間あたり約200を生成します。 成功率は簡単に集計でき、45%がどの週にも合格したと言えます。しかし、経過時間も集計したいので、データを不当に誤って伝えないようにしたいと思います。私はプロに尋ねた方が良いと考えました:-) 期間が10あるとします。それらは、成功と失敗の両方のケースを表します。一部のビルドはすぐに失敗します。これにより、時間が非常に短くなります。テスト中にハングし、最終的にタイムアウトになるものがあり、非常に長い時間がかかります。さまざまな製品をビルドしているため、成功したビルドでも90秒から4時間の間で異なります。 私はこのようなセットを得るかもしれません: [50, 7812, 3014, 13400, 21011, 155, 60, 8993, 8378, 9100] 私の最初のアプローチは、セットをソートして中央値を選択することにより中央値時間を取得することでした。この場合は7812です(偶数セットの算術平均は気にしませんでした)。 残念ながら、特定の値を1つだけ選択するため、これは多くのバリエーションを生成するようです。したがって、この値をトレンドにした場合、どのビルドが中央値にあったかに応じて、5000〜10000秒の間で跳ね返ります。 そこで、これを滑らかにするために、別のアプローチを試みました。外れ値を削除して、残りの値の平均を計算します。私はそれを三分位に分割し、中央のものだけで作業することにしました: [50, 60, 155, 3014, 7812, 8378, 8993, 9100, 13400, 21011] -&gt; [50, 60, 155], [3014, 7812, 8378, 8993], [9100, 13400, 21011] -&gt; [3014, 7812, 8378, 8993] これが私にとって良く見える理由は2つあります: より高速なビルドではアクションは必要ありません。既に問題ありません 最も長いビルドはタイムアウトが原因である可能性が高く、常に存在します。それらを検出する他のメカニズムがあります だから、これは私が探しているデータであるように思えますが、まあ、真実を取り除くことで滑らかさを達成したのではないかと心配しています。 これは議論の余地がありますか?メソッドは正常ですか? ありがとう!

1
なぜ毎回ロバスト回帰をしないのですか?
このページの例は、単純な回帰が外れ値の影響を著しく受けていることを示しています 。これは、ロバスト回帰の手法(http://www.alastairsanderson.com/R/tutorials/robust-regression-in-R/)で克服できます。lmrobとltsRegは他の堅牢な回帰手法だと思います。 単純な回帰(lm)を実行するのではなく、なぜ毎回堅牢な回帰(rlmやrqなど)を行わない方がよいでしょうか。これらの堅牢な回帰手法の欠点はありますか?あなたの洞察をありがとう。

1
尖度のロバストな推定?
尖度の通常の推定量であるを使用していますが、経験的分布では小さな「外れ値」でさえあることに気付きました、つまり中心から離れた小さなピークは、それを大きく影響します。より堅牢な尖度推定器はありますか?K^=μ^4σ^4K^=μ^4σ^4\hat{K}=\frac{\hat{\mu}_4}{\hat{\sigma}^4}


弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.