タグ付けされた質問 「bias-variance-tradeoff」

7
leave-one-out対K-foldクロス検証のバイアスと分散
モデルの分散とバイアスの観点から、さまざまな交差検証方法をどのように比較しますか? 私の質問はこのスレッドによって部分的に動機づけられています:最適な折り畳み数-交差検証:leave-one-out CVは常に最良の選択ですか?KKK。そこでの答えは、leave-one-out交差検定で学習したモデルは、通常の倍交差検定で学習したモデルよりも高い分散を持ち、leave-one-out CVがより悪い選択になることを示唆しています。KKK しかし、私の直感では、Leave-one-out CVではフォールドCV よりもモデル間の分散が比較的小さいはずです。なぜなら、フォールド間で1つのデータポイントのみをシフトしているため、フォールド間のトレーニングセットが実質的に重なっているからです。KKK または、逆方向に進むと、がフォールドCVで低い場合、トレーニングセットはフォールド全体で大きく異なり、結果のモデルは異なる可能性が高くなります(したがって、分散が大きくなります)。KKKKKKK 上記の議論が正しければ、leave-one-out CVで学習したモデルの分散が大きくなるのはなぜですか?

2
倍の交差検証での最適な折り畳み数:leave-one-out CVは常に最良の選択ですか?
計算能力に関する考慮事項は別として、交差検証での折り畳みの数を増やすと、モデルの選択/検証が向上する(つまり、折り畳みの数が多いほど良い)と考えられる理由はありますか? 極端に議論すると、leave-one-out交差検定は必然的に倍交差検定よりも優れたモデルになりますか?KKK この質問の背景:私は非常に少数のインスタンス(たとえば、10個の陽性と10個の陰性)で問題に取り組んでおり、私のモデルが一般化できないか、非常に少ないデータで過剰適合することを恐れています。

2
バイアス分散トレードオフの導出を理解する
私は、統計学習の要素のバイアス分散トレードオフの章を読んでいます。29ページの式には疑問があります(はランダム)期待値と数と分散。モデルの誤差の期待値を E [(Y-f_k(x))^ 2]とします。 ここで、f_k(x)は学習者のxの予測です。本によると、エラーは E [(Y-f_k(x))^ 2] = \ sigma ^ 2 + Bias(f_k)^ 2 + Var(f_k(x))です。 Y=f(x)+ϵY=f(x)+ϵ Y = f(x)+\epsilonε = E [ ε ] = 0 E [ (ε - ε)2 ] = E [ ε 2 ] = σ 2 E [ (Y - F K(X …

2
バイアスと分散のトレードオフに関する質問
バイアスと分散のトレードオフ、推定器のバイアスとモデルのバイアスの関係、および推定器の分散とモデルの分散の関係を理解し​​ようとしています。 私はこれらの結論に達しました: 推定量のバイアスを無視すると、つまり、モデルの分散を無視してモデルのバイアスのみを最小化することを目的とする場合(言い換えると、考慮せずに推定量の分散を最小化することのみを目的とする場合)推定量のバイアスも) 逆に、推定量の分散を無視する場合、つまりモデルのバイアスを無視するモデルの分散のみを最小化することを目的とする場合(つまり、モデルのバイアスを最小化することのみを目的とする場合、推定量の分散も考慮しない推定量)。 私の結論は正しいですか?

2
なげなわと比較して、最適なサブセット選択が好ましくないのはなぜですか?
統計学習の本の中で最良のサブセット選択について読んでいます。3つの予測子場合、2 3 = 8個のサブセットを作成します。x1,x2,x3x1,x2,x3x_1,x_2,x_323=823=82^3=8 予測子のないサブセット 予測子x 1のサブセットx1x1x_1 予測子x 2のサブセットx2x2x_2 予測子x 3のサブセットx3x3x_3 予測子x 1、x 2のサブセットx1,x2x1,x2x_1,x_2 予測子x 1、x 3のサブセットx1,x3x1,x3x_1,x_3 予測子x 2、x 3のサブセットx2,x3x2,x3x_2,x_3 予測子x 1、x 2、x 3のサブセットx1,x2,x3x1,x2,x3x_1,x_2,x_3 次に、テストデータでこれらすべてのモデルをテストして、最適なモデルを選択します。 今、私の質問は、なぜなげなわと比較して最良のサブセット選択が好まれないのかということです。 最適なサブセットとなげなわのしきい値関数を比較すると、最適なサブセットは、なげなわのようにいくつかの係数をゼロに設定することがわかります。ただし、他の係数(ゼロ以外の係数)にはまだols値があり、バイアスはかけられません。一方、なげなわでは、係数の一部がゼロになり、その他(ゼロ以外の係数)にはバイアスがかかります。下の図はそれをより良く示しています: 写真から、最適なサブセットの場合の赤い線の部分は灰色の線の上にあります。他の部分は、いくつかの係数がゼロであるx軸上にあります。灰色の線は、偏りのないソリューションを定義します。投げ縄では、いくつかのバイアスが導入されますます。この図から、最適なサブセットは投げ縄よりも優れていることがわかります!最適なサブセットを使用することの欠点は何ですか?λλ\lambda

4
線形モデルを近似した後、近似した残差をバイアスと分散に分解することは可能ですか?
データポイントを、より複雑なモデルが必要か、より複雑なモデルが不要かで分類したいと思います。私の現在の考えは、すべてのデータを単純な線形モデルに当てはめ、残差のサイズを観察してこの分類を行うことです。次に、エラーへのバイアスと分散の寄与についていくつかの読み取りを行い、バイアスを直接計算できれば、合計エラー(残差または標準化残差)を処理するよりも適切な測定になる可能性があることに気付きました。 線形モデルでバイアスを直接推定することは可能ですか?テストデータの有無は?ここで相互検証は役立ちますか? そうでない場合は、線形モデルの平均ブートストラップアンサンブル(バギングと呼ばれると思います)を使用してバイアスを概算できますか?

1
線形回帰のバイアス分散分解における分散項
'統計的学習の要素'は、線形モデルのバイアス分散分解のための式は以下のように与えられる F (X 0)Err(x0)=σ2ϵ+E[f(x0)−Ef^(x0)]2+||h(x0)||2σ2ϵ,Err(x0)=σϵ2+E[f(x0)−Ef^(x0)]2+||h(x0)||2σϵ2,Err(x_0)=\sigma_\epsilon^2+E[f(x_0)-E\hat f(x_0)]^2+||h(x_0)||^2\sigma_\epsilon^2,f(x0)f(x0)f(x_0)実際の目標関数であり、モデルにおけるランダム誤差の分散であり、Y = F (X )+ ε及びF(xは)の線形推定量であるF (X )。σ2ϵσϵ2 \sigma_\epsilon^2y=f(x)+ϵy=f(x)+ϵy=f(x)+\epsilonf^(x)f^(x)\hat f(x)f(x)f(x)f(x) 分散項は、式はターゲットがノイズレスであれば分散がゼロになることを意味するので、あること、ここで私を悩まれているしかし、たとえゼロノイズが、私はまだ違う得ることができますので、それは私には意味がありません。推定F(X 0)分散を意味異なるトレーニングセットについて、非ゼロです。σ2ϵ=0.σϵ2=0.\sigma_\epsilon^2=0.f^(x0)f^(x0)\hat f(x_0) たとえば、ターゲット関数が2次であり、トレーニングデータにこの2次からランダムにサンプリングされた2つのポイントが含まれているとします。明らかに、二次ターゲットからランダムに2つのポイントをサンプリングするたびに、異なる線形近似が得られます。では、どのように分散をゼロにすることができますか?f(x0)f(x0)f(x_0) 誰かがバイアス分散分解の私の理解の何が間違っているかを見つけるのを手伝ってくれる?

2
バイアス/分散のトレードオフ計算
私は問題をアンダーフィッティング/オーバーフィッティングの用語で理解していますが、その背後にある正確な数学を理解するのに苦労しています。私はいくつかのソースをチェックしました(ここでは、ここでは、ここでは、こことここでは、)が、正確にバイアスと分散のような互いに対向なぜ私はまだ例えば、表示されませんexexe^x そして e−xe−xe^{-x} 行う: ソース 誰もが次の方程式を導き出しているようです(既約エラーを省略して ϵϵ\epsilonここ) 次に、ポイントをホームに移動して、右側の用語が動作する理由を正確に示す代わりに、この世界の不完全さ、そして正確かつ普遍的であることが同時に不可能であることはどれほど不可能であるかについてさまよい始めます。E[(θ^n−θ)2]=E[(θ^n−E[θ^n])2]+(E[θ^n−θ])2E[(θ^n−θ)2]=E[(θ^n−E[θ^n])2]+(E[θ^n−θ])2\newcommand{\var}{{\rm Var}} E[(\hat{\theta}_n - \theta)^2]=E[(\hat{\theta}_n - E[\hat{\theta}_n])^2] + (E[\hat{\theta}_n - \theta])^2 明らかな反例 たとえば、平均が標本平均を使用して推定されている、つまりそして、場合: 以来、および、我々は: μμ\muX¯n=1n∑i=1nXiX¯n=1n∑i=1nXi\bar{X}_n = \frac{1}{n}\sum\limits_{i=1}^{n}X_iθ≡μθ≡μ\theta\equiv\muθ^n≡X¯nθ^n≡X¯n\hat{\theta}_n\equiv\bar{X}_nMSE=Var(X¯n−μ)+(E[X¯n]−μ)2MSE=Var(X¯n−μ)+(E[X¯n]−μ)2MSE = \var(\bar{X}_n - \mu) + (E[\bar{X}_n] - \mu)^2 E[X¯n]=μE[X¯n]=μE[\bar{X}_n]=\muVar(μ)=0Var(μ)=0\var(\mu) = 0MSE=Var(X¯n)=1nVar(X)−→−−n→∞0MSE=Var(X¯n)=1nVar(X)→n→∞0MSE = \var(\bar{X}_n) = \frac{1}{n}\var(X)\xrightarrow[n\to\infty]{}0 したがって、質問は次のとおりです。 なぜ正確と同時に減少させることができないのですか?E[(θ^n−E[θ^n])2]E[(θ^n−E[θ^n])2]E[(\hat{\theta}_n - E[\hat{\theta}_n])^2]E[θ^n−θ]E[θ^n−θ]E[\hat{\theta}_n - \theta] なぜ公平な推定量を取り、サンプルサイズを増やすことで分散を減らすことができないのでしょうか。

3
平均二乗誤差=分散+バイアス^ 2の場合。次に、平均二乗誤差を分散よりも低くする方法はありますか
統計学習入門を読んでいました。ここではそれが示されています:- 後の例では、トレーニングとテストのMSEがプロットされています。バイアス^ 2と分散の両方が正の量である場合、MSEを分散よりも低くする方法を知りたいと思いました。

1
分類子を高いバイアスまたは高い分散であるとどのように決定しますか?
分類子のバイアスと分散により、分類子がデータをそれぞれ過小および過大に適合できる程度が決まります。高バイアスまたは高分散として特徴付けられる分類子をどのように決定できますか? バイアス分散のトレードオフとその分解とは何か、トレーニングデータとモデルにどのように依存する可能性があるかについては、かなり明確です。たとえば、データにターゲット関数に関連する十分な情報が含まれていない場合(単純に言えば、サンプルがないため)、分類子は誤った仮定を行う可能性があるため、高いバイアスを経験します。逆に、分類子が所定のトレーニングデータ(たとえば、複数のエポックを実行する多数のノードを含むANN、または深さが高い決定木)にぴったりと適合している場合、見えないものを予測するために一般化できないため、分散が大きくなります。サンプル。 ただし、高バイアス低分散分類器、または低バイアス高分散分類器の選択についての講義を見る場合があります。たとえば、ナイーブベイズは高バイアス低分散分類器と見なされます(条件付き独立性の仮定によるものと思われます)。これをどのように決定しますか?では、SVM、ID3、ランダムフォレスト、および NNをどのように特徴付けるのでしょうか。それらは高いバイアスまたは高い分散ですか? kkk
弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.