タグ付けされた質問 「bias」

パラメータ推定器の期待値とパラメータの真の値の差。このタグを使用して[bias-term] / [bias-node](つまり[intercept])を参照しないでください。

2
バイアス分散分解:予測二乗予測誤差の項で、既約誤差が少ない
ハスティら "統計的学習の要素"(2009)データ生成処理考える とE(ε )= 0とヴァー(ε )= σ 2 εを。Y=f(X)+εY=f(X)+ε Y = f(X) + \varepsilon E(ε)=0E(ε)=0\mathbb{E}(\varepsilon)=0Var(ε)=σ2εVar(ε)=σε2\text{Var}(\varepsilon)=\sigma^2_{\varepsilon} それらは、点での予想二乗予測誤差の次のバイアス分散分解を示します(p。223、式7.9): Err (x 0)x0x0x_0 私自身の仕事で、私は指定されていない Fを(⋅)が、任意の予測取る yは(これが関連している場合)の代わりに。質問:バイアス2+分散 、より正確には Err(x0)-既約エラーの用語を探してい ます。Err(x0)=E([y−f^(x0)]2|X=x0)=…=σ2ε+Bias2(f^(x0))+Var(f^(x0))=Irreducible error+Bias2+Variance.Err(x0)=E([y−f^(x0)]2|X=x0)=…=σε2+Bias2(f^(x0))+Var(f^(x0))=Irreducible error+Bias2+Variance.\begin{aligned} \text{Err}(x_0) &= \mathbb{E}\left( [ y - \hat f(x_0) ]^2 | X = x_0 \right) \\ &= \dots \\ &= \sigma^2_{\varepsilon} + \text{Bias}^2(\hat f(x_0)) …

2
最小二乗仮定
次の線形関係を仮定: ここで、Y iは従属変数であり、X I単一の独立変数及びU I誤差項。Yi=β0+β1Xi+uiYi=β0+β1Xi+uiY_i = \beta_0 + \beta_1 X_i + u_iYiYiY_iXiXiX_iuiuiu_i Stock&Watson(計量経済学入門; 第4章)によると、3番目の最小二乗の仮定は、とu iの4次モーメントは非ゼロで有限(0 &lt; E (X 4 i)&lt; ∞ および 0 &lt; E (u 4 i)&lt; ∞ )。XiXiX_iuiuiu_i(0&lt;E(X4i)&lt;∞ and 0&lt;E(u4i)&lt;∞)(0&lt;E(Xi4)&lt;∞ and 0&lt;E(ui4)&lt;∞)(0<E(X_i^4)<\infty \text{ and } 0<E(u_i^4)<\infty) 3つの質問があります。 私はこの仮定の役割を完全には理解していません。この仮定が成り立たない場合、または推論にこの仮定が必要な場合、OLSは偏っており、矛盾していますか? ストックとワトソンは、「この仮定は、またはu iの非常に大きな値で観測値を描画する確率を制限します。」と書いています。しかし、私の直感では、この仮定は極端です。外れ値が大きい場合(4次モーメントが大きい場合など)に問題がありますが、これらの値がまだ有限である場合はどうでしょうか。ところで、外れ値の根底にある定義は何ですか?XiXiX_iuiuiu_i これを次のように再定式化できますか:「とu iの尖度は非ゼロで有限ですか?」XiXiX_iuiuiu_i

2
ツリー推定量は常に偏っていますか?
私はディシジョンツリーで宿題をしているのですが、私が答えなければならない質問の1つは、「ツリーから構築された推定量が偏っているのはなぜですか。 現在、過剰適合モデルはすべてのデータポイントに適合しようとするため、バイアスが非常に低くなる傾向があることを知っています。そして、Pythonのスクリプトを使用して、ツリーをいくつかのデータセットに適合させました(単一の機能を備えています。これは正弦波で、いくつかのオフポイントがありました。下の画像)。それで、私は「まあ、データをひどくオーバーフィットした場合、バイアスをゼロにできますか?」と思いました。そして、10000の深さでも、曲線が通過しないいくつかの点がまだあることがわかりました。 なぜか探してみましたが、説明があまりわかりませんでした。私はすべてのポイントを完全に通過するいくつかのツリーがあるかもしれないと私は推測しています、そして私が得たものは単に「不運」でした。または、おそらく別のデータセットで公平な結果が得られた可能性があります(おそらく完全な正弦波ですか?)。あるいはそれでも、最初に行われたカットにより、以降のカットですべてのポイントを完全に分離することが不可能になったのかもしれません。 したがって、このデータセットを考慮すると(他の人とは異なる可能性があるため)、私の質問は、バイアスがゼロになるポイントにツリーをオーバーフィットすることは可能ですか、それとも本当に小さい?そして、常に少なくともある程度のバイアスがある場合、なぜそれが起こるのですか? PS関連があるかどうかはわかりませんが、モデルをデータに合わせるためにDecisionTreeRegressorfrom を使用しましたsklearn。
9 cart  bias 

3
回帰係数のこのバイアス分散のトレードオフとは何ですか?
この論文、(分散コンポーネントのベイズ推論はコントラストエラーのみ使用し、著者の主張、Harville、1974) は「よく知られている」関係」、線形回帰の場合 ここで Y = X β(y−Xβ)′H−1(y−Xβ)=(y−Xβ^)′H−1(y−Xβ^)+(β−β^)′(X′H−1X)(β−β^)(y−Xβ)′H−1(y−Xβ)=(y−Xβ^)′H−1(y−Xβ^)+(β−β^)′(X′H−1X)(β−β^)(y-X\beta)'H^{-1}(y-X\beta)=(y-X\hat\beta)'H^{-1}(y-X\hat\beta)+(\beta-\hat\beta)'(X'H^{-1}X)(\beta-\hat\beta)ε 〜N(0 、H )。y=Xβ+ϵ,y=Xβ+ϵ,y=X\beta+\epsilon,ϵ∼N(0,H).ϵ∼N(0,H).\epsilon\sim\mathcal{N}(0, H). これはどのように有名ですか?これを証明する最も簡単な方法は何ですか?

2
楽観バイアス-予測誤差の推定
本の統計的学習の要素(PDFオンラインで入手可能)は、楽観バイアス(7.21、229ページ)について説明しています。楽観バイアスは、トレーニングエラーとサンプル内エラー(元の各トレーニングポイントで新しい結果値をサンプリングした場合に観察されるエラー)の差であると述べています(以下を参照)。 次に、この楽観バイアス()は、推定されたy値と実際のy値(以下の式)の共分散に等しいと述べています。なぜこの式が楽観バイアスを示しているのか理解できません。単純に、実際のyと予測されたyの間の強い共分散は、楽観主義ではなく、単に正確さを表すと考えていました。誰かが公式の導出を手伝ってくれるか、直感を共有できるかどうか教えてください。 ωω\omegayyyyyy

2
コックス比例ハザードモデルとランダムに選択されていないサンプル
非ランダムに選択されたサンプルによって引き起こされるコックス比例ハザードモデルのバイアスを修正する方法はありますか(ヘックマンの修正のようなもの)? 背景: 次のような状況であるとしましょう。- 最初の2年間は、すべてのクライアントが受け入れられます。 -その2年後、Cox PHモデルが作成されます。モデルは、クライアントがサービスを使用する期間を予測します。 -今後の会社の方針により、3か月を超える確率が0.5を超えるクライアントのみが受け入れられ、それ以外は拒否されます。 -さらに2年後、新しいモデルを構築する必要があります。問題は、受け入れられたクライアントのみを対象としているため、これらのクライアントのみを使用すると、深刻なバイアスが生じる可能性があることです。
9 bias  cox-model 

2
なぜ公平性が一貫性を意味しないのですか
Ian Goodfellowらによる深層学習を読んでいます。として導入します。 ここで、とはそれぞれ推定パラメーターと基になる実パラメーターです。Bias(θ)=E(θ^)−θBias(θ)=E(θ^)−θBias(\theta)=E(\hat\theta)-\thetaθ θθ^θ^\hat\thetaθθ\theta 一方、一貫性はによって定義され ます。これは、場合、 aslimm→∞θ^m=θlimm→∞θ^m=θ\mathrm{lim}_{m\to\infty}\hat\theta_m=\thetaϵ&gt;0ϵ&gt;0\epsilon > 0P(|θ^m−θ|&gt;ϵ)→0P(|θ^m−θ|&gt;ϵ)→0P(|\hat\theta_m-\theta|>\epsilon)\to0m→∞m→∞m\to\infty 次に、一貫性は公平性を意味しますが、その逆は意味しません: 一貫性により、データ例の数が増えるにつれて、推定量によって生じるバイアスが確実に減少します。ただし、その逆は当てはまりません。漸近的な不偏性は一貫性を意味しません。たとえば、m個のサンプルで構成されるデータセットを使用して、正規分布N(x;μ、σ2)の平均パラメーターμを推定することを検討してください:。データセットの最初のサンプルを不偏推定量として使用できます:\hatθ= x ^ {(1)}。その場合、E(\ hatθ_m)=θなので、データポイントがいくつ表示されても、推定量は不偏です。もちろん、これは推定値が漸近的に不偏であることを意味します。ただし、これは\hatθ_m→θが次のような場合ではないため、一貫した推定量ではありません。バツ(1 )、。。。、x(m )x(1),...,x(m){x^{(1)}, . . . , x^{(m)}}バツ(1 )x(1)x^{(1)}θ = X (1 ) E( θ M)= θ θ M → θ M→ ∞θ^= x(1 )θ^=x(1)\hatθ = x^{(1)}E(θ^メートル)= θE(θ^m)=θE(\hat θ_m) = θθ^メートル→ θθ^m→θ\hatθ_m → θm → ∞m→∞m …

1
バギング手法に関連する混乱
少し混乱しています。私はこの論文を読んでいて、バギング手法は分散を大幅に減らし、バイアスをわずかに増やすだけだと説明しました。どうして分散が小さくなるのかわかりませんでした。私は分散とバイアスが何であるかを知っています。バイアスとは、モデルがデータを学習できないことです。分散は、過適合に似ています。バギングによって分散がどのように減少するかはわかりません。

4
バイアス、系統的バイアス、系統的誤差の違いは?
次の用語に違いはありますか、または同じですか? バイアス 体系的なバイアス 系統的エラー その際、違いがある場合は説明してください。サンプルサイズを大きくすると、これらのエラーを減らすことができますか? 更新: 私の関心分野は統計的推論です。これらの用語を統計学者としてどのように区別するかということです。

3
がゼロ以外の平均測定誤差で測定される可能性がある場合の回帰重みの使用
データを観察し、回帰モデルを近似したいとします。残念ながら、は平均値がゼロ以外の誤差で測定される場合があります。Y,XY,XY, XE[Y|X]E[Y|X]\mathbf{E}[Y \,|\, X]YYY ましょうかどうかを示す、それぞれ古典的なゼロ平均誤差又は非ゼロ平均誤差で測定されます。を推定し。残念ながら、は通常観測されず、です。我々はの回帰合う場合は上の、我々は偏った予測を取得します。Z∈{unbiased,biased}Z∈{unbiased,biased}Z \in \left\{\text{unbiased}, \text{biased}\right\}YYYE[Y|X,Z=unbiased]E[Y|X,Z=unbiased]\mathbf{E}[Y \,|\, X, Z = \text{unbiased}]ZZZE[Y|X,Z=unbiased]≠E[Y|X]E[Y|X,Z=unbiased]≠E[Y|X]\mathbf{E}[Y \,|\, X, Z = \text{unbiased}] \neq \mathbf{E}[Y \,|\, X]YYYXXX 一般的に観察することはできないが、モデルにアクセスできるとします(Zを小さなトレーニングセットで手動で学習し、Zをターゲット変数として分類モデルを近似したため)。 。\ Pr [Z = \ text {unbiased} \、| \、X、Y]を使用してXのYの回帰を当てはめますか?回帰の重みは\ mathbf {E} [Y \、| \、X、 Z = \ text {unbiased}](または、それに失敗すると、重みを使用しない場合よりもバイアスの少ない推定になります)?この方法は実際に使用されていますか、それとも名前がありますか?ZZZPr[Z|X,Y]Pr[Z|X,Y]\Pr[Z \,|\, X,Y]ZZZZZZYYYXXXPr[Z=unbiased|X,Y]Pr[Z=unbiased|X,Y]\Pr[Z = \text{unbiased} \,|\, X,Y]E[Y|X,Z=unbiased]E[Y|X,Z=unbiased]\mathbf{E}[Y \,|\, X, …


2
「再編成トリック」の名前(データセットをランダムに並べ替えて、推定器のバイアスを推定します)
複雑なモデリング手法が偏っているかどうかを調べるための次の方法の参照または名前を知っていますか?TTT 元のデータセットにを適用します。そのパフォーマンスを測定します(例:回帰設定のR-2乗)。TTT 応答変数をランダムに並べ替えて、新しいデータセットを取得します。を適用し、そのパフォーマンスを測定します。[観測が依存している場合、このステップはより複雑になります。]P 'TTTP』P′P' が実質的にゼロのパフォーマンスと異なる場合、がバイアスされていると結論付けます。 TP』P′P'TTT リソースが許す場合、ステップ2を繰り返すことができます。これにより、パフォーマンス測定の順列ヌル分布が発生します。しかし、私のアプリケーションでは、リソースの問題のためにこれを行うことはできません。 この「再編成」のトリックは、誰かが(一部の設定で)リーブワンアウト相互検証のバイアスを調査するために使用したことを暗に覚えています。しかし、彼が私のプロセスの中で一度だけプロセス全体を繰り返すことができたのかどうかはわかりません。 単純な後方選択の「力」を示すRの例: # Generate random data set. Only random performance is expected. n &lt;- 100 p &lt;- 30 set.seed(7567) y &lt;- rnorm(n) X &lt;- rnorm(n*p) dim(X) &lt;- c(n, p) data &lt;- data.frame(y, X) # Modelling technique: backward selection with OLS T &lt;- function(data) …

1
木の選択バイアス
クーンとジョンソンによる応用予測モデリングでは、著者は次のように書いています。 最後に、これらのツリーは選択バイアスの影響を受けます。個別の値の数が多い予測子は、より詳細な予測子よりも優先されます(Loh and Shih、1997; Carolin et al。、2007; Loh、2010)。LohとShih(1997)は次のように述べています。「危険はデータセットが情報変数とノイズ変数の混合で構成され、ノイズ変数は情報変数よりも多くの分割を持っている場合に発生します。次に、ツリーの最上位ノードを分割するためにノイズ変数が選択される可能性が高くなります。剪定を行うと、誤解を招くような構造のツリーが生成されるか、まったくツリーが生成されません。」 クーン、マックス; ジョンソン、ケル(2013-05-17)。応用予測モデリング(Kindleロケーション5241-5247)。スプリンガーニューヨーク。キンドル版。 彼らはさらに、公平な樹木を構築するためのいくつかの研究について説明します。たとえば、LohのGUIDEモデルです。 CARTフレームワーク内で可能な限り厳密にとどまって、この選択バイアスを最小限に抑えるために私にできることはあるのでしょうか?たとえば、おそらく、カーディナリティの高い予測子をクラスタリング/グループ化することは1つの戦略です。しかし、グループ化をどの程度行うべきでしょうか?30レベルの予測子がある場合、10レベルにグループ化する必要がありますか?15?5?
8 cart  bias 

2
余分な変数を調整すると、OLSの推定にバイアスがかかりますか?
OLSの余分な変数を調整するための通常の教科書の扱いでは、推定量はまだ偏っていませんが、分散が大きい可能性があります(たとえば、Greene、Econometric Analysis、第7版、58ページを参照)。 先日、Judea Pearlによるシンプソンのパラドックスの扱いと、「制御変数を回帰モデルに段階的に含めることで、すべてのステップで推定因果関係の兆候が切り替わる」ことをシミュレートする素晴らしいWebページを偶然見つけました。私にとって、これは上記のステートメントとはどういうわけか矛盾しています。これは非常に微妙な(非常に重要ですが)問題になる可能性があるので、他の文献へのポインタがあれば非常に役立ちます。特に私を驚かせるものは、グリーンが彼の評価の証拠を持っていると主張していることです。

1
Leave-one-outクロス検証:一般化パフォーマンスの比較的公平な推定?
私は、リーブワンアウト相互検証が比較的「真の一般化パフォーマンスの偏りのない推定」を提供することを(たとえば、ここで)読んだことがあり、これはリーブワンアウトCVの有利な特性であることを示しています。 ただし、これが去りきりのCVの特性からどのようになるかはわかりません。他と比較すると、この推定量のバイアスが低いのはなぜですか? 更新: 私はトピックを調査し続けていますが、この推定器は1つのインスタンス以外のすべてのデータを使用するため、たとえばK分割検証よりも悲観的ではないという事実に関係していると思いますが、数学を読むのは素晴らしいでしょうこれの派生。

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.