タグ付けされた質問 「bias」

パラメータ推定器の期待値とパラメータの真の値の差。このタグを使用して[bias-term] / [bias-node](つまり[intercept])を参照しないでください。

3
まれなイベントロジスティック回帰バイアス:最小限の例で過小評価されたpをシミュレートする方法は?
CrossValidatedには、King and Zeng(2001)によるまれなイベントバイアス修正をいつ、どのように適用するかに関するいくつかの質問があります。私は別の何かを探しています。バイアスが存在するという最小限のシミュレーションベースのデモンストレーションです。 特に、王とZenの状態 「...まれなイベントデータでは、確率のバイアスはサンプルサイズが数千単位で実質的に意味があり、予測可能な方向にあります。推定イベント確率は小さすぎます。」 Rのこのようなバイアスをシミュレートする私の試みは次のとおりです。 # FUNCTIONS do.one.sim = function(p){ N = length(p) # Draw fake data based on probabilities p y = rbinom(N, 1, p) # Extract the fitted probability. # If p is constant, glm does y ~ 1, the intercept-only model. # If p is not …

1
「バイアス」という言葉は、を意味するように造られたのはいつですか?
「バイアス」という言葉は、を意味するように造られたのは いつですか?E [ θ^- θ ]E[θ^−θ]\mathbb{E}[\hat{\theta}-\theta] 私が今このことを考えている理由は、ジェーンズの確率論のテキストで、この式を説明するのに使用される「バイアス」という言葉の使用を批判し、代替案を示唆しているようだからです。 Jaynesの確率理論、セクション17.2「不偏推定量:」 正統派の人々がなぜそのような誇張を強調しているのでしょうか?私たちは、主な理由は、彼らが自分自身の精神心理学的なtrapに捕らえられているからだと考えています。量「バイアス」と呼ぶと、ひどく非難できる何かのように聞こえますが、それは何としても取り除く必要があります。(17.2)のピタゴラス形式で示唆されているように、代わりに「分散に直交する誤差の成分」と呼ばれていれば、誤差に対するこれら2つの寄与は等しい立場にあることが明らかでした。他方を増やすことを犠牲にして一方を減らすことは愚かです。これは、感情的な負荷を伴う技術用語を選択するために支払う価格であり、価値判断を意味します。正統性は常にこの戦術的な誤りに陥ります。(⟨ β⟩ − α )(⟨β⟩−α)(\langle\beta\rangle-\alpha)

7
機械学習のバイアスデータ
私は、既にデータ選択によって(かなり)偏っているデータを使用した機械学習プロジェクトに取り組んでいます。 ハードコーディングされたルールのセットがあると仮定しましょう。使用できるすべてのデータがこれらのルールによって既にフィルター処理されたデータである場合、それを置き換える機械学習モデルをどのように構築しますか? 物事を明確にするために、最良の例は信用リスク評価でしょう。タスクは、支払いに失敗する可能性のあるすべてのクライアントをフィルタリングすることです。 今、あなたが持っている唯一の(ラベル付けされた)データは、ルールのセットによって受け入れられたクライアントからのものです。受け入れた後にのみ、誰かが支払うかどうか(明らかに)を見るからです。ルールのセットがどれだけ優れているか、そしてそれらがどれだけ有料から非有料の分布に影響するかはわかりません。また、一連のルールにより、拒否されたクライアントからのラベルのないデータがあります。したがって、それらのクライアントが受け入れられた場合、それらのクライアントで何が起こるかはわかりません。 たとえば、ルールの1つは次のようになります。「クライアントの年齢が18歳未満の場合、受け入れない」 分類子には、これらのルールによってフィルタリングされたクライアントを処理する方法を学習する方法がありません。ここで分類器はどのようにパターンを学習することになっていますか? この問題を無視すると、これまでに遭遇したことのないデータにモデルがさらされることになります。基本的に、ここでxが[a、b]の外側にあるときのf(x)の値を推定したいと思います。

2
線形回帰にバイアス分散トレードオフのグラフィカルな表現はありますか?
私は停電に苦しんでいます。線形回帰のコンテキストでのバイアスと分散のトレードオフを示すために、次の図を紹介しました。 2つのモデルのいずれも適切ではないことがわかります。「単純」はXY関係の複雑さを認識しておらず、「複雑」は過剰適合であり、基本的にトレーニングデータを暗記しています。しかし、私はこれらの2つの写真の偏りと分散を完全に見ることができません。誰かがこれを見せてもらえますか? PS:バイアスと分散のトレードオフの直感的な説明に対する答えは?本当に助けにならなかったので、誰かが上の写真に基づいて異なるアプローチを提供できたらうれしいです。

6
MLEが平均のバイアス推定値を生成する例はありますか?
偏った平均のMLE推定量の例を提供できますか? 規則性の条件に違反することでMLE推定量を一般的に破る例は探していません。 私がインターネットで見ることができるすべての例は分散を参照します、そして、私は平均に関連する何かを見つけることができないようです。 編集 @MichaelHardyは、特定の提案モデルでMLEを使用して均一分布の平均のバイアス推定値を取得する例を提供しました。 しかしながら https://en.wikipedia.org/wiki/Uniform_distribution_(continuous)#Estimation_of_midpoint MLEは、明らかに別の提案モデルの下で、平均の一様に最小の不偏推定量であることを示唆しています。 この時点で、モデル中立であるサンプル平均推定量とは対照的に、非常に仮説的なモデル依存である場合、MLE推定が何を意味するのかはまだ明確ではありません。最後に、母集団について何かを推定することに興味があり、仮説モデルのパラメーターの推定についてはあまり気にしません。 編集2 @ChristophHanckが追加情報でモデルを示したため、バイアスが導入されましたが、MSEを減らすことができませんでした。 また、追加の結果があります。 http://www.maths.manchester.ac.uk/~peterf/CSI_ch4_part1.pdf(p61) http://www.cs.tut.fi/~hehu/SSP/lecture6.pdf(スライド2) http:/ /www.stats.ox.ac.uk/~marchini/bs2a/lecture4_4up.pdf(スライド5) 「θの最も効率的な不偏推定量ˆθが存在する場合(すなわちˆθが不偏であり、その分散がCRLBに等しい場合)、推定の最尤法はそれを生成します。」 「さらに、効率的な推定量が存在する場合、それはML推定量です。」 自由なモデルパラメーターをもつMLEは偏りがなく効率的であるため、定義上、この "the"最尤推定量は? 編集3 @AlecosPapadopoulosの数学フォーラムには、半正規分布の例があります。 /math/799954/can-the-maximum-likelihood-estimator-be-unbiased-and-fail-to-achieve-cramer-rao 均一な場合のように、そのパラメーターを固定していません。彼は平均推定量のバイアスを実証していませんが、それで解決すると言うでしょう。

1
ロジスティック回帰の省略された変数バイアスと通常の最小二乗回帰の省略された変数バイアス
ロジスティック回帰および線形回帰の省略された変数バイアスについて質問があります。 線形回帰モデルからいくつかの変数を省略したとします。これらの省略された変数は、モデルに含めた変数と無相関であると仮定します。これらの省略された変数は、私のモデルの係数にバイアスをかけません。 しかし、ロジスティック回帰では、これは真実ではないことがわかりました。省略された変数が含まれた変数と無相関であっても、省略された変数は含まれた変数の係数にバイアスをかけます。私はこのトピックに関する論文を見つけましたが、それについて頭や尾を作ることはできません。 これが論文とパワーポイントのスライドです。 バイアスは、明らかにゼロに向かっています。誰もこれがどのように機能するか説明できますか?

2
バイアスと分散のトレードオフに関する質問
バイアスと分散のトレードオフ、推定器のバイアスとモデルのバイアスの関係、および推定器の分散とモデルの分散の関係を理解し​​ようとしています。 私はこれらの結論に達しました: 推定量のバイアスを無視すると、つまり、モデルの分散を無視してモデルのバイアスのみを最小化することを目的とする場合(言い換えると、考慮せずに推定量の分散を最小化することのみを目的とする場合)推定量のバイアスも) 逆に、推定量の分散を無視する場合、つまりモデルのバイアスを無視するモデルの分散のみを最小化することを目的とする場合(つまり、モデルのバイアスを最小化することのみを目的とする場合、推定量の分散も考慮しない推定量)。 私の結論は正しいですか?

1
説明モデリングのバイアスを最小化する理由 (ガリット・シュムエリの「説明するか予測する」)
この質問はGalit Shmueliの論文「説明するか予測する」を参照しています。 具体的には、セクション1.5「説明と予測は異なる」で、シュムエリ教授は次のように書いています。 説明モデリングでは、基礎となる理論の最も正確な表現を得るために、バイアスを最小化することに重点が置かれます。 これは私が論文を読むたびに私を困惑させました。どのような意味で、推定値のバイアスを最小化すると、基礎となる理論の最も正確な表現が得られますか? 私はまた、教授Shmueliの話見て、ここで、JMPディスカバリー・サミット2017で配信、そして彼女は述べています: ...収縮モデル、アンサンブルのようなもの、あなたはそれらを見ることはありません。これらのモデルは、設計上、全体的なバイアス/分散を減らすためにバイアスを導入するためです。それが彼らがそこにいない理由であり、それをすることは理論的に意味をなさない。モデルを意図的に偏らせるのはなぜですか? これは本当に私の質問に光を当てるものではなく、単に私が理解していないという主張を言い直しているだけです。 理論に多くのパラメータがあり、それらを推定するためのデータが少ない場合、推定誤差は分散によって支配されます。この状況で、リッジ回帰のようなバイアスのある推定手順を使用するのが不適切なのはなぜですか(結果として、より低い分散のバイアスのある推定になります)?


3
「関連するすべての予測変数」を含める必要が本当にありますか?
推論に回帰モデルを使用する基本的な前提は、「すべての関連する予測子」が予測式に含まれていることです。理論的根拠は、重要な現実世界の要因を含めないと、係数に偏りが生じ、そのため不正確な推論(つまり、変数バイアスの省略)につながるということです。 しかし、研究の実践では、「関連するすべての予測子」に似たものを含む人を見たことはありません。多くの現象には無数の重要な原因があり、それらすべてを含めることは不可能ではないにしても非常に困難です。すぐに使える例は、結果としてうつ病をモデル化することです:「関連するすべての変数」を含むモデルに近いものは誰も作成していません:例えば、親の歴史、性格特性、ソーシャルサポート、収入、それらの相互作用など。等... さらに、そのような複雑なモデルのフィッティングは、非常に大きなサンプルサイズがない限り、非常に不安定な推定値につながります。 私の質問は非常に簡単です。「関連するすべての予測変数を含める」という仮定/アドバイスは、単に「言う」が、実際には決して意味のないものですか。そうでない場合、なぜ実際のモデリングのアドバイスとしてそれを与えるのですか? そして、これはほとんどの係数がおそらく誤解を招くことを意味しますか?(たとえば、いくつかの予測因子のみを使用する人格要因とうつ病に関する研究)。言い換えれば、これは私たちの科学の結論にとってどれほど大きな問題なのでしょうか?

2
leave-one-out交差検証の高い分散
「Leave-one-out」クロス検証は、トレーニングフォールドの大きな重なりのために、分散が大きいことを繰り返し読みました。ただし、その理由はわかりません。トレーニングセットがほぼ同一であるため、相互検証のパフォーマンスが非常に安定(分散が小さい)である必要はありませんか。または、「分散」の概念を完全に間違って理解していますか? また、LOOがどのように偏りがないかを完全には理解していませんが、大きなばらつきがありますか?LOO推定値が期待値の真の推定値に等しい場合、どのようにして高い分散を得ることができますか? 注:ここに同様の質問があることを知っています: なぜエラーの平均推定値に関するleave-one-out cross-validation(LOOCV)分散が高いのですか?しかし、答えた人はコメントの後半で、賛成にもかかわらず彼の答えが間違っていることに気付いたと言っています。

1
偶発的なパラメーターの問題
私は、付随的なパラメーターの問題の真の本質をつかむのに常に苦労しています。「よく知られている」偶発的なパラメータの問題のために、非線形パネルデータモデルの固定効果推定量が大きく偏ることがあることを何度か読みました。 この問題の明確な説明を求めるときの典型的な答えは次のとおりです。パネルデータにはT時間にわたってN人の個人がいると仮定します。Tが固定されている場合、Nが大きくなると共変量の推定値にバイアスがかかります。これは、Nが増加するにつれて迷惑パラメーターの数が急速に増加するために発生します。 ありがたいです より正確だがシンプルな説明(可能であれば) および/またはRまたはStataで解決できる具体的な例。

2
どのモデルの場合、MLEのバイアスは分散よりも速く低下しますか?
してみましょう trueパラメータの最尤推定値も一部のモデルの。データポイント数が増えると、エラーは通常O(1 / \ sqrt n)として減少します。三角形の不等式と期待値の特性を使用すると、このエラー率が「バイアス」\ lVert \ mathbb E \ hat \ theta-\ theta ^ * \ rVertと「偏差」\ lVert \ mathbb Eの両方を意味することを示すことができます。\ hat \ theta-同じO(1 / \ sqrt {n})での\ hat \ theta \ rVertの減少θ^θ^\hat\thetaθ∗θ∗\theta^*nnn∥θ^−θ∗∥‖θ^−θ∗‖\lVert\hat\theta-\theta^*\rVertO(1/n−−√)O(1/n)O(1/\sqrt n)∥Eθ^−θ∗∥‖Eθ^−θ∗‖\lVert \mathbb E\hat\theta - \theta^*\rVert∥Eθ^−θ^∥‖Eθ^−θ^‖\lVert \mathbb E\hat\theta - \hat\theta\rVertO(1/n−−√)O(1/n)O(1/\sqrt{n})割合。もちろん、モデルがより速い速度で縮小するバイアスを持つことは可能です。多くのモデル(通常の最小二乗回帰など)にはバイアスがありません。 O(1 / \ sqrt n)よりも速く収縮するバイアスを持つモデルに興味O(1/n−−√)O(1/n)O(1/\sqrt n)がありますが、偏差がO(1 …

4
審査員選考のバイアス?
友人は、ju審員の選択が人種的に偏っているように見える刑事裁判の後、控訴でクライアントを代表しています。 ju審員プールは、4人種グループの30人で構成されていました。検察は、これらの人々のうち10人をプールから排除するために、強引な挑戦を使用しました。各人種グループの人数と実際の課題の数は、それぞれ次のとおりです。 A: 10, 1 B: 10, 4 C: 6, 4 D: 4, 1 total: 30 in pool, 10 challenges 被告は人種グループCからであり、被害者は人種グループAおよびDからでした。したがって、先験的な懸念は、グループCが過負荷で、グループAおよびDが過負荷であるかどうかです。法的には(IIUC; IANAL)、弁護側は人種的偏見を証明する必要はなく、単にデータが偏見を示しているように見えることを示すだけで、検察に各人種的問題を非人種的に説明する負担をかけるだけです。 次の分析はそのアプローチにおいて正しいですか?(計算は問題ないと思います。): nCr(30,10)= 30,045,015個の10個のプールメンバーの個別のセットがあります。これらの明確なセットのうち、433,377セットには(グループAとDの2つ以下のメンバーを合わせた)と(グループCの4つ以上のメンバー)の両方が含まれるとカウントします。 したがって、グループCよりもグループAとDを優先する見かけのバイアスの観測レベルに達する可能性(10のチャレンジのセットに含まれない優先手段)は、これらの比率、433/30045 = 1.44%になります。 したがって、帰無仮説(そのようなバイアスはありません)は5%の有意水準で拒否されます。 この分析が方法論的に正しい場合、学術的/専門的な参考文献(ウィキペディアではない)を含めて、裁判所に説明する最も簡潔な方法は何でしょうか?議論は単純に思えますが、どうしてそれが正しいのであって、シェナンガンではないことを法廷に最も明確かつ簡潔に証明できるでしょうか? 更新:この質問は、控訴ブリーフの第三の議論として検討中だった。ここでの議論の技術的な複雑さ(弁護士の観点から)と法的な先例の明らかな欠如を考えると、弁護士はそれを提起しないことを選択したので、この時点で問題はほとんど理論的/教育的です。 1つの詳細に答えるには、課題の数である10は事前に設定されていると思います。 思慮深く、やりがいのある答えとコメント(ありがとう、すべて!)を研究した後、ここには4つの別個の問題があるようです。少なくとも、私にとっては、それらを個別に検討すること(または分離できない理由についての議論を聞くこと)が最も役立ちます。 1)ジュリープールの課題における、被告人と被害者の両方の人種の考慮は、法的な懸念であるか?上訴の議論の目的は、合理的な懸念を提起することだけであり、これにより、検察が個々の異議申し立ての理由を述べるという司法命令につながる可能性がある。これは私には統計的な問題ではなく、社会的/法的問題であるように思われます。これは弁護士の裁量によるものです。 2)(1)を仮定して、対立仮説(定​​性的には、被告の人種を共有するju審員に対するバイアス、犠牲者の人種を共有する人を支持する)の選択はもっともらしいか、それは容認できない事後ですか?私の平凡な観点から、これは最も困惑する質問です-はい、もちろん、それを観察しなければ、それを提起しません!私が理解しているように、問題は選択バイアスです:テストでは、このju審員プールだけでなく、そのようなすべてのall審員プールの宇宙を考慮する必要があります。これには、防衛が矛盾を観察せず、したがって問題を提起しようとしないすべてのもの。これにどのように対処しますか?(たとえば、Andyのテストはどのようにこれに対処しますか?)これについては間違っているかもしれませんが、ほとんどの回答者は潜在的に事後的に悩まされていないようです被告のグループのみに対するバイアスの片側検定。(1)を仮定して、被害者グループのバイアスを同時にテストすることは、方法論的にどのように異なりますか? 3)(2)で述べた定性的対立仮説の選択を規定する場合、それをテストするための適切な統計量は何ですか?私が提案する比率は、より単純な「Cに対するバイアス」代替仮説に対するAndyの検定の控えめな類似であるように見えるため、ここで私は応答に最も困惑しています(私の検定もすべてのケースをさらにカウントするため、より保守的です)正確に観察されたカウントだけでなく、テールでも) 両方のテストは、同じ分母(サンプルの同じ宇宙)を持ち、分子がそれぞれの対立仮説に対応するサンプルの頻度に正確に対応する単純なカウントテストです。だから@whuber、なぜアンディのように「規定のヌル[同じ]および代替[記述]仮説に基づいて、Neyman-Pearsonの補題を使用して正当化できる」という私のカウントテストと同じではないのですか? 4)(2)と(3)を規定する場合、懐疑的な控訴裁判所を納得させる判例法の参照はありますか?証拠から現在まで、おそらくそうではありません。また、このアピールの段階では、「専門家証人」の機会はないので、参照がすべてです。

2
段階的回帰は、母集団のr平方の偏った推定値を提供しますか?
心理学やその他の分野では、次のような段階的な回帰の形式がよく使用されます。 残りの予測子(最初はモデルにない予測子)を見て、最大のr平方変化をもたらす予測子を特定します。 r平方変化のp値がアルファ(通常.05)より小さい場合は、その予測子を含めて手順1に戻ります。それ以外の場合は停止します。 たとえば、SPSSのこの手順を参照してください。 この手順は、さまざまな理由で日常的に批判されています(StataのWebサイトでこの議論を参照してください)。 特に、StataのWebサイトには、Frank Harrellによるいくつかのコメントがまとめられています。私は主張に興味があります: [ステップワイズ回帰]は、大きく偏ったR乗値を生成します。 具体的には、私の現在の研究のいくつかは、母集団r-squareの推定に焦点を当てています。母集団のr二乗によって、母集団の方程式を生成する母集団データによって説明される分散の割合を参照します。私がレビューしている既存の文献の多くは、段階的な回帰手順を使用しており、提供された推定値が偏っているかどうか、もしそうであればどの程度かを知りたいです。特に、典型的な研究では、30の予測変数、n = 200、.05のエントリのアルファ、および.50前後のr二乗推定値があります。 私が知っていること: 漸近的に、係数がゼロでない予測子は統計的に有意な予測子となり、r-squareは調整されたr-squareと等しくなります。したがって、漸近的な段階的回帰では、真の回帰方程式と真の母集団r平方を推定する必要があります。 サンプルサイズが小さい場合、一部の予測子が省略される可能性があるため、すべての予測子がモデルに含まれていた場合よりもr平方が小さくなります。しかし、データをサンプリングするためのr-squareの通常のバイアスもr-squareを増加させます。したがって、私の素朴な考えは、これらの2つの対立する力が特定の条件下で不偏のr二乗になる可能性があるということです。より一般的には、バイアスの方向は、データのさまざまな機能とアルファ包含基準に依存します。 より厳密なアルファ包含基準(たとえば、.01、.001など)を設定すると、データの生成に予測子が含まれる確率が低くなるため、予想される推定r-squareが低くなります。 一般に、r-squareは母集団r-squareの上方に偏った推定値であり、この偏りの程度は、予測子が多くなり、サンプルサイズが小さくなると増加します。 質問 最後に、私の質問: 段階的回帰からのr 2乗は、どの程度まで人口r 2乗の偏った推定値になりますか? このバイアスは、サンプルサイズ、予測子の数、アルファ包含基準、またはデータのプロパティにどの程度関連していますか? このトピックに関する参照はありますか?

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.