タグ付けされた質問 「unbiased-estimator」

平均で「真の値にヒットする」母集団パラメーターの推定量を指します。つまり、観測データ関数は、場合、パラメーター不偏推定量です。不偏推定量の最も単純な例は、母平均の推定量としてのサンプル平均です。 θ^θEθ^=θ

3
多重打ち切りデータの共分散行列の不偏推定
環境サンプルの化学分析は、報告限界またはさまざまな検出/定量限界でしばしば打ち切られます。後者は、通常、他の変数の値に比例して変化します。たとえば、ある化合物の濃度が高いサンプルは、分析のために希釈する必要があり、そのサンプルで同時に分析される他のすべての化合物の打ち切り限界が比例的に増大する場合があります。別の例として、化合物の存在により、他の化合物に対する試験の反応が変化する場合があります(「マトリックス干渉」)。これが研究室で検出されると、それに応じてレポートの制限が膨らみます。 特に多くの化合物が50%を超える打ち切りを経験する場合に、このようなデータセットの分散共分散行列全体を推定する実用的な方法を模索しています。従来の分布モデルでは、(真の)濃度の対数は多重正規分布であり、これは実際にはうまく適合するようであるため、この状況の解決策が役立ちます。 (「実用的」とは、R、Python、SASなどの少なくとも1つの一般的に利用可能なソフトウェア環境で、複数の代入で発生するような反復再計算をサポートするのに十分迅速に実行される方法で、確実にコーディングできる方法を意味します。そして、これはかなり安定している[だからこそ、一般的なベイジアンソリューションは歓迎されているが、BUGSの実装を検討するのを嫌がる]。 この件についてのご意見を事前に感謝します。

4
「不偏」とはどういう意味ですか?
「分散は偏った推定量である」と言うのはどういう意味ですか。 単純な式を使用して、バイアスのある推定値をバイアスのない推定値に変換するとはどういう意味ですか。この変換は正確に何をしますか? また、この変換の実用的な用途は何ですか?特定の種類の統計を使用するときに、これらのスコアを変換しますか?

2
それから
古典的な統計では、データセットy 1、… 、y nの統計TTTがパラメーターθに対して完全であると定義され、それから0の不偏推定量を非自明に形成することは不可能であるという定義があります。つまり、唯一の方法は、持っているE H (T (Y ))= 0を全てに対してθを有することであるhはである0をほぼ確実。y1,…,yny1,…,yny_1, \ldots, y_nθθ\theta000Eh(T(y))=0Eh(T(y))=0E h(T (y )) = 0θθ\thetahhh000 この背後に直感がありますか?これはかなり機械的な方法のように思えますが、これは以前に尋ねられたことを知っていますが、入門者の学生が資料を消化するのが簡単になる直感を非常に理解しやすいかどうか疑問に思っていました。

5
なぜ正規分布の
初めて正規分布モンテカルロシミュレーションを行ったときにショックを受けたのは、サンプルサイズがのみであるサンプルからの標準偏差の平均がはるかに小さいことが判明したことです。つまり、回の平均よりも、母集団の生成に使用される\ sigmaです。ただし、これはあまり覚えていない場合はよく知られていますが、私はそれを知っていました。これがシミュレーションです。100100100100100100n=2n=2n=22π−−√2π \sqrt{\frac{2}{\pi }}σσ\sigma 100、n = 2、\ text {SD}の推定値、および\ text {E}(s_ {n = 2})= \ sqrt \を使用してN(0,1)の 95%信頼区間を予測する例を次に示します。 frac {\ pi} {2} \ text {SD}。N(0,1)N(0,1)N(0,1)n=2n=2n=2SDSD\text{SD}E(sn=2)=π2−−√SDE(sn=2)=π2SD\text{E}(s_{n=2})=\sqrt\frac{\pi}{2}\text{SD} RAND() RAND() Calc Calc N(0,1) N(0,1) SD E(s) -1.1171 -0.0627 0.7455 0.9344 1.7278 -0.8016 1.7886 2.2417 1.3705 -1.3710 1.9385 2.4295 1.5648 -0.7156 1.6125 2.0209 1.2379 …

2
2つの分布間のHellinger距離の不偏推定量はありますか?
密度分布から分布観察する設定では、密度別の分布、すなわち 距離の不偏推定量(基づく)があるのだろうかX1,…,XnX1,…,XnX_1,\ldots,X_nX 、I 、F 0 H(F 、F 0)= { 1 - ∫ X √fffXiXiX_if0f0f_0H(f,f0)={1−∫Xf(x)f0(x)−−−−−−−−√dx}1/2.H(f,f0)={1−∫Xf(x)f0(x)dx}1/2. \mathfrak{H}(f,f_0) = \left\{ 1 - \int_\mathcal{X} \sqrt{f(x)f_0(x)} \text{d}x \right\}^{1/2}\,.

2
バイアス分散トレードオフの導出を理解する
私は、統計学習の要素のバイアス分散トレードオフの章を読んでいます。29ページの式には疑問があります(はランダム)期待値と数と分散。モデルの誤差の期待値を E [(Y-f_k(x))^ 2]とします。 ここで、f_k(x)は学習者のxの予測です。本によると、エラーは E [(Y-f_k(x))^ 2] = \ sigma ^ 2 + Bias(f_k)^ 2 + Var(f_k(x))です。 Y=f(x)+ϵY=f(x)+ϵ Y = f(x)+\epsilonε = E [ ε ] = 0 E [ (ε - ε)2 ] = E [ ε 2 ] = σ 2 E [ (Y - F K(X …

3
変数選択になげなわを使用した後の推論
比較的低次元の設定(n >> p)でフィーチャの選択にLassoを使用しています。Lassoモデルを近似した後、ペナルティなしでモデルを近似するために、非ゼロ係数の共変量を使用します。ラッソが私に与えることのできない公平な推定値が欲しいので、私はこれをしています。また、不偏推定値のp値と信頼区間も必要です。 このトピックに関する文献を見つけることができません。私が見つけた文献のほとんどは、適合モデルではなく、Lasso推定に信頼区間を置くことに関するものです。 私が読んだことから、データセット全体を使用してモデルを再フィットすると、非現実的に小さなp値/ stdエラーが発生します。現時点では、サンプル分割(Wasserman and Roeder(2014)またはMeinshausen et al。(2009)のスタイル)は適切な対応策のようですが、私はさらに提案を探しています。 誰もこの問題に遭遇しましたか?もしそうなら、いくつかの提案を提供してください。

2
標準偏差の閉じた形の不偏推定量はどの分布にありますか?
正規分布の場合、標準偏差の不偏推定量があります: σ^unbiased=Γ(n−12)Γ(n2)12∑k=1n(xi−x¯)2−−−−−−−−−−−−√σ^不偏=Γ(n−12)Γ(n2)12∑k=1n(xi−x¯)2\hat{\sigma}_\text{unbiased} = \frac{\Gamma(\frac{n-1}{2})}{\Gamma(\frac{n}{2})} \sqrt{\frac{1}{2}\sum_{k=1}^n(x_i-\bar{x})^2} この結果があまり知られていない理由は、それが大部分の重要な輸入の問題ではなくむしろ骨cur品であるように思われます。証明はこのスレッドでカバーされています。正規分布の重要な特性を利用します。 1σ2∑k=1n(xi−x¯)2∼χ2n−11σ2∑k=1n(xi−x¯)2∼χn−12 \frac{1}{\sigma^2} \sum_{k=1}^n(x_i-\bar{x})^2 \sim \chi^{2}_{n-1} そこから、少しの作業で、、およびこの回答を倍数として識別することにより、の結果を推測でき。σ σ公平E(∑nk=1(xi−x¯)2−−−−−−−−−−−−√)E(∑k=1n(xi−x¯)2)\mathbb{E}\left( \sqrt{\sum_{k=1}^n(x_i-\bar{x})^2} \right)σσ\sigmaσ^unbiasedσ^unbiased\hat{\sigma}_\text{unbiased} これにより、他のどの分布が標準偏差の閉形式の不偏推定量を持っているのか興味があります。分散の不偏推定量とは異なり、これは明らかに分布固有です。さらに、他の分布の推定量を見つけるために証明を適応させるのは簡単ではありません。 スキュー正規分布には、2次形式の優れた分布特性がいくつかあります。これは、使用した正規分布特性が事実上特別なケースです(正規分布は特殊なタイプのスキュー正規分布なので)。このメソッドをそれらに拡張します。しかし、他のディストリビューションでは、まったく異なるアプローチが必要と思われます。 そのような推定量が知られている他の分布はありますか?

3
ネストされたvar-covarモデルの中から選択するために(MLではなく)REMLを使用する必要があるのはなぜですか?
線形混合モデルのランダム効果に関するモデル選択に関するさまざまな説明は、REMLの使用を指示しています。あるレベルでREMLとMLの違いは知っていますが、MLにバイアスがかかっているため、なぜREMLを使用する必要があるのか​​わかりません。たとえば、MLを使用して正規分布モデルの分散パラメーターでLRTを実行するのは間違っていますか(以下のコードを参照)。モデルの選択において、MLであるよりも偏らないことが重要である理由がわかりません。最終的な答えは「モデル選択がMLよりもREMLの方がうまく機能するため」でなければならないと思いますが、それ以上のことを知りたいと思います。LRTとAICの派生物は読みませんでした(それらを完全に理解するのに十分ではありません)が、派生物でREMLが明示的に使用されている場合は、実際に十分であることを知っているだけです(たとえば、 n <- 100 a <- 10 b <- 1 alpha <- 5 beta <- 1 x <- runif(n,0,10) y <- rnorm(n,a+b*x,alpha+beta*x) loglik1 <- function(p,x,y){ a <- p[1] b <- p[2] alpha <- p[3] -sum(dnorm(y,a+b*x,alpha,log=T)) } loglik2 <- function(p,x,y){ a <- p[1] b <- p[2] alpha <- p[3] beta <- …

1
2つの回帰係数の比の不偏推定量?
もしA線形/ロジスティック回帰フィット仮定の不偏推定の目的で、1g(y)=a0+a1⋅x1+a2⋅x2g(y)=a0+a1⋅x1+a2⋅x2g(y) = a_0 + a_1\cdot x_1 + a_2\cdot x_2。あなたは、a1とa2の両方が、それらの推定のノイズに対して非常に正であると確信しています。a1a2a1a2\frac{a_1}{a_2}a1a1a_1a2a2a_2 共分散がある場合、答えを計算するか、少なくともシミュレートできます。より良い方法がありますか?また、実際の問題で大量のデータがある場合、推定値の比率を取得するために、またはハーフステップを実行して係数が独立していると仮定するために、どの程度のトラブルが発生しますか?a1,a2a1,a2a_1, a_2

1
線形モデルのBLUE(OLSソリューション)以外の不偏推定量
線形モデルの場合、OLSソリューションはパラメーターに最適な線形不偏推定量を提供します。 もちろん、より低い分散、例えばリッジ回帰のバイアスをトレードオフできます。しかし、私の質問はバイアスがないということです。偏りはないが、OLS推定パラメーターよりも高い分散を持つ、やや一般的に使用される推定器は他にありますか? 巨大なデータセットがある場合は、もちろんそれをサブサンプリングし、より少ないデータでパラメーターを推定し、分散を増やすことができます。これは仮説的に有用だと思います。 BLUE推定量について読んだときに、より悪い代替案が提供されていないため、これは修辞的な質問です。悪い選択肢を提供することは、人々が青い推定器の力をよりよく理解するのにも役立つと思います。

2
正規分布のパラメーターの推定:平均ではなく中央値?
正規分布のパラメーターを推定するための一般的なアプローチは、平均とサンプルの標準偏差/分散を使用することです。 ただし、外れ値がある場合は、中央値と中央値からの中央値偏差がより堅牢になりますよね? いくつかのデータセットでは、私は、によって推定正規分布しようとしたN(median(x),median|x−median(x)|)N(median(x),median|x−median(x)|)\mathcal{N}(\text{median}(x), \text{median}|x - \text{median}(x)|)古典よりもはるかに優れフィット作るように思わN(μ^,σ^)N(μ^,σ^)\mathcal{N}(\hat\mu, \hat\sigma)の平均を使用してのRMS偏差。 データセットにいくつかの異常値があると仮定した場合、中央値を使用しない理由はありますか?このアプローチのリファレンスを知っていますか?Googleでのクイック検索では、ここで中央値を使用する利点を説明する有用な結果が見つかりませんでした(ただし、明らかに、「正規分布パラメーター推定中央値」は検索用語の特定のセットではありません)。 偏差の中央値は偏っていますか?乗算する必要がありn−1nn−1n\frac{n-1}{n}バイアスを減らすためにますか? ガンマ分布や指数関数的に修正されたガウス分布(パラメーター推定にスキューネスが必要であり、外れ値が実際にこの値を台無しにする)などの他の分布に対する同様の堅牢なパラメーター推定アプローチを知っていますか?

5
米国と英国の学校が標準偏差の異なる計算方法を教えるのはなぜですか?
私が理解しているように、英国の学校は標準偏差が以下を使用して発見されることを教えています: 一方、米国の学校は以下を教えています。 (とにかく基本的なレベルで)。 これは、インターネット上で検索したときに過去に多くの私の問題を引き起こしましたが、間違った説明を見つけました。 なぜ違いがあるのですか? 単純なデータセットで10個の値が指定されている場合、間違った方法が適用された場合(試験など)、どの程度のエラーが発生しますか?

1
説明モデリングのバイアスを最小化する理由 (ガリット・シュムエリの「説明するか予測する」)
この質問はGalit Shmueliの論文「説明するか予測する」を参照しています。 具体的には、セクション1.5「説明と予測は異なる」で、シュムエリ教授は次のように書いています。 説明モデリングでは、基礎となる理論の最も正確な表現を得るために、バイアスを最小化することに重点が置かれます。 これは私が論文を読むたびに私を困惑させました。どのような意味で、推定値のバイアスを最小化すると、基礎となる理論の最も正確な表現が得られますか? 私はまた、教授Shmueliの話見て、ここで、JMPディスカバリー・サミット2017で配信、そして彼女は述べています: ...収縮モデル、アンサンブルのようなもの、あなたはそれらを見ることはありません。これらのモデルは、設計上、全体的なバイアス/分散を減らすためにバイアスを導入するためです。それが彼らがそこにいない理由であり、それをすることは理論的に意味をなさない。モデルを意図的に偏らせるのはなぜですか? これは本当に私の質問に光を当てるものではなく、単に私が理解していないという主張を言い直しているだけです。 理論に多くのパラメータがあり、それらを推定するためのデータが少ない場合、推定誤差は分散によって支配されます。この状況で、リッジ回帰のようなバイアスのある推定手順を使用するのが不適切なのはなぜですか(結果として、より低い分散のバイアスのある推定になります)?

1
中央値不偏推定量は、平均絶対偏差を最小化しますか?
これはフォローアップですが、以前の質問とは別の質問でもあります。 私はウィキペディアで、「ラプラスで観察されたように、中央値偏りのない推定量は絶対偏差損失関数に関するリスクを最小化する」と読みました。しかし、私のモンテカルロシミュレーションの結果はこの議論をサポートしていません。 私は、対数正規母集団からサンプルを想定、μ及びσは、対数平均および対数SDであるβ = EXP (μ )= 50X1,X2,...,XN∼LN(μ,σ2)X1,X2,...,XN∼LN(μ,σ2)X_1,X_2,...,X_N \sim \mbox{LN}(\mu,\sigma^2)μμ\muσσ\sigmaβ=exp(μ )= 50β=exp⁡(μ)=50\beta = \exp(\mu)=50 幾何平均推定量は、人口中央値expの中央値不偏推定量です。。exp(μ)exp⁡(μ)\exp(\mu) 場合には、μ及びσは、対数平均値であり、ログ-SDを、μと σはのためのMLEはありμとσ。β^GM=exp(μ^)=exp(∑log(Xi)N)∼LN(μ,σ2/N)β^GM=exp⁡(μ^)=exp⁡(∑log⁡(Xi)N)∼LN(μ,σ2/N)\hat{\beta}_{\mbox{GM}}= \exp(\hat{\mu})= \exp{(\sum\frac{\log(X_i)}{N})} \sim \mbox{LN}(\mu,\sigma^2/N)μμ\muσσ\sigmaμ^μ^\hat\muσ^σ^\hat\sigmaμμ\muσσ\sigma 一方、補正された幾何平均推定量は、母集団の中央値の平均不偏推定量です。 β^CG=exp(μ^−σ^2/2N)β^CG=exp⁡(μ^−σ^2/2N)\hat{\beta}_{\mbox{CG}}= \exp(\hat{\mu}-\hat\sigma^2/2N) LNからサイズ5のサンプルを繰り返し生成します。レプリケーション番号は10,000です。私が得た平均絶対偏差は、幾何平均推定器で25.14、補正幾何平均で22.92です。どうして?(log(50),log(1+22)−−−−−−−−−√)(log⁡(50),log⁡(1+22))(\log(50),\sqrt{\log(1+2^2)}) ところで、推定された絶対偏差の中央値は、幾何平均では18.18、補正幾何平均推定では18.58です。 私が使用したRスクリプトは次のとおりです。 #```{r stackexchange} #' Calculate the geomean to estimate the lognormal median. #' #' This function Calculate the geomean to estimate the lognormal #' …

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.