タグ付けされた質問 「unbiased-estimator」

平均で「真の値にヒットする」母集団パラメーターの推定量を指します。つまり、観測データ関数は、場合、パラメーター不偏推定量です。不偏推定量の最も単純な例は、母平均の推定量としてのサンプル平均です。 θ^θEθ^=θ

1
分散が最小の偏りのない推定量
ましょのランダムサンプルfeomこと分布G E O mはE T R I C (θ )のために0 &lt; θ &lt; 1。つまり、X1,...,XnX1,...,Xn X_1, ...,X_nGeometric(θ)Geometric(θ)Geometric(\theta)0&lt;θ&lt;10&lt;θ&lt;10<\theta<1 pθ(x)=θ(1−θ)x−1I{1,2,...}(x)pθ(x)=θ(1−θ)x−1I{1,2,...}(x)p_{\theta}(x)=\theta(1-\theta)^{x-1} I_{\{1,2,...\}}(x) g (θ )= 1の最小分散をもつ不偏推定量を求めますg(θ)=1θg(θ)=1θg(\theta)=\frac{1}{\theta} 私の試み: 幾何分布は指数族からのものであるため、統計は完全であり、θに対して十分です。また、T (X )= X 1がg (θ )の推定量である場合、偏りはありません。したがって、Rao-Blackwellの定理とLehmann-Schefféの定理により、 W (X )= E [ X 1 | ∑ X i ] は、私たちが探している推定量です。∑Xi∑Xi\sum X_i θθ \thetaT(X)=X1T(X)=X1T(X)=X_1g(θ)g(θ)g(\theta)W(X)=E[X1|∑Xi]W(X)=E[X1|∑Xi]W(X) = E[X_1|\sum X_i] 次のものがあります。 …

1
ロジスティック回帰の最尤推定量のバイアス
ロジスティック回帰の最尤推定量(MLE)に関するいくつかの事実を理解したいと思います。 一般に、ロジスティック回帰のMLEが偏っているのは本当ですか?「はい」と言います。たとえば、サンプルの次元はMLEの漸近バイアスに関連していることを知っています。 この現象の基本的な例を知っていますか? MLEが偏っている場合、MLEの共分散行列が最尤関数のヘッセ行列の逆であることは本当ですか? 編集:私はこの公式にかなり頻繁に出会い、証明はありません。それは私にはかなり恣意的な選択のようです。

2
最小推定量の改善
私が持っていると仮定しんnn推定するための正のパラメータμ1、μ2、。。。、μんμ1,μ2,...,μn\mu_1,\mu_2,...,\mu_nおよびそれらの対応するんnn推定器によって生成公平推定値μ1^、μ2^、。。。、μん^μ1^,μ2^,...,μn^\hat{\mu_1},\hat{\mu_2},...,\hat{\mu_n}、すなわちE[μ1^]=μ1E[μ1^]=μ1\mathrm E[\hat{\mu_1}]=\mu_1、E[μ2^]=μ2E[μ2^]=μ2\mathrm E[\hat{\mu_2}]=\mu_2など。 私は推定したいmin(μ1,μ2,...,μn)min(μ1,μ2,...,μn)\mathrm{min}(\mu_1,\mu_2,...,\mu_n)手での推定値を使用します。明確ナイーブ推定min(μ1^,μ2^,...,μn^)min(μ1^,μ2^,...,μn^)\mathrm{min}(\hat{\mu_1},\hat{\mu_2},...,\hat{\mu_n})として低いバイアスされる E[min(μ1^,μ2^,...,μn^)]≤min(μ1,μ2,...,μn)E[min(μ1^,μ2^,...,μn^)]≤min(μ1,μ2,...,μn)\mathrm E[\mathrm{min}(\hat{\mu_1},\hat{\mu_2},...,\hat{\mu_n})]\leq \mathrm{min}(\mu_1,\mu_2,...,\mu_n) 私はまた、対応する推定の共分散行列があるとCov(μ1^,μ2^,...,μn^)=ΣCov(μ1^,μ2^,...,μn^)=Σ\mathrm{Cov}(\hat{\mu_1},\hat{\mu_2},...,\hat{\mu_n}) = \Sigma手元。与えられた推定値と共分散行列を使用して、偏りのない(または偏りの少ない)最小推定値を取得することは可能ですか?

1
相互に排他的でないカテゴリを分類できる深層学習モデル
例:仕事の説明に「英国のJavaシニアエンジニア」という文があります。 私は2つのカテゴリとして、それを予測することは、深い学習モデルを使用したい:English とIT jobs。従来の分類モデルを使用する場合softmax、最後のレイヤーで機能を持つ1つのラベルのみを予測できます。したがって、2つのモデルのニューラルネットワークを使用して、両方のカテゴリで「はい」/「いいえ」を予測できますが、さらに多くのカテゴリがあると、コストがかかりすぎます。では、2つ以上のカテゴリを同時に予測するためのディープラーニングまたは機械学習モデルはありますか? 「編集」:従来のアプローチによる3つのラベルでは、[1,0,0]によってエンコードされますが、私の場合、[1,1,0]または[1,1,1]によってエンコードされます 例:3つのラベルがあり、文がこれらすべてのラベルに収まる場合。したがって、softmax関数からの出力が[0.45、0.35、0.2]である場合、3つのラベルまたは2つのラベルに分類する必要がありますか、それとも1つにすることができますか?それを行うときの主な問題は、1、2、または3つのラベルに分類するための適切なしきい値は何ですか?
9 machine-learning  deep-learning  natural-language  tensorflow  sampling  distance  non-independent  application  regression  machine-learning  logistic  mixed-model  control-group  crossover  r  multivariate-analysis  ecology  procrustes-analysis  vegan  regression  hypothesis-testing  interpretation  chi-squared  bootstrap  r  bioinformatics  bayesian  exponential  beta-distribution  bernoulli-distribution  conjugate-prior  distributions  bayesian  prior  beta-distribution  covariance  naive-bayes  smoothing  laplace-smoothing  distributions  data-visualization  regression  probit  penalized  estimation  unbiased-estimator  fisher-information  unbalanced-classes  bayesian  model-selection  aic  multiple-regression  cross-validation  regression-coefficients  nonlinear-regression  standardization  naive-bayes  trend  machine-learning  clustering  unsupervised-learning  wilcoxon-mann-whitney  z-score  econometrics  generalized-moments  method-of-moments  machine-learning  conv-neural-network  image-processing  ocr  machine-learning  neural-networks  conv-neural-network  tensorflow  r  logistic  scoring-rules  probability  self-study  pdf  cdf  classification  svm  resampling  forecasting  rms  volatility-forecasting  diebold-mariano  neural-networks  prediction-interval  uncertainty 

1
バイアスのない効率的な推定量は、他の(中央値の)バイアスのない推定量よりも確率的に支配的ですか?
概要 効率的な推定量(サンプル分散がCramér–Rao限界に等しい)は、真のパラメーターθθ\thetaに近い確率を最大化しますか? 私たちは見積もりと真のパラメータの違いや絶対差を比較すると言いますΔ = θ - θΔ^= θ^- θΔ^=θ^−θ\hat\Delta = \hat \theta - \theta 分布であるΔ効率的な推定のためには、確率的に支配的なの分布オーバーその他の不偏推定のために?Δ^Δ^\hat\DeltaΔ〜Δ~\tilde\Delta 動機 ため、私は質問のこの考えていますすべての賢明な損失(評価)関数の下で最適な見積もりから(私たちは1つの凸損失関数に関して公平最良推定量は、他の損失関数に関して公平最良推定量でもあると言うことができますIosif Pinelis、2015年、最高の不偏推定量の特性 。arXivプレプリントarXiv:1508.07636)。真のパラメータに近い確率的優位性は、私と似ているようです(これは十分な条件であり、より強力なステートメントです)。 より正確な表現 上記の質問文は幅広いものです。たとえば、どの種類の不偏性が考慮され、負と正の差について同じ距離測定基準がありますか? 次の2つのケースについて考えてみましょう。††^\dagger 予想1:もし、効率的な平均値と中央値、不偏推定量です。次に、任意の平均および中央値不偏推定量 where and θ^θ^\hat \thetaθ〜θ~\tilde \theta もし 、X &gt; 0 そして P[ Δ^≤ X ] ≥ P[ Δ〜≤ X ]もし X &lt; 0 、次いで P[ Δ^≥ X ] …

2
なぜ公平性が一貫性を意味しないのですか
Ian Goodfellowらによる深層学習を読んでいます。として導入します。 ここで、とはそれぞれ推定パラメーターと基になる実パラメーターです。Bias(θ)=E(θ^)−θBias(θ)=E(θ^)−θBias(\theta)=E(\hat\theta)-\thetaθ θθ^θ^\hat\thetaθθ\theta 一方、一貫性はによって定義され ます。これは、場合、 aslimm→∞θ^m=θlimm→∞θ^m=θ\mathrm{lim}_{m\to\infty}\hat\theta_m=\thetaϵ&gt;0ϵ&gt;0\epsilon > 0P(|θ^m−θ|&gt;ϵ)→0P(|θ^m−θ|&gt;ϵ)→0P(|\hat\theta_m-\theta|>\epsilon)\to0m→∞m→∞m\to\infty 次に、一貫性は公平性を意味しますが、その逆は意味しません: 一貫性により、データ例の数が増えるにつれて、推定量によって生じるバイアスが確実に減少します。ただし、その逆は当てはまりません。漸近的な不偏性は一貫性を意味しません。たとえば、m個のサンプルで構成されるデータセットを使用して、正規分布N(x;μ、σ2)の平均パラメーターμを推定することを検討してください:。データセットの最初のサンプルを不偏推定量として使用できます:\hatθ= x ^ {(1)}。その場合、E(\ hatθ_m)=θなので、データポイントがいくつ表示されても、推定量は不偏です。もちろん、これは推定値が漸近的に不偏であることを意味します。ただし、これは\hatθ_m→θが次のような場合ではないため、一貫した推定量ではありません。バツ(1 )、。。。、x(m )x(1),...,x(m){x^{(1)}, . . . , x^{(m)}}バツ(1 )x(1)x^{(1)}θ = X (1 ) E( θ M)= θ θ M → θ M→ ∞θ^= x(1 )θ^=x(1)\hatθ = x^{(1)}E(θ^メートル)= θE(θ^m)=θE(\hat θ_m) = θθ^メートル→ θθ^m→θ\hatθ_m → θm → ∞m→∞m …

2
ロジスティック回帰で対数損失の代わりにMSEを使用する
ロジスティック回帰の損失関数(通常は対数尤度)をMSEに置き換えます。つまり、対数オッズ比がパラメーターの線形関数であっても、推定確率と結果(0/1としてコード化)の差の2乗の合計を最小化します。 ログp1 − p= β0+ β1バツ1+ 。。。+ βんバツんログ⁡p1−p=β0+β1バツ1+。。。+βんバツん\log \frac p{1-p} = \beta_0 + \beta_1x_1 + ... +\beta_nx_n 代わりにを最小化し。∑ (y私− p私)2Σ(y私−p私)2\sum(y_i - p_i)^2∑ [ y私ログp私+ (1 − y私)ログ(1 − p私)]Σ[y私ログ⁡p私+(1−y私)ログ⁡(1−p私)]\sum [y_i \log p_i + (1-y_i) \log (1-p_i)] もちろん、いくつかの仮定の下で対数尤度が理にかなっている理由は理解しています。しかし、通常は仮定が行われない機械学習で、MSEが完全に不合理である直感的な理由は何ですか?(またはMSEが意味をなす可能性のある状況はありますか?)

1
加重不偏標本共分散の正しい方程式
私は、加重不偏サンプル共分散を計算するための正しい方程式を探しています。このテーマではインターネットソースは非常にまれであり、それらはすべて異なる方程式を使用します。 私が見つけた最もありそうな方程式はこれです: qjk=∑Ni=1wi(∑Ni=1wi)2−∑Ni=1w2i∑Ni=1wi(xij−x¯j)(xik−x¯k).qjk=∑i=1Nwi(∑i=1Nwi)2−∑i=1Nwi2∑i=1Nwi(xij−x¯j)(xik−x¯k).q_{jk}=\frac{\sum_{i=1}^{N}w_i}{\left(\sum_{i=1}^{N}w_i\right)^2-\sum_{i=1}^{N}w_i^2} \sum_{i=1}^N w_i \left( x_{ij}-\bar{x}_j \right) \left( x_{ik}-\bar{x}_k \right) . 送信元:https : //en.wikipedia.org/wiki/Sample_mean_and_sample_covariance#Weighted_samples もちろん、重み付けされた(バイアスされていない)サンプル平均を事前に計算する必要があります。 しかし、私は他のいくつかの式を見つけました: qjk=1∑Ni=1wi)−1∑Ni=1wi(xij−x¯j)(xik−x¯k).qjk=1∑i=1Nwi)−1∑i=1Nwi(xij−x¯j)(xik−x¯k).q_{jk}= \frac{1}{\sum_{i=1}^N w_i)-1}\sum_{i=1}^N w_i \left( x_{ij}-\bar{x}_j \right) \left( x_{ik}-\bar{x}_k \right) . または、標準の共分散式を使用しているが、サンプル平均の代わりに加重サンプル平均を使用しているソースコードや学術論文を見たこともあります... 誰かが私を助けて光を当てることができますか? / EDIT:私の重みは、データセット内のサンプルの観測値の数です。したがって、weights.sum()= n

1
歪度と尖度の偏りのない推定量
歪度および尖度のように定義される: ζ4=E[(X-μ)4]ζ3=E[(X−μ)3]E[(X−μ)2]3/2=μ3σ3ζ3=E[(X−μ)3]E[(X−μ)2]3/2=μ3σ3\zeta_3 = \frac{E[(X-\mu)^3]}{E[(X-\mu)^2]^{3/2}} = \frac{\mu_3}{\sigma^3} ζ4=E[(X−μ)4]E[(X−μ)2]2=μ4σ4ζ4=E[(X−μ)4]E[(X−μ)2]2=μ4σ4\zeta_4 = \frac{E[(X-\mu)^4]}{E[(X-\mu)^2]^2} = \frac{\mu_4}{\sigma^4} 次の式は、サンプル歪度および尖度計算するために使用され 、Z4=1をz3= 1んΣんi = 1[ (x私− x¯)3](1んΣんi = 1[ (x私− x¯)2] )3 / 2z3=1n∑i=1n[(xi−x¯)3](1n∑i=1n[(xi−x¯)2])3/2z_3 = \frac{\frac{1}{n}\sum_{i=1}^{n} [(x_i-\bar x)^3]}{(\frac{1}{n}\sum_{i=1}^{n}[(x_i-\bar x)^2])^{3/2}} z4= 1んΣんi = 1[ (x私− x¯)4](1んΣんi = 1[ (x私− x¯)2] )2z4=1n∑i=1n[(xi−x¯)4](1n∑i=1n[(xi−x¯)2])2z_4 = \frac{\frac{1}{n}\sum_{i=1}^{n} [(x_i-\bar x)^4]}{(\frac{1}{n}\sum_{i=1}^{n}[(x_i-\bar x)^2])^2} 私の質問は次のとおりです。これらの推定者は不偏ですか?偏りのない標準偏差を使用するか、分母にバイアスをかけた標準偏差を使用するかはわかりません。 我々は、機能している場合、一般的には、その変数公平推定されているが、我々は言うことができるfは、同様不偏推定量ですか?ffffff

1
スチューデントのT検定で標準偏差を修正する必要がありますか?
スチューデントのT検定を使用して、T-Criticalは次のように計算されます。 t = X¯- μ0s / n√t=X¯−μ0s/nt = \frac{\bar{X} - \mu_{0}}{s / \sqrt{n}} 標準偏差の不偏推定に関するウィキペディアの記事を見ると、サンプルのサイズに基づいて測定されたサンプルの標準偏差sの補正係数c 4(n )に言及している正規分布の結果のセクションがあります。質問:c4(n )c4(n)c_4(n) (1)この補正係数は自由度によるので、スチューデントのTテーブルデータに含まれていますか? (2)(1)が「いいえ」の場合、なぜそうでないのですか?


1
対数正規分布の中央値の推定量としてサンプル中央値をいつ使用するのですか?
私自身は常に幾何平均を使用して対数正規中央値を推定します。ただし、業界では、サンプルの中央値を使用するとより良い結果が得られる場合があります。したがって、問題は、サンプル中央値を母集団中央値の推定量として確実に使用できる開始カットオフ範囲/ポイントがあるかどうかです。 また、サンプルの幾何平均は中央値のMLEですが、偏りはありません。偏りのない推定量は、が既知の場合、ます。実際には、は常に不明であるため、バイアスされた修正推定量 (下記を参照)が使用されます。MSEが小さく偏りがないため、このバイアス補正されたgeomean推定量はより優れているとする論文があります。ただし、実際には、サンプルサイズが4〜6しかない場合、バイアス補正は意味がないと主張できます。σ β CGMσβ^CGM0= exp(μ^- σ2/ 2N)β^CGM0=exp⁡(μ^−σ2/2N)\hat{\beta}_{\mbox{CGM0}}=\exp(\hat{\mu}-\sigma^2/2N)σσ\sigmaβ^CGMβ^CGM\hat{\beta}_{\mbox{CGM}}σσ\sigma 偏りがないとは、推定器が真の母集団パラメーターを中心とし、パラメーターの下でも過大でもないことを意味します。正に歪んだ分布の場合、中心は平均ではなく中央値です。 変換に対する不変量は、現在の領域で重要なプロパティです(DT50と劣化率kの間の変換、k = log(2)/ DT50)。元のデータと変換されたデータに基づいて、異なる結果が得られます。 限られたサンプルサイズの場合、平均不偏性は誤解を招く可能性があります。バイアスはエラーではなく、不偏推定量はより大きなエラーを与える可能性があります。ベイジアンの観点からは、データは既知で固定されており、MLEはデータを観察する確率を最大化し、バイアス補正は固定パラメーターに基づいています。 サンプルの幾何平均推定量はMLEで、中央値に偏りがなく、変換に対して不変です。バイアス補正されたgeomean推定器よりも望ましいと思います。私は正しいですか? Assummingバツ1、X2、。。。、XN〜LN(μ 、σ2)X1,X2,...,XN∼LN(μ,σ2)X_1,X_2,...,X_N \sim \mbox{LN}(\mu,\sigma^2) β= exp(μ )β=exp⁡(μ)\beta = \exp(\mu) β^GM= exp(μ^)= exp(∑ ログ(X私)N)〜 LN(μ、 σ2/ N)β^GM=exp⁡(μ^)=exp⁡(∑log⁡(Xi)N)∼LN(μ,σ2/N)\hat{\beta}_{\mbox{GM}}= \exp(\hat{\mu})= \exp{(\sum\frac{\log(X_i)}{N})} \sim \mbox{LN}(\mu,\sigma^2/N) β^SM= 中央値(X1、X2、。。。、XN)β^SM=median(X1,X2,...,XN)\hat{\beta}_{\mbox{SM}}= \mbox{median}(X_1,X_2,...,X_N) β^CGM= exp(μ^- σ^2/ 2N)β^CGM=exp⁡(μ^−σ^2/2N)\hat{\beta}_{\mbox{CGM}}= \exp(\hat{\mu}-\hat\sigma^2/2N) ここで、とは対数平均とlog-sd、とはと MLEです。σ μ σ μ σμμ\muσσ\sigmaμ^μ^\hat\muσ^σ^\hat\sigmaμμ\muσσ\sigma 関連する質問:サンプル中央値の分散には、近似式ます。この式を使用するのに十分な大きさのサンプルサイズとは14Nf(m)214Nf(m)2\frac{1}{4Nf(m)^2}

1
偏りがなく制限のある推定量を持つことは可能ですか?
間にあるパラメータがあります。実験を実行してを取得できるとします 。ここで、は標準ガウスです。私が必要なのは、1)偏りのない2)ほぼ確実に境界がある推定です。要件(2)は私にとって重要です。θθ\theta[0,1][0,1][0,1]θ^=θ+wθ^=θ+w\hat{\theta} = \theta + wwwwθθ\theta 行うべき自然な考え方は、を設定する新しい推定量を作成することですθ^θ^\hat{\theta}111、それが上にある場合は111とする000それが以下であれば000。しかし、その後、推定量は偏りがありません。だから私は何をすべきですか? 正式に、問題は、関数が存在するか否かであるf:R→Rf:R→Rf: \mathbb{R} \rightarrow \mathbb{R}ようにf(θ^)f(θ^)f(\hat \theta)を満たす(1)及び(2)上記。さらに、複数のサンプルを描画した場合、状況は異なりますか?

3
一貫性に必要な十分な条件の反例
推定量がthetaの不偏推定量であり、nが無限大になる傾向があるため、その分散が0になる傾向がある場合、それはthetaの一貫した推定量であることがわかります。しかし、これは十分であり、必要条件ではありません。一貫しているが、nが無限大になる傾向があるため、分散が0になる傾向のない推定量の例を探しています。助言がありますか?

3
バイアスされたサンプリングによる指数分布のパラメーター推定
偏った条件下でこの分布から抽出されたサンプル母集団から、指数分布のパラメーターを計算したいと思います。私の知る限り、n個の値のサンプルの場合、通常の推定量はです。しかし、私のサンプルは次のように偏っています:E - λ X λ = Nλλ\lambdae−λxe−λxe^{-\lambda x}λ^=n∑xiλ^=n∑xi\hat{\lambda} = \frac{n}{\sum x_i} 指数分布からiidで描かれたm個の要素の完全な母集団から、n個の最小の要素だけが知られています。このシナリオでパラメータをどのように推定できますか?λλ\lambda もう少し厳密に言うと、がから抽出されたiidサンプルである場合、すべてのに対してあり、私は推定することができる方法をセットから。E - λ X I &lt; J X I ≤ X jの λ { X 1、X 2、X 3、。。。、x n } n &lt; m{x1,x2,x3,...,xm}{x1,x2,x3,...,xm}\{x_1,x_2,x_3,...,x_m \}e−λxe−λxe^{-\lambda x}i&lt;ji&lt;ji < jxi≤xjxi≤xjx_i \leq x_jλλ\lambda{x1,x2,x3,...,xn}{x1,x2,x3,...,xn}\{x_1,x_2,x_3,...,x_n\}n&lt;mn&lt;mn < m どうもありがとう! マイケル

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.