タグ付けされた質問 「estimation」

このタグは一般的です。より具体的なタグを提供してください。特定の推定量のプロパティに関する質問については、代わりに[estimators]タグを使用してください。

1
切り捨てられた分布の最尤推定量
検討NNNの独立した試料SSSランダム変数から得られたXXX(例えばA切り捨て分布に従うと仮定される正規分布を切り捨て既知の(有限の)最小値と最大値の)およびBが、未知パラメータのμ及びσ 2。場合Xは非切り捨て分布に従って、最尤推定量は、μ及びσ 2のためのμ及びσ 2からSは試料の平均であろうμaaabbbμμ\muσ2σ2\sigma^2XXXμˆμ^\widehat\muσˆ2σ^2\widehat\sigma^2μμ\muσ2σ2\sigma^2SSSμˆ=1N∑iSiμ^=1N∑iSi\widehat\mu = \frac{1}{N} \sum_i S_i及び試料分散 σ 2=1σˆ2=1N∑i(Si−μˆ)2σ^2=1N∑i(Si−μ^)2\widehat\sigma^2 = \frac{1}{N} \sum_i (S_i - \widehat\mu)^2。しかし、切り捨て分布のために、このように定義されたサンプル分散はで囲まれている(b−a)2(b−a)2(b-a)^2、それは必ずしも一致推定量ではないのでための:σ2>(b−a)2σ2>(b−a)2\sigma^2 > (b-a)^2、それに対して確率で収束することができませんσ2σ2\sigma^2としてNNN無限大になります。そのようですので、 μ及び σ 2は、の最尤推定量ではありませんμμˆμ^\widehat\muσˆ2σ^2\widehat\sigma^2μμ\muそして、切り捨て配布するため。もちろん、これは以来、予想されるμとσ 2つの切断正規分布のパラメータは、その平均と分散ではありません。σ2σ2\sigma^2μμ\muσ2σ2\sigma^2 それでは、既知の最小値と最大値の切り捨てられた分布のおよびσパラメーターの最尤推定量は何ですか?μμ\muσσ\sigma

4
内部対外部の交差検証とモデル選択
私の理解では、相互検証とモデル選択により、次の2つのことに対処しようとしています。 P1。サンプルでトレーニングする際の母集団の予想損失を推定する P2。この推定の不確実性(分散、信頼区間、バイアスなど)を測定して報告する 標準的な方法では、反復検証を繰り返します。これにより、推定量の分散が減少するためです。 ただし、レポートと分析に関しては、次の理由により、内部検証の方が外部検証よりも優れていると理解しています。 報告することをお勧めします: 推定器の統計。たとえば、完全なサンプル(この場合はCVサンプル)の信頼区間、分散、平均など。 報告よりも: 次の理由により、元のサンプルのホールドアウトサブセットでの推定量の損失: (i)これは単一の測定値になります(CVで推定量を選択した場合でも) (ii)この単一の測定の推定量は、ホールドアウトセット用のスペースを確保する必要があるため、最初のサンプルよりも小さいセット(CVセットなど)でトレーニングされていました。これにより、P1のより偏った(悲観的な)推定になります。 これは正しいです?そうでない場合はなぜですか? バックグラウンド: サンプルを2つのセットに分割することを推奨する教科書は簡単に見つかります。 CVのその後繰り返しに分けて設定し、電車やバリデーションセット。 ホールドアウトのみ推定性能を報告するために端部に使用される(テスト)セット、 私の目標は、この投稿の冒頭で問題P1とP2に実際に対処することだと考えて、この教科書アプローチのメリットと利点を理解する試みです。CVサンプルの分析はより有益であるため、ホールドアウトテストセットのレポートは悪い習慣であるように思えます。 ネストされたKフォールドと繰り返しKフォールド: 原則として、ホールドアウトと通常のK-foldを組み合わせて、ネストされたK-foldを取得でき ます。これは、私たちは私たちの推定量の変動を測定できるようになるが、それは訓練された合計モデルの同じ数(折り目の合計#)のためのものである推定もたらすであろうK倍を繰り返すように私には見え少ないバイアスとより正確なネストされたK-よりを折ります。これを見るには: 繰り返しKフォールドは、同じKのネストされたKフォールドよりもサンプル全体の大部分を使用します(つまり、バイアスが低くなります) 100回の反復では、ネストされたKフォールド(K = 10)で推定器の10個の測定値しか得られませんが、Kフォールドで100個の測定値が得られます(測定値を増やすとP2の分散が低くなります) この推論の何が問題になっていますか?

2
対数正規分布のモーメントの推定量のバイアス
私は、対数正規分布をサンプリングすることにあるいくつかの数値実験をやっているX∼LN(μ,σ)X∼LN(μ,σ)X\sim\mathcal{LN}(\mu, \sigma)、およびモーメントを推定しようとしてE[Xn]E[Xn]\mathbb{E}[X^n] 2つの方法で: X nのサンプル平均を見るXnXnX^n 推定μμ\mu及びσ2σ2\sigma^2のサンプル手段を用いてlog(X),log2(X)log⁡(X),log2⁡(X)\log(X), \log^2(X)、次いで対数正規分布のために、我々は持っているという事実を利用してE[Xn]=exp(nμ+(nσ)2/2)E[Xn]=exp⁡(nμ+(nσ)2/2)\mathbb{E}[X^n]=\exp(n \mu + (n \sigma)^2/2)。 質問は次のとおりです。 私は実験的に見つける、第2の方法が実行はるかに優れた、最初の1、私は固定のサンプル数を維持し、向上させるときμ,σ2μ,σ2\mu, \sigma^2この事実のためにいくつかの簡単な説明があり、いくつかの要因によってT.? Y軸の値である間、私は、x軸がTである図形を装着していE[X2]E[X2]\mathbb{E}[X^2]の真の値を比較するE[X2]=exp(2μ+2σ2)E[X2]=exp⁡(2μ+2σ2)\mathbb{E}[X^2] = \exp(2 \mu + 2 \sigma^2)(オレンジ行)、推定値に。方法1-青い点、方法2-緑の点。y軸は対数スケールです 編集: 以下は、1つのTの結果を出力する最小のMathematicaコードです。 ClearAll[n,numIterations,sigma,mu,totalTime,data,rmomentFromMuSigma,rmomentSample,rmomentSample] (* Define variables *) n=2; numIterations = 10^4; sigma = 0.5; mu=0.1; totalTime = 200; (* Create log normal data*) data=RandomVariate[LogNormalDistribution[mu*totalTime,sigma*Sqrt[totalTime]],numIterations]; (* the moment by theory:*) …

8
イベントに参加した人数(政治集会など)を推定する方法は?
今日、ある学生が私に尋ねました。「ワシントンDCのスチュワート/コルバート「正気を取り戻すための集会」など、大規模なグループイベントに何人の人々が参加したかをどうやって知るのですか?」ニュースアウトレットは数万の推定値を報告しますが、これらの推定値を取得するためにどのような方法が使用され、それらの信頼性はどの程度ですか? ある記事は明らかに駐車許可に基づいて彼らの見積りに基づいていました... キャプチャ/再キャプチャの実験などについて話していないことに注意してください。 わからない。事前に、このような特定の方法はなく、非常にアドホックなもの(駐車許可証の販売数など)があると思います。これは本当ですか?国家安全保障の目的のために-もちろん-アナリストに衛星写真を用意してもらい、そこにいる人々の数を物理的に数えることも可能です。この方法は非常に頻繁に使用されるとは思いません。



2
最高密度領域(HDR)とは何ですか?
で統計的推論、問題9.6b、「最高密度領域(HDR)」が言及されています。しかし、私は本でこの用語の定義を見つけませんでした。 1つの類似した用語は、最高後方密度(HPD)です。しかし、9.6bは事前分布については何も言及していないため、このコンテキストには適合しません。提案された解決策では、「明らかにc (y)c(y)c(y)はHDRである」としか書かれていません。 または、HDRはpdfのモードを含む領域ですか? 最高密度領域(HDR)とは何ですか?

4
スチューデントのt分布のパラメーターの推定
スチューデントのt分布のパラメーターの最尤推定量は何ですか?それらは閉じた形で存在しますか?簡単なGoogle検索では結果が得られませんでした。 今日は単変量のケースに興味がありますが、おそらくモデルを複数の次元に拡張する必要があります。 編集:私は実際には主に場所とスケールのパラメータに興味があります。今のところ、自由度パラメーターが固定されていると仮定し、場合によっては後で数値を使用して最適値を見つけることができます。

2
パラメータ推定のために二項分布の尤度関数を導出する方法は?
Miller and Freund's Probability and Statistics for Engineers、8ed(pp.217-218)によれば、二項分布(ベルヌーイ試行)で最大化される尤度関数は次のように与えられます。 L (p )= ∏ni = 1pバツ私(1 − p )1 - x私L(p)=∏私=1npバツ私(1−p)1−バツ私L(p) = \prod_{i=1}^np^{x_i}(1-p)^{1-x_i} この方程式に到達する方法は?他の分布であるポアソンとガウス分布に関しては、私にはかなり明らかなようです。 L (θ )= ∏ni = 1distのPDFまたはPMF。L(θ)=∏私=1ndistのPDFまたはPMF。L(\theta) = \prod_{i=1}^n \text{PDF or PMF of dist.} しかし、二項式のものは少し異なります。率直に言うと、どのように n Cバツ pバツ(1 − p )n − xnCバツ pバツ(1−p)n−バツnC_x~p^x(1-p)^{n-x} なる pバツ私(1 − p )1 …

1
一貫性のない推定量は望ましいでしょうか?
一貫性は明らかに自然で重要なプロパティ推定器ですが、一貫性のある推定器よりも一貫性のない推定器を使用したほうがよい場合がありますか? より具体的には、すべての有限(適切な損失関数に関して)に対して妥当な一貫性のある推定器よりも優れた一貫性のない推定器の例はありますか?nnn

3
多重打ち切りデータの共分散行列の不偏推定
環境サンプルの化学分析は、報告限界またはさまざまな検出/定量限界でしばしば打ち切られます。後者は、通常、他の変数の値に比例して変化します。たとえば、ある化合物の濃度が高いサンプルは、分析のために希釈する必要があり、そのサンプルで同時に分析される他のすべての化合物の打ち切り限界が比例的に増大する場合があります。別の例として、化合物の存在により、他の化合物に対する試験の反応が変化する場合があります(「マトリックス干渉」)。これが研究室で検出されると、それに応じてレポートの制限が膨らみます。 特に多くの化合物が50%を超える打ち切りを経験する場合に、このようなデータセットの分散共分散行列全体を推定する実用的な方法を模索しています。従来の分布モデルでは、(真の)濃度の対数は多重正規分布であり、これは実際にはうまく適合するようであるため、この状況の解決策が役立ちます。 (「実用的」とは、R、Python、SASなどの少なくとも1つの一般的に利用可能なソフトウェア環境で、複数の代入で発生するような反復再計算をサポートするのに十分迅速に実行される方法で、確実にコーディングできる方法を意味します。そして、これはかなり安定している[だからこそ、一般的なベイジアンソリューションは歓迎されているが、BUGSの実装を検討するのを嫌がる]。 この件についてのご意見を事前に感謝します。


4
新しいベクターをPCA空間に投影する方法は?
主成分分析(PCA)を実行した後、新しいベクトルをPCA空間に投影します(つまり、PCA座標系で座標を見つけます)。 を使用してR言語でPCAを計算しましたprcomp。これで、ベクトルにPCA回転行列を掛けることができるはずです。このマトリックスの主成分を行または列に配置する必要がありますか?
21 r  pca  r  variance  heteroscedasticity  misspecification  distributions  time-series  data-visualization  modeling  histogram  kolmogorov-smirnov  negative-binomial  likelihood-ratio  econometrics  panel-data  categorical-data  scales  survey  distributions  pdf  histogram  correlation  algorithms  r  gpu  parallel-computing  approximation  mean  median  references  sample-size  normality-assumption  central-limit-theorem  rule-of-thumb  confidence-interval  estimation  mixed-model  psychometrics  random-effects-model  hypothesis-testing  sample-size  dataset  large-data  regression  standard-deviation  variance  approximation  hypothesis-testing  variance  central-limit-theorem  kernel-trick  kernel-smoothing  error  sampling  hypothesis-testing  normality-assumption  philosophical  confidence-interval  modeling  model-selection  experiment-design  hypothesis-testing  statistical-significance  power  asymptotics  information-retrieval  anova  multiple-comparisons  ancova  classification  clustering  factor-analysis  psychometrics  r  sampling  expectation-maximization  markov-process  r  data-visualization  correlation  regression  statistical-significance  degrees-of-freedom  experiment-design  r  regression  curve-fitting  change-point  loess  machine-learning  classification  self-study  monte-carlo  markov-process  references  mathematical-statistics  data-visualization  python  cart  boosting  regression  classification  robust  cart  survey  binomial  psychometrics  likert  psychology  asymptotics  multinomial 

4
エッジケースの精度と再現率の正しい値は何ですか?
精度は次のように定義されます: p = true positives / (true positives + false positives) それは、それを修正しているtrue positivesとfalse positives、精度が1に近づくアプローチ0? リコールに関する同じ質問: r = true positives / (true positives + false negatives) 現在、これらの値を計算する必要がある統計テストを実装していますが、分母が0である場合があり、この場合にどの値を返すのか迷っています。 PS:不適切なタグをすみません、、およびを使用したいのですがrecall、新しいタグをまだ作成できません。precisionlimit
20 precision-recall  data-visualization  logarithm  references  r  networks  data-visualization  standard-deviation  probability  binomial  negative-binomial  r  categorical-data  aggregation  plyr  survival  python  regression  r  t-test  bayesian  logistic  data-transformation  confidence-interval  t-test  interpretation  distributions  data-visualization  pca  genetics  r  finance  maximum  probability  standard-deviation  probability  r  information-theory  references  computational-statistics  computing  references  engineering-statistics  t-test  hypothesis-testing  independence  definition  r  censoring  negative-binomial  poisson-distribution  variance  mixed-model  correlation  intraclass-correlation  aggregation  interpretation  effect-size  hypothesis-testing  goodness-of-fit  normality-assumption  small-sample  distributions  regression  normality-assumption  t-test  anova  confidence-interval  z-statistic  finance  hypothesis-testing  mean  model-selection  information-geometry  bayesian  frequentist  terminology  type-i-and-ii-errors  cross-validation  smoothing  splines  data-transformation  normality-assumption  variance-stabilizing  r  spss  stata  python  correlation  logistic  logit  link-function  regression  predictor  pca  factor-analysis  r  bayesian  maximum-likelihood  mcmc  conditional-probability  statistical-significance  chi-squared  proportion  estimation  error  shrinkage  application  steins-phenomenon 

1
James-Stein推定量が「収縮」推定量と呼ばれるのはなぜですか?
James-Stein推定量について読んでいます。このノートでは、次のように定義されています θ^=(1−p−2∥X∥2)Xθ^=(1−p−2‖X‖2)X \hat{\theta}=\left(1 - \frac{p-2}{\|X\|^2}\right)X 私は証明を読みましたが、次の声明を理解していません: 幾何学的に、James–Stein推定量は、各成分を原点に向かって縮小します...XXX 「各成分を原点に向かって縮小する」とはどういう意味ですか?私はようなものを考え ていました。(p + 2)<\ | X \ | ^ 2、 \ | \ hat {\ theta} \ | = \ frac {\ | X \ | ^ 2-(p + 2)} {\ | X \ | ^ 2} \ | X \ |。‖ θ …

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.