タグ付けされた質問 「estimation」

このタグは一般的です。より具体的なタグを提供してください。特定の推定量のプロパティに関する質問については、代わりに[estimators]タグを使用してください。

1
ブートストラップサンプルと元のサンプルの操作
実数のサンプルを考えてみましょう。人口の中心的な傾向を推定し、この推定に関する不確実性を感じたいとしましょう。 人口分布についての仮説をとりあえず、次の2つのアプローチを考えてみましょう。 入力サンプルのブートストラップサンプルを取得します。つまり、置換してサンプリングし(たとえば、100リサンプルを取得)、各リサンプルの平均を計算します。次に、結果の平均の経験的分布の平均と信頼区間を出力します。 入力サンプルから平均値を出力し、推定値の不確実性を伝えるために平均値の周りの百分位数を出力します。 ブートストラップと元のサンプル: 私はアプローチ#1が何をするかを理解していますが。#2の背後にある根底にある推定量はありますか? #1のCIとは対照的に、#2の平均周辺のパーセンタイルは何を伝えますか?アプローチ#2は不確実な感覚を伝えますが、私はそれを頻出主義者またはベイズの解釈に関連付けるのに苦労しています。 方法#2 は、人口のより良い推定量を提供するでしょうか (例えば、偏りが少なく分散が低い)?

1
二項式のパラメーターの推定
まず第一に、私はこの主題の専門家ではないことを明確にしたいと思います。 と 2 項の2つの確率変数とがあるとすると、は同じであること注意してください。ことを知っていXXXYYYX∼B(n1,p)X∼B(n1,p)X\sim B(n_1,p)Y∼B(n2,p),Y∼B(n2,p),Y\sim B(n_2,p),pppZ=X+Y∼B(n1+n2,p).Z=X+Y∼B(n1+n2,p).Z=X+Y \sim B(n_1+n_2,p). ましょう 用試料でとのサンプルである、推定するための標準的な方法がある及び?{x1,…,xk}{x1,…,xk}\{x_1,\ldots,x_k\}XXX{y1,…,yk}{y1,…,yk}\{y_1,\ldots,y_k\}YYYn=n1+n2n=n1+n2n=n_1+n_2ppp これが私たちが行ったことです: によって与えられるの「新しいサンプル」を、ZZZ{x1+y1,…,xk+yk}{x1+y1,…,xk+yk}\{x_1+y_1,\ldots, x_k+y_k\} 尤度推定器を使用して、と推定値を取得します。nnnppp フィッシャー情報を使用して、および誤差を理解しようとします。nnnppp この方法は機能しているように見えますが、まだいくつかの疑問があります。してみましょうかけ順列のグループを要素。すべてのについて、によって与えられる「サンプル」を考慮することができ「新しいサンプル」のそれぞれに尤度推定量を適用すると(異なる合計があります、とについて異なる推定られます。SkSkS_kkkkσ∈Skσ∈Sk\sigma\in S_k{x1+yσ(1),…,xk+yσ(k)}.{x1+yσ(1),…,xk+yσ(k)}.\{x_1+y_{\sigma(1)},\dots, x_k+y_{\sigma(k)}\}.k!k!k!(nσ,pσ)(nσ,pσ)(n_\sigma,p_\sigma)nnnppp これの意味は何ですか?新しい値はどのように関連付けられますか?の誤差の計算に使用できますか?nσ,pσnσ,pσn_\sigma, p_\sigmannn 一部のコメント: 質問は以前ここに投稿されていましたが、ユーザーからタット/クロスバリデーションされたSEを使用するように勧められました。 私が念頭に置いている例では、は特定の地域の鳥の数であり、は可視性の確率です。同様の持つ領域を集約する必要があります。そうしないと、データが小さすぎます。特に、可能であれば、推定のみが必要です。ここで、のアプリオリは不明です。p p n pnnnppppppnnnppp 例 明確にするために、kjetil b halvorsenの回答を考慮して、ここで実際的な例を示します。固定された等しい確率で2つのゾーンに分割された領域が1つだけあり、データが次のとおりであるとします。ppp Zone 1 Zone 2 a1 b1 a2 b2 a3 b3 a4 b4 a5 b5 a6 b6 次に、これを検討できます。 Zone 1+2 c1=a1+b1 …

1
逆確率重みの計算—条件付き(多変量)密度推定?
一般的なバージョン: 私は推定する必要があると連続して多変量です。良い関数形を心に留めておらず、は公平なものである必要があるため、ノンパラメトリックにしたいと思います。条件付きカーネル密度推定器を使用したかったのですが、最初にを量子化する必要があることに気付きました。それから私は推定するためのアイデアだったとF(X )という計算にデータや使用からのF(A | X )、または多分私はどこかでそれを読んで、覚えていませんどこ。A X F(A | X )X F(A 、X )f(A|X)f(A|X)f(A | X)AAAXXXf^(A|X)f^(A|X)\hat{f}(A | X)XXXf^(A,X)f^(A,X)\hat{f}(A , X)f^(X)f^(X)\hat{f}(X)f^(A|X)f^(A|X)\hat{f}(A | X) この手順が有効ではない理由はありますか?カーネル密度よりも良いまたはより正直なアプローチはありますか?また、ノンパラメトリックにサンプル密度から人口密度を推定することに問題はありますか?データは調査データであり、私には調査の重みがあります。どういうわけかそれらを組み込む必要がありますか? ケース固有のバージョン: Robins(2000)(ゲートされていないPDF)のように、これらの推定値を周辺構造モデルでの治療の確率の逆数の重みに使用することに言及する価値があるでしょう。私は「治療」の配列観察{at}4t=0{at}t=04\{a_t\}_{t=0}^{4}と時間変動交絡因子のシーケンス{xt}4t=0{xt}t=04\{x_t\}_{t=0}^{4}いくつかの結果に対するy~y~\tilde{y}で生じるt=T+1t=T+1t=T+1。単純なパラメトリック因果関係、ただし、時変交絡因子があるため、βは「平均治療効果」の偏った推定であり、因果パス上にあるため、交絡因子をリグレッサとして追加できません。βにもバイアスをかけます。幸いドクロビンスはI再重量私の観測場合、私はにより交絡/公平かつ合理的に効率的な推定値を得ることができることを考え出した wが、私は= 4 Π S=0、F(S|A S < T)をE[ Y〜| a⃗ ] = β』a⃗ E[Y~|a→]=β′a→E[\tilde{Y} | \vec{a}]=\beta'\vec{a}ββ\betaββ\betaw私= ∏s = 04f(as| as < t)f(as| as < t、xs < …

2
膨大なデータセットが与えられた場合、なぜ統計モデルは過剰適合しますか?
現在のプロジェクトでは、特定のグループの行動を予測するモデルを構築する必要があるかもしれません。トレーニングデータセットには6つの変数のみが含まれます(idは識別目的のみです)。 id, age, income, gender, job category, monthly spend その中で monthly spend応答変数です。ただし、トレーニングデータセットには約300万行が含まれid, age, income, gender, job category、予測されるデータセット(応答変数は含まれるが、含まれない)には100万行が含まれます。私の質問は、統計モデルにあまりにも多くの行(この場合は300万行)を投げた場合に潜在的な問題はありますか?計算コストが懸念事項の1つであることを理解していますが、他に懸念事項はありますか?データセットのサイズの問題を完全に説明している本/紙はありますか?
8 modeling  large-data  overfitting  clustering  algorithms  error  spatial  r  regression  predictive-models  linear-model  average  measurement-error  weighted-mean  error-propagation  python  standard-error  weighted-regression  hypothesis-testing  time-series  machine-learning  self-study  arima  regression  correlation  anova  statistical-significance  excel  r  regression  distributions  statistical-significance  contingency-tables  regression  optimization  measurement-error  loss-functions  image-processing  java  panel-data  probability  conditional-probability  r  lme4-nlme  model-comparison  time-series  probability  probability  conditional-probability  logistic  multiple-regression  model-selection  r  regression  model-based-clustering  svm  feature-selection  feature-construction  time-series  forecasting  stationarity  r  distributions  bootstrap  r  distributions  estimation  maximum-likelihood  garch  references  probability  conditional-probability  regression  logistic  regression-coefficients  model-comparison  confidence-interval  r  regression  r  generalized-linear-model  outliers  robust  regression  classification  categorical-data  r  association-rules  machine-learning  distributions  posterior  likelihood  r  hypothesis-testing  normality-assumption  missing-data  convergence  expectation-maximization  regression  self-study  categorical-data  regression  simulation  regression  self-study  self-study  gamma-distribution  modeling  microarray  synthetic-data 

3
サンプルの分位バイアスの実証
いくつかのシミュレーションを行っているときに、サンプルの分位点が真の分位点の偏った推定量であることに気付きました。そして、私のシミュレーションによると、潜在的に非常に偏ったものです。 経験的なCDFは偏っていないのでその結果には驚きましたが、インターネットでの調査の結果、それが本当であることがわかりました。 私はそのバイアスがどこから来ているのかを理解しようとしましたが、サンプル分位点を扱うことは非常に困難です。だれかがそのバイアスの実証(そして理想的には定量化)を持っていますか?

1
偏りがなく制限のある推定量を持つことは可能ですか?
間にあるパラメータがあります。実験を実行してを取得できるとします 。ここで、は標準ガウスです。私が必要なのは、1)偏りのない2)ほぼ確実に境界がある推定です。要件(2)は私にとって重要です。θθ\theta[0,1][0,1][0,1]θ^=θ+wθ^=θ+w\hat{\theta} = \theta + wwwwθθ\theta 行うべき自然な考え方は、を設定する新しい推定量を作成することですθ^θ^\hat{\theta}111、それが上にある場合は111とする000それが以下であれば000。しかし、その後、推定量は偏りがありません。だから私は何をすべきですか? 正式に、問題は、関数が存在するか否かであるf:R→Rf:R→Rf: \mathbb{R} \rightarrow \mathbb{R}ようにf(θ^)f(θ^)f(\hat \theta)を満たす(1)及び(2)上記。さらに、複数のサンプルを描画した場合、状況は異なりますか?

1
ディリクレ分布パラメーターのベイズ推定
ギブスサンプリングを使用してディリクレ混合モデルのパラメーターを推定したいのですが、いくつか質問があります。 ディリクレ分布の混合はディリクレ過程と同等ですか?そうでない場合の主な違いは何ですか? また、単一のディリクレ分布のパラメーターを推定する場合、ベイジアンフレームワークで事前分布として選択するパラメーターの分布はどれですか? すべての論文で、ディリクレ事前分布を使用した多項分布の推定を見つけました。多項式の事前分布を使用してディリクレ分布を推定する必要があるかもしれません。 事後関数もDIRICHLET(α+ N)の形式で、「ディリクレ事前分布を使用した多項分布の推定」の場合と同様ですか?iidサンプルの確率密度関数の乗算は、尤度関数の定義では考慮されないためです。理由がわかりません。 たとえば、この論文で述べたように:http : //www.stat.ufl.edu/~aa/cda/bayes.pdf または http://research.microsoft.com/en-us/um/people/minka/papers/ minka-multinomial.pdf あなたの注意をありがとう 私のデータはHyperion(一種のハイパースペクトルリモートセンシング画像)であり、ディリクレソースの混合を使用してハイパースペクトルアンミキシングを実行し、パラメーター推定にギブスサンプリング法を適用します。私のデータは次元(614 * 512 * 224)です。これは、Cuprite Nevada地区で一般的に利用可能なAVIRISセンサーデータであり、ほぼ200MBです。また、このデータは(http://aviris.jpl.nasa.gov/data/free_data.html)から入手できます。残念ながら、データを送信する方法を知りません。 私のPHD論文の統計モデリングタスクを手伝ってくれるようお願いします。私のモデリングの混乱を解決するのを手伝ってくれるなら、とても感謝しています。 すべての最高のソルマズ

2
Rの2因子反復測定ANOVA後の事後検定?
Rで2因子(両方とも被験者内)のANOVAを繰り返し測定した後、事後テスト(Tukey HSD)を実行する方法に関する解決策を見つけるのに問題があります。ANOVAには、aov -functionを使用しました。 summary(aov(dv ~ x1 * x2 + Error(subject/(x1*x2)), data=df1)) 他の質問への回答を読んだ後、他の機能(lmeなど)を使用してANOVAを再実行する必要があることを知りました。これが私が思いついたものです。 Lme.mod <- lme(dv ~ x1*x2, random=list(subject=pdBlocked(list(~1, pdIdent(~x1-1), pdIdent(~x2-1)))), data=df1) anova(Lme.mod) 主な効果はどちらも有意でしたが、相互作用の効果はありませんでした。次に、これらの関数を事後比較に使用しました。 summary(glht(Lme.mod, linfct=mcp(x1="Tukey"))) summary(glht(Lme.mod, linfct=mcp(x2="Tukey"))) しかし、いくつかの問題がありました: まず、Rヘルプファイルには、「双方向ANOVAまたはANCOVAモデル(...)multcompバージョン1.0-0以降で対象のパラメーターを定義する場合、mcp関数は注意して使用する必要があります。主な効果の比較が生成されます。のみ、共変量と交互作用を無視します(古いバージョンは交互作用項で自動的に平均化されました)警告が表示されます。そして確かに、私は次の警告メッセージを受け取りました: Warning message: In mcp2matrix(model, linfct = linfct) : covariate interactions found -- default contrast might be inappropriate もう1つの不可解な点は、両方の主要な効果は有意でしたが、要因の1つ(x1)の事後比較に有意差はなかったということです。これに出会ったことはありません。スクリプト/分析は正しい/適切ですか、それとも欠けているものはありますか?どんな助けでも大歓迎です!

3
バイアスされたサンプリングによる指数分布のパラメーター推定
偏った条件下でこの分布から抽出されたサンプル母集団から、指数分布のパラメーターを計算したいと思います。私の知る限り、n個の値のサンプルの場合、通常の推定量はです。しかし、私のサンプルは次のように偏っています:E - λ X λ = Nλλ\lambdae−λxe−λxe^{-\lambda x}λ^=n∑xiλ^=n∑xi\hat{\lambda} = \frac{n}{\sum x_i} 指数分布からiidで描かれたm個の要素の完全な母集団から、n個の最小の要素だけが知られています。このシナリオでパラメータをどのように推定できますか?λλ\lambda もう少し厳密に言うと、がから抽出されたiidサンプルである場合、すべてのに対してあり、私は推定することができる方法をセットから。E - λ X I &lt; J X I ≤ X jの λ { X 1、X 2、X 3、。。。、x n } n &lt; m{x1,x2,x3,...,xm}{x1,x2,x3,...,xm}\{x_1,x_2,x_3,...,x_m \}e−λxe−λxe^{-\lambda x}i&lt;ji&lt;ji < jxi≤xjxi≤xjx_i \leq x_jλλ\lambda{x1,x2,x3,...,xn}{x1,x2,x3,...,xn}\{x_1,x_2,x_3,...,x_n\}n&lt;mn&lt;mn < m どうもありがとう! マイケル

3
SPSSを使用した2x3混合設計ANOVAの事後テスト?
実験中に3回評価された10人の参加者の2つのグループがあります。グループ間および3つの評価全体の違いをテストするために、group(コントロール、実験)、time(最初、2、3)、およびを使用して2x3混合設計ANOVAを実行しましたgroup x time。両方timeとgroup有意な相互作用があったほか、重大な結果group x time。 グループメンバーシップに関しても、3回の評価の違いをさらにチェックする方法をよく知りません。実際、最初は、ANOVAのオプションで、ボンフェローニの補正を使用してすべての主要な効果を比較することだけを指定しました。しかし、この方法で、グループを区別せずに、サンプル全体の時間の違いをこのように比較したことに気付きましたね。 したがって、可能な解決策を見つけるためにインターネットでたくさん検索しましたが、結果はほとんどありませんでした。私と同じようなケースは2つしか見つかりませんでしたが、解決策は逆です! 記事では、混合設計の後、著者らは被験者ごとに1つずつ、2回の反復測定ANOVAを事後的に実行しました。このようにして、2つのグループは修正なしで個別に分析されます。 インターネットのガイドでは、混合ANOVAの実行中に、SPSS構文のCOMPARE(time) ADJ(BONFERRONI)直後にを手動で追加すると述べています/EMMEANS=TABLES(newgroup*time)。このように、3つの時間はグループごとに個別に比較されます。ボンフェローニ補正を使用すると、私は正しいのでしょうか。 どう思いますか?どちらが正しい方法でしょうか?
8 anova  mixed-model  spss  post-hoc  bonferroni  time-series  unevenly-spaced-time-series  classification  normal-distribution  discriminant-analysis  probability  normal-distribution  estimation  sampling  classification  svm  terminology  pivot-table  random-generation  self-study  estimation  sampling  estimation  categorical-data  maximum-likelihood  excel  least-squares  instrumental-variables  2sls  total-least-squares  correlation  self-study  variance  unbiased-estimator  bayesian  mixed-model  ancova  statistical-significance  references  p-value  fishers-exact  probability  monte-carlo  particle-filter  logistic  predictive-models  modeling  interaction  survey  hypothesis-testing  multiple-regression  regression  variance  data-transformation  residuals  minitab  r  time-series  forecasting  arima  garch  correlation  estimation  least-squares  bias  pca  predictive-models  genetics  sem  partial-least-squares  nonparametric  ordinal-data  wilcoxon-mann-whitney  bonferroni  wilcoxon-signed-rank  traminer  regression  econometrics  standard-error  robust  misspecification  r  probability  logistic  generalized-linear-model  r-squared  effect-size  gee  ordered-logit  bayesian  classification  svm  kernel-trick  nonlinear  bayesian  pca  dimensionality-reduction  eigenvalues  probability  distributions  mathematical-statistics  estimation  nonparametric  kernel-smoothing  expected-value  filter  mse  time-series  correlation  data-visualization  clustering  estimation  predictive-models  recommender-system  sparse  hypothesis-testing  data-transformation  parametric  probability  summations  correlation  pearson-r  spearman-rho  bayesian  replicability  dimensionality-reduction  discriminant-analysis  outliers  weka 

1
パラメータの問題の特定
私は常に計量経済学における同定の本質を理解するのに苦労しています。パラメータ(たとえば、)は、その(結合)分布を見るだけでパラメータの値を推測できる場合に識別できると述べています。単純な場合には、ここで、、我々はその状態でき、我々がその分散ことがわかっている場合に同定される。しかし、でが不明なパラメータではどうでしょうか。とを識別できますか? Y=B1X+UE[U]=0、E[U| X]=0、B1、VR( B)&gt;0E[U| X]=B1θ^θ^\hat{\theta}y=b1X+uy=b1X+uy=b_1X+uE[ u ] = 0 、E[ u | x ] = 0E[u]=0,E[u|x]=0E[u]=0,E[u|x]=0b1b1b_1Va r (b^)&gt; 0Var(b^)&gt;0Var(\hat{b})>0E[ u | バツ] = aE[u|X]=aE[u|X]=aaaaaaab1b1b_1 モデルを(および)に展開して、b_1、b_2、b_3が識別されていることを示す場合は、次のようにします。 3つのパラメーターすべての分散がゼロより大きいことを簡単に述べる必要がありますか?D ∈ { 0 、1 } E [ U | X 、D ] = 0 b 1、b 2、b 3Y= b0+ b1バツ+ b2バツD = uY=b0+b1X+b2XD=uY=b_0+b_1X+b_2XD=uD ∈ …

2
小さな確率と大きなサンプルで計算する方法は?
大きなサンプルで1回発生する可能性が非常に低い確率、つまり確率がマシンエラーよりも小さい状況で、確率を計算または概算することはできますか? たとえば、誰かが私のゲノムを共有するおおよその可能性を計算しようとしていました。どうやら、個々のゲノムはロスレスで約4MB(2 ^ 25ビット)に圧縮できます。したがって、地球上の約70億人の人間が私のゲノムを共有する可能性は、およそ次のとおりです。 (1−12225)(7×109)(1−12225)(7×109)(1-\frac{1}{2^{2^{25}}})^{(7\times10^9)}。 または、誕生日問題の方法を使用して、同一のゲノムを持つ双子が少なくとも2人いる可能性(双子を無視するなど)は次のようなものです。 (7×109)!⋅(22257×109)(2225)(7×109)(7×109)!⋅(22257×109)(2225)(7×109)\frac{(7\times10^9)!\cdot{{2^{2^{25}}} \choose 7\times10^9}}{({2^{2^{25}})}^{(7\times10^9)}} ここでの問題は、数値が非常に小さいかまたは非常に大きいため、それらがどこにあるかを大まかに推測することが不可能であることです。それで、これらまたは同様の計算を概算する方法はありますか? 場合によっては、問題の背後にある仮定が何桁も外れていることもありますが、「そうである可能性が高い」に近似できることさえ興味深いでしょう。

1
ポアソン分布のロバストな推定
ポアソン分布からのものであると想定される一連の数値があります。セットにはいくつかの外れ値もあり、そのため、最尤推定値は悪影響を受けます。このような状況では、堅牢な推定手順が役立つと聞きました。誰でもこれを行う方法を説明できますか?私は統計学の学生ではありません。 glmrobR の関数がこれに使用できることがわかりました。(私はRにかなり新しいです)。しかし、マニュアルページを読んだにもかかわらず、それをどのように使用するのか理解できませんでした。特にforumula、glmrob関数の最初の引数であるaを取得する方法を理解できません。 ありがとう。

1
ベイジアン対最大エントロピー
推論したい量が確率分布であると仮定します。私たちが知っているのは、分布が、たとえばその瞬間のいくつかによって決定された集合からのものであり、以前のです。EEEQQQ 最大エントロピー原理(MEP)は、からの相対的エントロピーが最も少ない(つまり、)は選択するのに最適です。一方、ベイズの選択規則には、ベイズの定理によってサポートされている事前分布を考慮して事後を選択するプロセスがあります。P⋆∈EP⋆∈EP^{\star}\in EQQQP⋆=argminP∈ED(P∥Q)P⋆=argminP∈ED(P‖Q)P^{\star}=\displaystyle \text{argmin}_{P\in E}D(P\|Q) 私の質問は、これら2つの推論方法の間に関係があるかどうか(つまり、2つの方法が同じ問題に適用され、共通点があるかどうか)です。または、ベイジアン推論での設定が上記の設定と完全に異なるかどうか。それとも意味がありませんか?!

3
Aのサブセットをランダムにサンプリングして、セットAのサブセットXのサイズを推定できますか?
してみましょう有限集合であると我々はいくつかのサブセットの大きさを計算したいと。XあAAバツXX 動機:要素をランダムに均一に生成できる場合、ランダムサンプリングによってのサイズを推定できます。それは我々が取る、あるから無作為標本を場合、彼らの所属する、その後、。残念ながら、私が行うことについては、通常巨大で(大規模であるが)に関してはかなり小さい 。したがって、上記の推定を実行しようとすると、になる可能性がありますこれは、役に立たないわけではありませんが、実際にはそれほど満足できるものではありません。A A n A m X | X | / | A | ≈ M / N | A | | X | | A | m = 0バツxxあAAあAAんnnあAAメートルmmバツXX| バツ| / | A | ≈M / N|X|/|A|≈m/n|X|/|A| \approx m/n| A ||A||A|| バツ||X||X|| A ||A||A|m = 0m=0m=0 だから、私はこのプロセスをスピードアップしたいと思っています。大規模なダーツボードでダーツを投げる代わりに、なぜボールを投げないのですか?それは代わりに要素をサンプリングする、あるの、我々のサンプル部分集合。確かに私は、密度について何かを推測することができるはずでこの実験から。A X …

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.