タグ付けされた質問 「inference」

サンプルデータから母集団パラメーターに関する結論を導き出す。https://en.wikipedia.org/wiki/Inferenceおよびhttps://en.wikipedia.org/wiki/Statistical_inferenceを参照してください

1
リグレッサの条件付けと修正済みとして扱うことの違いは何ですか?
時々、リグレッサは固定されている、すなわち非確率的であると仮定します。それは私たちのすべての予測因子、パラメーター推定値などが無条件であることを意味すると思いますよね?私は、それらがもはやランダム変数ではないほど遠くまで行くかもしれませんか? 一方、経済学のほとんどのリグレッサは確率的であると私たちが受け入れる場合、外部の力が何らかの実験を考慮してそれらを決定しなかったためです。その後、計量経済学者はこれらの確率論的リグレッサを条件付けます。 これを修正済みとして扱うのとどう違うのですか? 私は条件付けが何であるかを理解しています。数学的には、それは我々が上のすべての観測と推論条件付きにする意味その説明変数の特定のセットを、私たちは私たちの説明変数(ようになっているの異なる実現を見ていた推論、パラメータ推定値、分散推定値などが同じであったであろうことを言っても野心を持っていません時系列の要点。各時系列は一度だけ表示されます)。 ただし、固定リグレッサと確率リグレッサの条件付けの違いを本当に理解するために、ここで誰かが、固定リグレッサなどに有効であるが確率的であるときに故障する推定または推論手順の例を知っているかどうか疑問に思っています(そして条件付けられる)。 それらの例を楽しみにしています!

1
十分性または不十分性
ランダムサンプル検討Xはiは IIDである BのEのRがN 、O 、U 、L L I (P )の確率変数P ∈ (0 、1 )。T (X )= X 1 + 2 X 2 + X 3がpの十分な統計であるかどうかを確認し ます。{ X1、X2、X3}{X1,X2,X3}\{X_1,X_2,X_3\}バツ私XiX_iB Eのr個のN 、O 、U 、L L I (P )Bernoulli(p)Bernoulli(p)P ∈ (0 、1 )p∈(0,1)p\in(0,1)T(X)= X1+ 2 X2+ X3T(X)=X1+2X2+X3T(X)=X_1+2X_2+X_3ppp まず、の分布をどのように見つけることができますか?または、それをX 1 + X 2 + X …

1
変換の下で観察されたフィッシャー情報
:Y. Pawitanによって"オール尤度尤度を使用して統計的モデリングと推論"、再パラメータ化の可能性として定義される L *(ψ )= 最大{ θ :G (θ )= ψ } L (θ ) したがって、gが1対1の場合、L ∗(ψ )= L (g − 1(ψ )θ ↦ グラム(θ )= ψθ↦g(θ)=ψ\theta\mapsto g(\theta)=\psiL∗(ψ )= 最大{ θ :g(θ )= ψ }L (θ )L∗(ψ)=max{θ:g(θ)=ψ}L(θ) L^*(\psi)=\max_{\{\theta:g(\theta)=\psi\}} L(\theta) gggL∗(ψ )= L (g− 1(ψ ))L∗(ψ)=L(g−1(ψ))L^*(\psi)=L(g^{-1}(\psi))(p。45)。私があればと述べたエクササイズ2.20を表示しようとしていますスカラーである(と私は推測gは、同様のスカラ関数であると考えられる)、その後、 私は*(G (θ))= I (θ)| ∂ …

4
(相互作用)マルチモーダル後部用MCMC
MCMCを使用して、特に互いに離れている多くのモードを持つ事後からサンプリングしようとしています。ほとんどの場合、これらのモードの1つだけが私が探している95%のhpdを含んでいるようです。調整されたシミュレーションに基づいてソリューションを実装しようとしましたが、実際にはある「キャプチャ範囲」から別の「キャプチャ範囲」に移行するとコストがかかるため、満足のいく結果が得られません。 結果として、より効率的なソリューションは、さまざまな開始点から多くの単純なMCMCを実行し、MCMCを相互に作用させることによって主要なソリューションに飛び込むことだと私には思われます。そのようなアイデアを実装する適切な方法があるかどうかを知っていますか? 注:私が探しているものに近いように見える紙http://lccc.eecs.berkeley.edu/Papers/dmcmc_short.pdf(分散型マルコフチェーンモンテカルロ、ローレンスマレー)を見つけましたが、デザインが本当にわかりません関数。RiRiR_i [編集]:回答の欠如は、私の最初の問題に対する明確な解決策がないことを示しているようです(異なる開始点からの同じターゲット分布からサンプリングする複数のMCMCが互いに相互作用します)。本当 ?なぜそんなに複雑なのですか?ありがとう

1
観測されたイベントと期待されたイベントを比較する方法は?
4つの可能なイベントの頻度の1つのサンプルがあるとします。 Event1 - 5 E2 - 1 E3 - 0 E4 - 12 そして、私は自分のイベントの発生が予想される確率を持っています: p1 - 0.2 p2 - 0.1 p3 - 0.1 p4 - 0.6 4つのイベントの観測頻度の合計(18)を使用して、イベントの予想頻度を計算できますか? expectedE1 - 18 * 0.2 = 3.6 expectedE2 - 18 * 0.1 = 1.8 expectedE1 - 18 * 0.1 = 1.8 expectedE1 - …
9 r  statistical-significance  chi-squared  multivariate-analysis  exponential  joint-distribution  statistical-significance  self-study  standard-deviation  probability  normal-distribution  spss  interpretation  assumptions  cox-model  reporting  cox-model  statistical-significance  reliability  method-comparison  classification  boosting  ensemble  adaboost  confidence-interval  cross-validation  prediction  prediction-interval  regression  machine-learning  svm  regularization  regression  sampling  survey  probit  matlab  feature-selection  information-theory  mutual-information  time-series  forecasting  simulation  classification  boosting  ensemble  adaboost  normal-distribution  multivariate-analysis  covariance  gini  clustering  text-mining  distance-functions  information-retrieval  similarities  regression  logistic  stata  group-differences  r  anova  confidence-interval  repeated-measures  r  logistic  lme4-nlme  inference  fiducial  kalman-filter  classification  discriminant-analysis  linear-algebra  computing  statistical-significance  time-series  panel-data  missing-data  uncertainty  probability  multivariate-analysis  r  classification  spss  k-means  discriminant-analysis  poisson-distribution  average  r  random-forest  importance  probability  conditional-probability  distributions  standard-deviation  time-series  machine-learning  online  forecasting  r  pca  dataset  data-visualization  bayes  distributions  mathematical-statistics  degrees-of-freedom 

2
データのROC曲線を計算する
そのため、ハミング距離を使用して生体認証特性から個人を認証しようとしている16のトライアルがあります。しきい値は3.5に設定されています。私のデータは以下であり、トライアル1のみが真陽性です。 Trial Hamming Distance 1 0.34 2 0.37 3 0.34 4 0.29 5 0.55 6 0.47 7 0.47 8 0.32 9 0.39 10 0.45 11 0.42 12 0.37 13 0.66 14 0.39 15 0.44 16 0.39 私の混乱のポイントは、このデータからROC曲線(FPR対TPR OR FAR対FRR)を作成する方法が本当にわからないということです。どちらでもかまいませんが、どうやって計算するのか混乱しています。任意の助けいただければ幸いです。
9 mathematical-statistics  roc  classification  cross-validation  pac-learning  r  anova  survival  hazard  machine-learning  data-mining  hypothesis-testing  regression  random-variable  non-independent  normal-distribution  approximation  central-limit-theorem  interpolation  splines  distributions  kernel-smoothing  r  data-visualization  ggplot2  distributions  binomial  random-variable  poisson-distribution  simulation  kalman-filter  regression  lasso  regularization  lme4-nlme  model-selection  aic  r  mcmc  dlm  particle-filter  r  panel-data  multilevel-analysis  model-selection  entropy  graphical-model  r  distributions  quantiles  qq-plot  svm  matlab  regression  lasso  regularization  entropy  inference  r  distributions  dataset  algorithms  matrix-decomposition  regression  modeling  interaction  regularization  expected-value  exponential  gamma-distribution  mcmc  gibbs  probability  self-study  normality-assumption  naive-bayes  bayes-optimal-classifier  standard-deviation  classification  optimization  control-chart  engineering-statistics  regression  lasso  regularization  regression  references  lasso  regularization  elastic-net  r  distributions  aggregation  clustering  algorithms  regression  correlation  modeling  distributions  time-series  standard-deviation  goodness-of-fit  hypothesis-testing  statistical-significance  sample  binary-data  estimation  random-variable  interpolation  distributions  probability  chi-squared  predictor  outliers  regression  modeling  interaction 

2
内の完全な統計
統計が完了しているかどうかを知りたい以下のためのにおけるの設定。 σ2N(μ、σ2)T(X1,…,Xn)=∑ni=1(Xi−X¯n)2n−1T(X1,…,Xn)=∑i=1n(Xi−X¯n)2n−1T(X_1,\ldots,X_n)=\frac{\sum_{i=1}^n (X_i-\bar{X}_n)^2}{n-1}σ2σ2\sigma^2N(μ 、σ2)N(μ,σ2)N(\mu,\sigma^2) これは、が以前に知られているかどうかに依存しますか?がに対して完全である場合、Lehmann-SchefféによってUMVUEになります。しかし、がわかっている場合は、と見なすことができその分散はCramer-Raoはにバインドされており、厳密に未満であるため、 UMVUEにすることはできません。T σ 2μμ\muTTTσ2σ2\sigma^2W (X 1、... 、XのN)= Σ N I = 1(X I - μ )2μμ\mu2σ4/N2σ4/(N-1)=Varの[T]TW(X1、… 、Xん)= ∑んi = 1(X私- μ )2ん、W(X1,…,Xn)=∑i=1n(Xi−μ)2n,W(X_1,\ldots,X_n)=\frac{\sum_{i=1}^n (X_i-\mu)^2}{n},2つのσ4/ n2σ4/n2\sigma^4/n2つのσ4/(n−1)=Var[T]2σ4/(n−1)=Var[T]2\sigma^4/(n-1)=\text{Var}[T]TTT

1
限界尤度を推定するのが難しい/扱いにくいのはなぜですか?
私がここで尋ねる一般的に基本的な質問がありますが、これはしばらくの間私を悩ませてきました。私がベイジアン統計を読んだことのほとんどを通して、それは事実上、限界尤度はしばしば扱いにくいか、推定することが難しいと述べました。どうして? しばしば述べられる理由には、推定される積分/総和の高次元の性質に関するステートメント、または可能なモデルの領域が無限であるというステートメントが含まれます。 このコミュニティに、理由を掘り下げ、この問題を簡単な言葉で説明することをお願いします。 リソースへのリンクもいただければ幸いです。これを明確に説明するリソースを探すために用語をグーグルで検索しましたが、それらのほとんどは説明なしで問題を述べているだけです。また、機械学習の本のパターン認識とケビンマーフィーの機械学習の本も持っています。私はこれらのテキストの説明に満足していないので、明確でシンプルなものを探しています。

1
十分な統計を完了する
最近、統計的推論の研究を始めました。私はさまざまな問題に取り組んできましたが、これは完全に困惑しています。 ましょうX1,…,XnX1,…,XnX_1,\dots,X_nその確率で割り当てる離散分布からのランダムサンプルである1313\frac{1}{3}値はθ−1, θ, or θ+1θ−1, θ, or θ+1\theta-1,\space\theta,\space\text{or}\space\theta+1、θθ\theta整数です。完全に十分な統計が存在しないことを示します。 何か案は?

2
漸近推論(大標本理論)における最近の研究と研究範囲は何ですか?
漸近推論/大標本理論の分野で行われている現在の重要な理論的研究は何ですか?現在、この分野の研究範囲はどのようなものですか?理論が最近発展している未解決の問題または特定の領域はありますか?それとも、さらなる発展の余地のない死んだ主題なのでしょうか? だれかが私の質問に答えたり、検索できるソース/リファレンスを提供したりできるとありがたいです。

2
純粋なベイジアンフレームワークの下で、事前知識はどのようにして可能ですか?
これはより哲学的な質問ですが、純粋なベイズの観点から、実際にどのようにして事前知識を形成するのでしょうか。有効な推論を実行するために事前情報が必要な場合、今日の事前情報を正当化する際に過去の経験に訴える必要がある場合、問題があるようです。昨日の結論がどのように有効であったかについては、同じ質問が残っているようです。知識が必要ないところでは、一種の無限回帰が続いているようです。これは、最終的に以前の情報が任意の方法で、またはおそらく「より頻繁な」推論のスタイルに基づいて仮定されなければならないことを意味しますか?

2
サンプル間の主成分分解を比較するためのテスト/手法/方法はありますか?
同じ母集団から抽出された異なるサンプルのPCA結果の方向、大きさなどを比較する方法論的な方法はありますか? さまざまな可能性をすべて聞きたいので、テストの性質を故意に曖昧にしておきます...たとえば、最初の主成分のサイズを比較するテスト(または、ここで推測している)があるかもしれません。主成分の方向を比較するテスト、またはPCAの結果とそれらが等しいかどうかの検定統計量の間に何らかの距離測定があります。 ユースケースに関する限り、私は心に留めていません。好奇心から、おそらく探索的手法として。

1
情報がない事前分布の選択
モデルの一部でキャリブレーション関数として機能する醜いパラメーター化された関数に依存するモデルに取り組んでいます。ベイジアン設定を使用して、関数を説明するパラメーターについて、情報を提供しない事前情報を取得する必要があります。理想的には、参照または少なくともジェフリーズ事前分布を導出する必要があることを知っていますが、関数は非常に醜く、多くのパラメーターがあり、実際に結果を得る可能性について悲観的です。それで、私はこの可能性を落とし、彼らが非常に有益でないようにそれらを詮索する私の前の経験的に経験的に選ぶことにしました。これが私の2つの質問です。 詮索好き以上のものを作って、推論結果から彼らの非情報性について洞察を与えることはできますか?編集:事後Vs以前のプロットが最初のポイントになると思います。たぶん、MAPとMLの推定値を比較することは、2番目の引数かもしれません。 さらに、それは「次元分析」からの選択のいくつかの側面を正当化するのに意味がありますか?例として、私は(簡単な回帰設定で)形の可能性の構造を考慮した場合: DOは、あなたは、私が上で事前のための任意の「構造」を推測することができると思いますし、B 1が重さという事実に基づいて、Xを、他方の重さE のx?Y|a,b,x=a.x+b.e−x+ϵY|a,b,x=a.x+b.e−x+ϵ Y | a,b,x = a.x+b.e^{-x} + \epsilon aaabbbxxxexexe^x

1
ベーレンス・フィッシャー問題を理解する
この記事のこのセクションは言う: 1935年にロナルドフィッシャーは、この問題に適用するために基準推論を導入しました。彼は1929年のWV Behrensによる以前の論文を参照しました。Behrensとフィッシャーはの確率分布を見つけることを提案しました どこと 2つのサンプル手段であり、とその標準偏差です。[。。。]フィッシャーは、標準偏差の相対サイズのランダムな変化無視することにより、この分布を近似しました T≡x¯1−x¯2s21/n1+s22/n2−−−−−−−−−−−√T≡x¯1−x¯2s12/n1+s22/n2 T \equiv {\bar x_1 - \bar x_2 \over \sqrt{s_1^2/n_1 + s_2^2/n_2}}x¯1x¯1\bar x_1x¯2x¯2\bar x_2s1s1s_1s2s2s_2s1/n1−−√s21/n1+s22/n2−−−−−−−−−−−√.s1/n1s12/n1+s22/n2. {s_1 / \sqrt{n_1} \over \sqrt{s_1^2/n_1 + s_2^2/n_2}}. 私はこれを信じるのが嫌です。(したがって、ウィキペディアは間違いです!)次の2週間のある時点で、フィッシャーとベーレンスとバートレットが1930年代にこれについて書いたことを読みます。今のところ、私はフィッシャーの本「統計的方法と科学的推論」を見ています。エドウィン・ジェインズと同じように、彼がたまにばかだったという事実は、彼が偉大な天才であったという事実を決して変えないという印象を受けていますが、彼は常にコミュニケーションに最適な方法で自分を表現したわけではありませんより少ない死すべき者。97ページで、フィッシャーはバートレットについて次のように書いています。 [...]参照セット[...]は、s_1 / s_2の比率s1/s2s1/s2s_1/s_2が観測されたサブセットに限定されていませんが、MSバートレットによって熱心に押収され、あたかもそれが有意性のテストの欠陥であるかのように複合的な仮説、特別なケースでは、拒絶の基準は他の場合よりも偶然に達成される頻度が低いということです。反射に関して、私は他に何も期待するべきではないと思います、[...] したがって、フィッシャーは比率s_1 / s_2の「ランダムな変動」s1/s2s1/s2s_1/s_2を近似の手段として「無視」するつもりはなかったように見えますが、むしろ、彼はs_1 / s_2を条件とすべきだと考えましたs1/s2s1/s2s_1/s_2。これは、フィッシャーが他の状況でうまく使用した「補助統計量の条件付け」のように見えます。 私が正しくリコール私はこれについて読んだとき、私は最初のバートレットのことを聞いた統計学の百科事典バートレットが基準間隔が基準間隔ことを示すことによって、信頼区間と同じものではないことを初めて示したことを単に述べ、フィッシャーがこの問題で導き出したそれは一定のカバー率を持っていませんでした。その発言は、これについていくつかの論争があったという印象を私に残しませんでした。 だからここに私の質問です:どちらが真実に近いですか:ウィキペディアの記事か私の疑い? フィッシャー、RA(1935)「統計的推論におけるフィデューシャル引数」、Annals of Eugenics、8、391〜398。

3
混合モデルとディリクレプロセス混合(初級講義または論文)
オンラインクラスタリングのコンテキストでは、「ディリクレプロセス」や「有限/無限混合モデル」など、多くの論文が頻繁に出てきます。 私がディリクレ過程や混合モデルについて一度も使用したり読んだりしていないことを考えると。そのことについて、わかりやすい導入講義や論文の提案を知っていますか?

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.