タグ付けされた質問 「inference」

サンプルデータから母集団パラメーターに関する結論を導き出す。https://en.wikipedia.org/wiki/Inferenceおよびhttps://en.wikipedia.org/wiki/Statistical_inferenceを参照してください

3
ベイジアンANOVAとRの回帰はどのように行いますか?[閉まっている]
閉まっている。この質問はトピック外です。現在、回答を受け付けていません。 この質問を改善したいですか? 質問を更新して、相互検証のトピックになるようにします。 2年前に閉店。 私は、1つの独立変数、1つの従属変数、およびカテゴリ変数で構成されるかなり単純なデータセットを持っています。私のようなfrequentistテストを実行している経験をたくさん持っているaov()とlm()、私はR.で自分のベイズ同等物を実行する方法を見つけ出すことはできません 最初の2つの変数に対してベイジアン線形回帰を実行し、分類としてカテゴリ変数を使用してベイジアン分散分析を実行したいのですが、Rでこれを行う方法について簡単な例を見つけることはできません。どちらも?さらに、ベイジアン分析によって作成された出力統計は正確に何であり、何を表していますか? 私は統計にあまり精通していませんが、コンセンサスはp値で基本的なテストを使用することはやや見当違いであると考えられているようであり、私はそれを維持しようとしています。よろしく。

2
ベイジアン分析に最適なソフトウェアパッケージ
ベイジアン推論を実行するために、どのソフトウェア統計パッケージをお勧めしますか? たとえば、openBUGSまたはwinBUGSをスタンドアロンとして実行したり、Rから呼び出すこともできます。しかし、Rにはベイジアン分析を実行できる独自のパッケージ(MCMCPack、BACCO)がいくつかあります。 Rのどのベイジアン統計パッケージが最適であるか、または他の選択肢(MatlabまたはMathematica?)についての提案はありますか? 比較したい主な機能は、パフォーマンス、使いやすさ、安定性、柔軟性です

3
マルコフ連鎖モンテカルロ(MCMC)のさまざまなアプリケーションに関する良い要約(レビュー、書籍)?
マルコフ連鎖モンテカルロ(MCMC)のさまざまなアプリケーションに関する良い要約(レビュー、書籍)はありますか? 実践ではマルコフ連鎖モンテカルロを見ましたが、この本は少し古いようです。 マシンラーニング、コンピュータービジョン、計算生物学などの分野におけるMCMCのさまざまなアプリケーションに関する最新の本はありますか?

2
パラメータの推定可能性に関する問題
レッツと、このような、4つのランダム変数である、ここでは不明なパラメーターです。また、、と仮定し次に、どれが本当ですか?Y1,Y2,Y3Y1,Y2,Y3Y_1,Y_2,Y_3Y4Y4Y_4E(Y1)=θ1−θ3; E(Y2)=θ1+θ2−θ3; E(Y3)=θ1−θ3; E(Y4)=θ1−θ2−θ3E(Y1)=θ1−θ3; E(Y2)=θ1+θ2−θ3; E(Y3)=θ1−θ3; E(Y4)=θ1−θ2−θ3E(Y_1)=\theta_1-\theta_3;\space\space E(Y_2)=\theta_1+\theta_2-\theta_3;\space\space E(Y_3)=\theta_1-\theta_3;\space\space E(Y_4)=\theta_1-\theta_2-\theta_3θ1,θ2,θ3θ1,θ2,θ3\theta_1,\theta_2,\theta_3Var(Yi)=σ2Var(Yi)=σ2Var(Y_i)=\sigma^2i=1,2,3,4.i=1,2,3,4.i=1,2,3,4. A.は推定可能です。θ1,θ2,θ3θ1,θ2,θ3\theta_1,\theta_2,\theta_3 B.は推定可能です。θ1+θ3θ1+θ3\theta_1+\theta_3 C.は推定可能であり、は最良の線形不偏推定値です。θ1−θ3θ1−θ3\theta_1-\theta_312(Y1+Y3)12(Y1+Y3)\dfrac{1}{2}(Y_1+Y_3)θ1−θ3θ1−θ3\theta_1-\theta_3 D.は推定可能です。θ2θ2\theta_2 答えはCです。これは私には奇妙に見えます(Dを取得したため)。 なぜ私はDを得たのですか?以来、。E(Y2−Y4)=2θ2E(Y2−Y4)=2θ2E(Y_2-Y_4)=2\theta_2 Cが答えだと理解できないのはなぜですか?わかりました、は不偏推定量であり、その分散は未満です。Y1+Y2+Y3+Y44Y1+Y2+Y3+Y44\dfrac{Y_1+Y_2+Y_3+Y_4}{4}θ1−θ3θ1−θ3\theta_1-\theta_3Y1+Y32Y1+Y32\dfrac{Y_1+Y_3}{2} どこが間違っているのか教えてください。 こちらにも投稿されています:https : //math.stackexchange.com/questions/2568894/a-problem-on-estimability-of-parameters

1
頻繁な条件付き推論はまだ実際に使用されていますか?
私は最近、ナンシー・リード、バーンドルフ・ニールセン、リチャード・コックス、そしてはい、頻度論的パラダイムにおける「条件付き推論」の概念に関する小さなロナルド・フィッシャーによるいくつかの古い論文をレビューしました。サンプルスペース全体ではなく、サンプルスペースの「関連サブセット」。 重要な例として、サンプルの変動係数(補助統計と呼ばれる)も考慮すると、t統計に基づく信頼区間を改善できることが知られています(Goutis&Casella、1992)。 尤度ベースの推論を定期的に使用する人として、漸近%-confidence interval を形成するとき、尤度は観測されたサンプルに条件があるため、(近似)条件推論を実行していると想定しました。αα\alpha 私の質問は、条件付きロジスティック回帰とは別に、推論の前に補助統計を条件付けするという考え方をあまり利用していないということです。このタイプの推論は指数関数族に制限されていますか、それとも最近では別の名前で行われているので、制限されているように見えます。 最近の記事(Spanos、2011年)を見つけましたが、条件付き推論(つまり、無秩序性)によるアプローチに深刻な疑問を投げかけているようです。代わりに、「不規則な」場合(分布のサポートがパラメーターによって決定される)のパラメトリック推論は、通常の無条件のサンプリング分布を切り捨てることによって解決できるという、非常に賢明で数学的に複雑でない提案を提案します。 Fraser(2004)は条件性をうまく防御しましたが、複雑なケースに条件付き推論を実際に適用するには、ほんの少しの運と工夫以上のものが必要であるという感覚が残っています...カイ2乗を呼び出すよりも確かに複雑です「近似」条件付き推論の尤度比統計の近似。 ウェールズ(2011年、163ページ)が私の質問(3.9.5、3.9.6)に答えたかもしれません。 彼らは、どの「関連サブセット」が最も関連性があるのか​​という質問を頼み、複数の補助的な統計値が存在する可能性があるというBasuのよく知られている結果(Basuの定理)を指摘しています。さらに悪いことに、一意の補助統計がある場合でも、他の関連サブセットの存在を排除しない2つの例を示しています。 彼らは、ベイジアンメソッド(またはそれらに相当するメソッド)のみがこの問題を回避でき、問題のない条件推論を可能にすると結論付けています。 参照: グーティス、コンスタンチノス、ジョージカセラ。「スチューデントの間隔の信頼性を高める。」ttt 統計学年報(1992):1501-1513。 スパノス、アリス。「Welch Uniform Modelの再考:条件付き推論のケース?」 統計科学の進歩と応用 5(2011):33-52。 フレーザー、DAS 「付属物と条件付き推論」。 統計科学 19.2(2004):333-369。 ウェールズ、アランH. 統計的推論の側面。巻 916.ジョンワイリー&サンズ、2011年。

3
なぜのトレース
モデルではy=Xβ+ϵy=Xβ+ϵ{y} = X \beta + \epsilon、我々は推定できたββ\beta正規方程式を使用して: β^=(X′X)−1X′y,β^=(X′X)−1X′y,\hat{\beta} = (X'X)^{-1}X'y,我々は得ることができ、Y =X βを。y^=Xβ^.y^=Xβ^.\hat{y} = X \hat{\beta}. 残差のベクトルは、 ϵ^=y−Xβ^=(I−X(X′X)−1X′)y=Qy=Q(Xβ+ϵ)=Qϵ,ϵ^=y−Xβ^=(I−X(X′X)−1X′)y=Qy=Q(Xβ+ϵ)=Qϵ,\hat{\epsilon} = y - X \hat{\beta} = (I - X (X'X)^{-1} X') y = Q y = Q (X \beta + \epsilon) = Q \epsilon, ここで、Q=I−X(X′X)−1X′.Q=I−X(X′X)−1X′.Q = I - X (X'X)^{-1} X'. 私の質問は、tr(Q )= n …

1
観測値が独立していない場合の無効な推論
基本的な統計では、一般的な線形モデルでは、推論が有効であるためには、観測は独立している必要があることを学びました。クラスタリングが発生すると、それが考慮されない限り、独立性が無効な推論につながる可能性がなくなります。このようなクラスタリングを説明する1つの方法は、混合モデルを使用することです。シミュレートされているかどうかにかかわらず、これを明確に示すサンプルデータセットを見つけたいと思います。クラスター化されたデータを分析するために、UCLAサイトのサンプルデータセットの1つを使用してみました > require(foreign) > require(lme4) > dt <- read.dta("http://www.ats.ucla.edu/stat/stata/seminars/svy_stata_intro/srs.dta") > m1 <- lm(api00~growth+emer+yr_rnd, data=dt) > summary(m1) Coefficients: Estimate Std. Error t value Pr(>|t|) (Intercept) 740.3981 11.5522 64.092 <2e-16 *** growth -0.1027 0.2112 -0.486 0.6271 emer -5.4449 0.5395 -10.092 <2e-16 *** yr_rnd -51.0757 19.9136 -2.565 0.0108 * > m2 <- lmer(api00~growth+emer+yr_rnd+(1|dnum), …

2
一貫性のない最尤推定量の例
私は論文へのコメントを読んでおり、著者は、推定量(MLまたは最大準尤度によって検出された)が一貫していない場合でも、尤度比または準尤度比検定の力はまだ収束する可能性があると述べています1観測されたデータの数が無限になる傾向があるため(テストの一貫性)。これはいつどのように起こりますか?いくつかの参考文献を知っていますか?


1
尤度比とベイジアンモデル比較は、帰無仮説検定の優れた十分な代替手段を提供しますか?
科学のための帰無仮説検定(NHT)の累積的な試みとしての有用性を批判する統計学者や研究者の増加に対応して、統計的推論に関する米国心理学会タスクフォースはNHTの全面禁止を回避しましたが、代わりに研究者に提案しましたNHTから導出されたp値に加えて、効果サイズを報告します。 ただし、効果の大きさは研究間で簡単に蓄積されません。メタ分析アプローチは効果サイズの分布を蓄積できますが、通常、効果サイズは生の効果の大きさと特定の実験のデータにおける説明のつかない「ノイズ」の比として計算されます。つまり、効果サイズの分布は研究間での影響の生の大きさのばらつきだけでなく、研究間でのノイズの発現のばらつきもあります。 対照的に、効果の強さ、尤度比の代替尺度は、研究ごとの直感的な解釈の両方を可能にし、メタ分析のために研究全体で簡単に集約することができます。各研究内で、尤度は、効果を含まないモデルに対する特定の効果を含むモデルの証拠の重みを表し、たとえば、「Xの効果の尤度比の計算その効果については、それぞれのヌルよりも8倍以上の証拠を明らかにしました」。さらに、尤度比は、1未満の尤度比がヌルが優先されるシナリオを表し、この値の逆数を取ることが効果に対するヌルの証拠の重みを表す限り、ヌルの結果の強さの直感的な表現も可能にします。特に、尤度比は、2つのモデルの説明されていない分散の比として数学的に表されます。これは、効果によって説明される分散のみが異なり、したがって効果サイズからの概念的な大きな逸脱ではありません。一方、研究全体の効果の証拠の重みを表すメタ分析尤度比の計算は、単に研究全体の尤度比の積をとる問題です。 したがって、効果/モデルに有利な大まかな証拠の程度を確立しようとする科学にとって、尤度比が道であると主張します。 効果の特定のサイズでのみモデルを微分できる微妙なケースがあります。その場合、データが効果パラメーター値と一貫していると思われる区間のある種の表現が好ましい場合があります。実際、APAタスクフォースは、この目的に使用できる信頼区間を報告することも推奨していますが、これも不適切なアプローチだと思います。 信頼区間は嘆かわしいほど誤解されることがよくあります(学生や研究者も同様)。また、CIにゼロを含めることによるNHTでの使用能力が、推論的慣行としてのNHTの絶滅をさらに遅らせるのに役立つことも恐れています。 代わりに、理論が効果のサイズによってのみ微分可能である場合、各効果の事前分布が各モデルによって個別に定義され、結果の事後分布が比較されるベイズのアプローチがより適切であることをお勧めします。 このアプローチは、p値、効果サイズ、信頼区間を尤度比に置き換え、必要に応じてベイジアンモデル比較で十分と思われますか?ここで悪用された代替手段が提供するいくつかの必要な推論機能を逃しますか?

2
統計、演習(ソリューションを含む)を学習するためのオンラインリソースですか?
私は現在、大学の指導助手として統計入門コース(医学生向け)で働いています。 オフラインでは、教師を支援するための情報を提供する多くの本があります。しかし、私が知りたいのは、オンラインで利用可能な統計の演習(ソリューションを含む)を提供する(良い)リソースに私を導くことができるかどうかです。(例:教師のメモ)。 主題の資料は、記述統計、確率、およびパラメトリック/ノンパラメトリック統計推論の間で変動します。

2
UMPがないときに拒否領域を定義する方法は?
線形回帰モデルを考えます 、y=Xβ+uy=Xβ+u\mathbf{y}=\mathbf{X\beta}+\mathbf{u} 、u∼N(0,σ2I)u∼N(0,σ2I)\mathbf{u}\sim N(\mathbf{0},\sigma^2\mathbf{I}) 。E(u∣X)=0E(u∣X)=0E(\mathbf{u}\mid\mathbf{X})=\mathbf{0} LET 対H 1:σ 2 0 ≠ σ 2H0:σ20=σ2H0:σ02=σ2H_0: \sigma_0^2=\sigma^2H1:σ20≠σ2H1:σ02≠σ2H_1: \sigma_0^2\neq\sigma^2。 私たちは、その推測することができここで、Diは、m個(X)=N×K。そしてMXはアニヒレーターマトリックスのための典型的な表記法であるMXY= Y、 yは従属変数であるYに回帰X。yTMXyσ2∼χ2(n−k)yTMXyσ2∼χ2(n−k)\frac{\mathbf{y}^T\mathbf{M_X}\mathbf{y}}{\sigma^2}\sim \chi^2(n-k)dim(X)=n×kdim(X)=n×kdim(\mathbf{X})=n\times kMXMX\mathbf{M_X}MXy=y^MXy=y^\mathbf{M_X}\mathbf{y}=\hat{\mathbf{y}}y^y^ \hat{\mathbf{y}}yy\mathbf{y}XX\mathbf{X} 私が読んでいる本は次のように述べています: 以前に、拒否領域(RR)を定義するためにどの基準を使用する必要があるかを尋ねました。 この質問た。主なものは、テストを可能な限り強力にするRRを選択することでした。 この場合、二者間複合仮説である代替案では、通常UMPテストはありません。また、本で与えられた答えによって、著者はRRの力の研究をしたかどうかを示しません。それにもかかわらず、彼らは両側RRを選択しました。なぜ仮説は「一方的に」RRを決定しないのですか? 編集:この画像は、演習4.14の解決策として本書の解決策マニュアルに記載されています。

2
95%信頼区間の式
Googleでstats.stackexchangeを検索しましたが、線形回帰のR2R2R^2値の95%信頼区間を計算する式が見つかりません。誰でも提供できますか? さらに良いことに、以下のRで線形回帰を実行したとしましょう。Rコードを使用して、R2R2R^2値の95%信頼区間をどのように計算しますか。 lm_mtcars <- lm(mpg ~ wt, mtcars)

5
MLEとMAPの推定、どちらを使用するか
MLE =最尤推定 MAP =事後最大 MLEは直感的で素朴です。つまり、パラメーター(つまり、尤度関数)が指定された観測の確率でのみ始まり、観測と最もよく一致するパラメーターを見つけようとします。ただし、事前の知識は考慮されていません。 MAPはベイズの法則による事前の知識を考慮に入れるため、より合理的です。 ここに関連する質問がありますが、答えは完全ではありません。 /signals/13174/differences-using-maximum-likelihood-or-maximum-a-posteriori-for-deconvolution-d したがって、MAPの方がはるかに優れていると思います。そうですか?そして、いつどちらを使用すればよいですか?

1
一般的に、推論を行うことは予測を行うことよりも困難ですか?
私の質問は次の事実から来ています。私は機械学習に関する投稿、ブログ、講義、および本を読んでいます。私の印象は、機械学習の実践者は統計学者/計量経済学が気にする多くのことに無関心であるように思われるということです。特に、機械学習の実践者は、推論よりも予測精度を重視しています。 そのような例の1つは、CourseraでAndrew Ngの機械学習を受けていたときに発生しました。彼は単純な線形モデルについて説明するとき、推定量のBLUEプロパティ、または不均一性がどのように信頼区間を「無効化」するかについては何も言及しませんでした。代わりに、彼は勾配降下法の実装と相互検証/ ROC曲線の概念に焦点を当てています。これらのトピックは私の計量経済学/統計学のクラスでは取り上げられていません。 もう1つの例は、カグルコンペティションに参加したときです。他の人のコードや考えを読んでいました。参加者の大部分は、すべてをSVM /ランダムフォレスト/ XGBoostに投入します。 さらに別の例は、段階的なモデル選択です。この手法は、少なくともオンラインとKaggleで広く使用されています。統計学習の紹介など、多くの古典的な機械学習の教科書でも取り上げています。ただし、この答え(かなり説得力のある)によると、ステップワイズモデルの選択は、特に「真のモデルを発見する」ことになると、多くの問題に直面します。可能性は2つしかないようです。機械学習の実践者が段階的に問題を認識していないか、問題を認識していても気にしていません。 だからここに私の質問があります: (一般的に)機械学習の実践者は予測に焦点を当てているため、統計学者/経済学者が気にする多くのことを気にしないのは本当ですか? それが本当なら、その背後にある理由は何ですか?推論はある意味で難しいからでしょうか。 機械学習(または予測)に関するオンラインの資料はたくさんあります。しかし、推論を行うことに関心がある場合、オンラインで参考にできるリソースにはどのようなものがありますか? 更新:「推論」という言葉は、多くのことを意味する可能性があることに気づきました。「推論」とは、次のような質問を指します。 XXXYYYYYYXXXX1,X2,⋯,XnX1,X2,⋯,XnX_1,X_2,\cdots,X_n 「すべてのモデルが間違っている」ので、私たちのモデルは真のモデルとどれほど「間違っている」のでしょうか。 サンプルの情報が与えられた場合、母集団について何が言えるか、そしてどれほど自信があると言えるか? 私の統計の知識は非常に限られているため、これらの質問が統計の領域に当てはまるかどうかさえわかりません。しかし、それらは機械学習の実践者が気にしないように思えるタイプの質問です。おそらく統計学者はどちらも気にしないのですか?知りません。

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.