タグ付けされた質問 「inference」

サンプルデータから母集団パラメーターに関する結論を導き出す。https://en.wikipedia.org/wiki/Inferenceおよびhttps://en.wikipedia.org/wiki/Statistical_inferenceを参照してください

3
大規模なデータセットのガウス過程回帰
私はオンラインビデオと講義ノートからガウシアンプロセス回帰について学んでいますが、ポイントのデータセットがある場合、データはn次元の多変量ガウシアンからサンプリングされると想定しています。だから私の質問は、nが数千万の場合で、ガウスプロセス回帰はまだ機能しますか?カーネルマトリックスは巨大ではなく、プロセスは完全に非効率的になりますか?もしそうなら、データセットから何度もサンプリングするような、これに対処するためのテクニックが用意されていますか?そのような場合に対処するためのいくつかの良い方法は何ですか? んnnんnnんnn

2
ガウス単位のKL損失
私はVAEを実装しており、単純化された一変量ガウスKL発散の2つの異なる実装がオンラインであることに気付きました。当たり、元発散ここでは、ある 我々は仮定した場合、当社の前単位ガウスすなわちあるμ2=0及びσ2=1、この簡素化まで KLのLO、S、S=-ログ(σ1)+σ 2 1 +μ 2 1KLloss=log(σ2σ1)+σ21+(μ1−μ2)22σ22−12KLloss=log⁡(σ2σ1)+σ12+(μ1−μ2)22σ22−12 KL_{loss}=\log(\frac{\sigma_2}{\sigma_1})+\frac{\sigma_1^2+(\mu_1-\mu_2)^2}{2\sigma^2_2}-\frac{1}{2} μ2=0μ2=0\mu_2=0σ2=1σ2=1\sigma_2=1 KLloss=−1KLloss=−log(σ1)+σ21+μ212−12KLloss=−log⁡(σ1)+σ12+μ122−12 KL_{loss}=-\log(\sigma_1)+\frac{\sigma_1^2+\mu_1^2}{2}-\frac{1}{2} ここには、どこの混乱レストです。上記の実装でいくつかのあいまいなgithubリポジトリを見つけましたが、私がより一般的に使用しているのは次のとおりです。KLloss=−12(2log(σ1)−σ21−μ21+1)KLloss=−12(2log⁡(σ1)−σ12−μ12+1) KL_{loss}=-\frac{1}{2}(2\log(\sigma_1)-\sigma_1^2-\mu_1^2+1) の公式、例えばKerasのオートエンコーダチュートリアル。私の質問は、これらの2つの間に何が欠けているのですか?主な違いは、対数項に係数2を削除することと、分散を二乗しないことです。分析的に、私は後者を成功に導いてきました。助けてくれてありがとう!=−12(log(σ1)−σ1−μ21+1)=−12(log⁡(σ1)−σ1−μ12+1) =-\frac{1}{2}(\log(\sigma_1)-\sigma_1-\mu^2_1+1)

3
一部の患者を複数回測定する
私は患者の身体測定値を決定する臨床研究を行っています。患者ごとに1つの測定値がある状況を処理する方法を知っています。モデルを作成し、ランダムなサンプルをある密度から取得し、通常のものを実行します。サンプル、パラメーターの推定、信頼セットの決定、仮説のテスト、または上司が監視していない場合はベイズ分析を行います。;-)X1,…,XnX1,…,XnX_1,\dots,X_nfθfθf_\theta 私の問題は、一部の患者には複数の測​​定値があるということです。可能な場合は、複数の研究者に測定装置を扱ってもらうのが得策だと考えているためです(クリニックで研究者が1人しかいない場合もあります)。 )。したがって、一部の患者については、1人の研究者によって1つの測定が行われ、他のサンプルユニットについては、2人の異なる研究者によって2つの測定が行われます。問題の尺度は、特定の皮膚のひだの厚さです。 私の質問:どの種類の統計モデルが私の問題に適していますか?
10 inference 

1
同じデータセットで2つの線形モデルを実行することは許容されますか?
複数のグループ(自然なグループが事前に定義されたもの)の線形回帰の場合、次の2つの質問に答えるために、同じデータセットで2つの異なるモデルを実行することは許容できますか? 各グループには非ゼロの勾配と非ゼロの切片がありますか?グループ回帰内の各パラメーターは何ですか? グループメンバーシップに関係なく、非ゼロの傾向と非ゼロの切片はありますか?グループ全体の回帰のパラメーターは何ですか? Rでは、最初のモデルはでありlm(y ~ group + x:group - 1)、推定された係数は各グループの切片と勾配として直接解釈できます。2番目のモデルはですlm(y ~ x + 1)。 代替案はlm(y ~ x + group + x:group + 1)、であり、これにより、係数の複雑な要約表が得られ、グループ内の勾配と切片は、いくつかの参照からの勾配と切片の差から計算する必要があります。また、最後のグループの差異(場合によっては)のp値を取得するために、グループを並べ替えてモデルをもう一度実行する必要があります。 これは2つの別個のモデルを使用して、推論に何らかの悪影響を及ぼしますか、またはこの標準的な方法に悪影響を及ぼしますか? これをコンテキストに入れるために、xを薬物の投与量と見なし、グループを異なる人種と見なします。医師の特定の人種、または薬剤が効く人種の用量反応関係を知ることは興味深いかもしれませんが、(ヒト)母集団全体の用量反応関係を知ることも興味深い場合があります公衆衛生担当官の人種に関係なく。これは、グループ内とグループ全体の両方の回帰に個別に関心を持つ方法の単なる例です。用量反応関係が線形であるべきかどうかは重要ではありません。

1
確率的プログラミングとは何ですか?
過去1年間、私はPyMC3やStanなどの確率的プログラミング(PP)フレームワーク、およびPPがいかに優れているかについて多くのことを聞いてきました。そして今日、誰かがこのリンクを私と共有しました: Pyro:深い確率的プログラミング言語 ただし、PPで実行できることは他の汎用言語で実行できるように感じるため、特別なことには触れません。PPには魅力的な技術的側面(並列計算など)があると確信していますが、これはさておき、PPは他の言語と本当に違うのですか? 質問:私は、PPとは何か、それがR、Matlab、Mathematicaなどの他の統計に焦点を当てたソフトウェアとどのように異なるのかについてコンセンサスがあるのか​​と思っていました。これは、ことに留意すべきであるPyMC3とStan多くのベイズ分析に焦点を当てています。 Googleで少し調べてみたところ、次の2つの定義に出くわしました。1つ目はより抽象的で、2つ目はPPの技術的特徴についてです。 1.2。確率的プログラミングは 代わりに、確率的プログラミングは統計モデリングのためのツールです。アイデアは、プログラミング言語の世界からの教訓を借り、統計モデルの設計と使用の問題に適用することです。専門家は統計モデルをすでに手作業で紙の数学表記で構築していますが、機械的な推論ではサポートが難しい専門家のみのプロセスです。PPの重要な洞察は、統計モデリングが十分に行うと、プログラミングのように感じ始めることができるということです。飛躍を遂げ、実際にモデリングに実際の言語を使用すると、多くの新しいツールが実現可能になります。各インスタンスの論文を書くことを正当化するために使用されたタスクの自動化を開始できます。 次に、2番目の定義を示します。確率的プログラミング言語はrand、プログラムの統計的動作を理解するのに役立つ関連ツールの非常に大きな山を備えた通常のプログラミング言語です。 これらの定義はどちらも正確です。彼らは同じ核となる考えに異なる角度を強調するだけです。どちらが適切かは、PPを何に使用するかによって異なります。しかし、PPLプログラムが通常のソフトウェア実装によく似ているという事実に気を取られないでください。その目的は、プログラムを実行して何らかの出力を取得することです。PPの目標は、実行ではなく分析です(強調を追加)。 - 確率的プログラミング 一般的な統計コミュニティがPPのこれら2つの定義に同意するかどうか、および他の特性がある場合、この定義が欠落している可能性があるかどうか知りたい。

1
テーブルに対してフィッシャーの厳密検定とロジスティック回帰を使用した場合の違いは何ですか?
以下のために台、テーブルの上に推論を行うには、2つの方法はまた、フィッシャーの正確確率検定とロジスティック回帰を介して行われます。2 × 22×22 \times 2 フィッシャーの厳密検定を使用すると、私たちは関連の存在にのみ関心があると言われました。しかし、ロジスティック回帰では、関連の大きさに関心があります。 しかし、その理由はわかりません。たとえば、Rで行われるフィッシャーの正確検定では、信頼区間でオッズ比が返されますが、ロジスティック回帰では切片と勾配が返されます。どちらも対数オッズと対数オッズに対応しています。比。 私の質問は、ロジスティック回帰が関連性の大きさをどこにもたらすかです。係数内にあると想定していますが、これは対数オッズ比であり、フィッシャーの正確検定でも同様です。違いは何ですか?β1β1\beta_1

2
さまざまな差異の後の回帰係数の解釈
時系列を差分した後に線形回帰係数を解釈する方法(単位根を除去するため)を説明する説明はほとんどありません。単純に、それを正式に述べる必要がないほど単純ですか? (私はこの質問を知っていますが、それがどの程度一般的であるかはわかりませんでした)。 モデル興味があるとしましょう ここで、はおそらくARMA(p、q)です。興味深いのは、、、...です。具体的には、「 1単位の変化」という観点からの解釈は、、の平均変化をもたらし δ T β 1 β 2 β Pの X I YはT β I iが= 1つの... Pを。Yt=β0+β1X1t+β2X2t++...+βpXpt+δtYt=β0+β1X1t+β2X2t++...+βpXpt+δtY_{t}=\beta_{0}+\beta_{1}X_{1t}+\beta_{2}X_{2t} + +...+\beta_{p}X_{pt}+ \delta_{t}δtδt\delta_{t}β1β1\beta_{1}β2β2\beta_{2}βpβp\beta_{p}XiXiX_{i}YtYtY_{t}βiβi\beta_{i}i=1...p.i=1...p.i = 1...p. ここで、ユニットルートからの非定常性が疑われるためにを差分する必要があるとしましょう(例:ADFテスト)。次に、同じように、それぞれのも異なるようにする必要があります。 X i tYtYtY_{t}XitXitX_{it} 次の場合、の解釈は何ですか?βiβi\beta_{i} 第1の差分 から取られるとの各? Y t X i tY』tYt′Y'_{t}YtYtY_{t}バツ私トンXitX_{it} 第2の差分(差分の差分)()から取られY_ {T}との各X_ {それ}?Y」tYt″Y''_{t} X i tYtYtY_{t}バツ私トンXitX_{it} 季節差(例えば(1 − B12)(1−B12)(1-B^{12}) 毎月のデータ用)から取得されYtYtY_{t}との各XitXitX_{it}? 編集1 係数の違いと解釈につ​​いて言及しているテキストを1つ見つけました。リンクされた質問とよく似ています。これは、動的回帰を使用したAlan …

13
「BにAが与えられる可能性が高い」場合、「AにBが与えられる可能性が高い」
私は背後にあるより明確な直感を得ようとしています:「あAAがBBBより可能にするなら、BBBはあAAより可能にする」すなわち ましょn (S)n(S)n(S)する空間の大きさ示すあAA及びBBB、その後、あるを 主張:P(B | A )> P(B )P(B|A)>P(B)P(B|A)>P(B) so n (A B )/ n (A )> n (B )/ n (S)n(AB)/n(A)>n(B)/n(S)n(AB)/n(A) > n(B)/n(S) so n (A B )/ n (B )> n (A )/ n (S)n(AB)/n(B)>n(A)/n(S)n(AB)/n(B) > n(A)/n(S) これはP(A | B )> P(A )P(A|B)>P(A)P(A|B)>P(A) 私は数学を理解していますが、なぜこれが直感的に理解できるのですか?

1
コインが公正かどうかの確認
友人から次の質問をされました。私は彼女を助けることができませんでしたが、誰かがそれを私に説明してくれることを願っています。同様の例は見つかりませんでした。ヘルプと説明をありがとうございます。 Q:100コイントス実験の結果が0 = "Tail"および1 = "Head"として記録されます。出力xは、0と長さ100の1の文字列です。xで1-0-0を取得する回数が計算され、20になります(例:if x =(001001110100)、1-0-0 2回発生します)。これは公正なコインだと思いますか?

2
帰無仮説ではなく、サンプリングを介して生成された信頼区間で帰無仮説を棄却できますか?
母集団からサンプリングした後、信頼区間の形式でパラメーター推定値を生成できることを教えられました。たとえば、95%の信頼区間には、違反のない仮定があり、母集団内で推定している真のパラメーターが何であれ、95%の成功率が含まれているはずです。 つまり、 サンプルからポイント推定を作成します。 理論的には推定しようとしている真の値が95%の確率で含まれる値の範囲を生成します。 ただし、トピックが仮説テストに移ったとき、手順は次のように説明されました。 一部のパラメーターを帰無仮説と仮定します。 この帰無仮説が真であるとすると、さまざまな点推定値が得られる可能性の確率分布を生成します。 帰無仮説が真の場合に得られる点推定が5%未満の時間で生成される場合は、帰無仮説を拒否します。 私の質問はこれです: 帰無仮説を棄却するために、帰無仮説を使用して信頼区間を生成する必要がありますか?最初の手順を実行し、真のパラメーターの推定値を取得して(信頼区間の計算で仮定値を明示的に使用せずに)、帰無仮説がこの区間に入らない場合は棄却しませんか? これは直感的には論理的には同等に思えますが、このように教えられる理由があると考えられるため、非常に根本的な何かを見逃しているのではないかと心配しています。

2
複数の衝突による逆誕生日問題
長さNが不明なエイリアン年があったと仮定します。異星人のランダムなサンプルがあり、それらのいくつかが誕生日を共有している場合、このデータを使用して年の長さを推定できますか? たとえば、100のサンプルでは、​​2つのトリプレット(つまり、3人のエイリアンが共有する2つの誕生日)と5つのペアと84個のシングルトンを持つことができます。Nの推定では、絶対最小値は91で、最大値は無制限ですが、妥当な期待値はどのようにして見つけますか? 仮定には、「すべての誕生日が同じくらい可能性が高い」などが含まれます。 ここで回答された別の質問とは異なり、部屋には既知の衝突があります。十分に長い年であれば、宇宙人の部屋で衝突がない可能性が非常に高くなります。ただし、非常に長い年は衝突の確率が低く、短い年はほとんど衝突の確率が低いため、最も可能性の高い年の長さに対して(理論的な)範囲が提供されます。


2
モデルの誤った仕様の下での統計的推論
一般的な方法論的な質問があります。以前に回答された可能性がありますが、関連するスレッドを見つけることができません。可能性のある重複へのポインタに感謝します。 (ここではなく、無応答と、優れものです。これは、でも答えを、精神にも似ていますが、後者はあまりにも私の観点から、特定のです。これは、質問を投稿後に発見、近くにもあります。) テーマは、データを表示する前に作成されたモデルがデータ生成プロセスを適切に説明できない場合に、有効な統計的推論を行う方法です。質問は非常に一般的ですが、ポイントを説明するために特定の例を提供します。しかし、私は、特定の例の詳細に細心の注意を払うのではなく、一般的な方法論の質問に焦点を当てた回答を期待しています。 具体的な例を考える:時系列設定で、Iは、データ生成処理を前提となるように とU T〜iが。私。N (0 、σ 2 U)。私はd yという主題の仮説をテストすることを目指していますyt=β0+β1xt+ut(1)(1)yt=β0+β1xt+ut y_t=\beta_0 + \beta_1 x_t+u_t \tag{1} ut∼i.i.N(0,σ2u)ut∼i.i.N(0,σu2)u_t \sim i.i.N(0,\sigma_u^2)。私は、モデルの面でこれをキャスト(1)私の主題仮説の実行可能な統計的な対応を得るために、これはある H0:β1=1. これまでのところ、とても良いです。しかし、データを観察すると、モデルがデータを適切に記述していないことがわかりました。私たちは真のデータ生成処理がされ、その結果、線形傾向がある、としましょう Y 、T = γ 0 + γ 1 のx T + γ 2トン+ のV T とVのトン〜dydx=1dydx=1\frac{dy}{dx}=1(1)(1)(1)H0: β1=1.H0: β1=1. H_0\colon \ \beta_1=1. yt=γ0+γ1xt+γ2t+vt(2)(2)yt=γ0+γ1xt+γ2t+vt y_t=\gamma_0 + \gamma_1 x_t+\gamma_2 t + v_t …

1
ベイジアン統計が頻出法による推定が非常に困難なパラメーターを推定する方法の例
ベイジアン統計学者は、「ベイジアン統計は、頻度論的手法による推定が非常に困難なパラメーターを推定できる」と主張しています。このSASドキュメントからの次の引用は、同じことを言っていますか? これは、漸近近似に依存せずに、データを条件として正確な推論を提供します。小さなサンプルの推論は、大きなサンプルがある場合と同じように進行します。ベイジアン分析では、「プラグイン」手法(関数の推定されたパラメーターをプラグインして関数を推定する方法)を使用せずに、パラメーターの関数を直接推定することもできます。 私はいくつかの教科書で同様の声明を見ましたが、どこで覚えていません。誰かが例を挙げてこれを説明してくれませんか?

1
ベイジアンオンラインチェンジポイント検出(マージナル予測分布)
私は、AdamsとMacKayによるベイジアンのオンラインチェンジポイント検出ペーパー(リンク)を読んでいます。 著者は限界予測分布を書くことから始めます: ここでP(xt + 1| バツ1 :t)= ∑rtP(xt + 1|rt,x(r)t)P(rt|x1:t)(1)P(xt+1|x1:t)=∑rtP(xt+1|rt,xt(r))P(rt|x1:t)(1) P(x_{t+1} | \textbf{x}_{1:t}) = \sum_{r_t} P(x_{t+1} | r_t, \textbf{x}_t^{(r)}) P(r_t | \textbf{x}_{1:t}) \qquad \qquad (1) txtxtx_tは時間での観測です。ttt tx1:tx1:t\textbf{x}_{1:t}は、時刻までの一連の観測を示します。ttt rt∈Nrt∈Nr_t \in \mathbb{N}は現在のランレングスです(最後の変化点からの時間。0でもかまいません)。そして r tx(r)txt(r)\textbf{x}_t^{(r)}は、実行関連付けられた観測値のセットです。rtrtr_t Eq。1は正式に正しい(@JuhoKokkalaによる以下の返信を参照)が、について実際に予測したい場合は、次のように展開する必要があると理解しています。xt+1xt+1x_{t+1} P(xt+1|x1:t)=∑rt,rt+1P(xt+1|rt+1,x(r)t)P(rt|x1:t)P(rt+1|rt)(1b)P(xt+1|x1:t)=∑rt,rt+1P(xt+1|rt+1,xt(r))P(rt|x1:t)P(rt+1|rt)(1b) P(x_{t+1} | \textbf{x}_{1:t}) = \sum_{r_t, r_{t+1}} P(x_{t+1} | r_{t+1}, \textbf{x}_t^{(r)}) P(r_t | \textbf{x}_{1:t}) P(r_{t+1} | r_t) …

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.