統計とビッグデータ bayesian

4

未知のクラスター数と非ユークリッド距離のクラスター化方法について何か提案はありますか？

コンサルティングプロジェクトのクラスタリング（教師なし分類）メソッドについていくつかの提案が必要です。私はうまくいけば次のプロパティを持つメソッドを探しています：私の研究の主題には3つの特性があります。1つは（非ユークリッド）距離行列で表され、他の2つはユークリッド空間のベクトルの形式です。距離行列はシーケンスに由来し、非類似度の割合またはシーケンスの距離の他の測定値の形式にすることができます。このアルゴリズムは、ユークリッド空間のベクトルと非ユークリッド距離の両方のベクトルを入力として使用できる必要があります。たとえば、K-medoidは距離行列で機能しますが、K-meansは機能しません。アルゴリズムが3つのプロパティのクラスター数と重みを自動的に選択するようにします（事前の知識と制約付き）。以前に特定された「クラスターの中心」の情報があります。以前の値または初期値として組み込みたいと思います。統計学者として、私はこの方法が明確な尤度または損失関数を持つことを望みます。私が考えることができる最も近いことは、クラスターの数を決定するためにリバースジャンプMCMCを使用してベイジアンフレームワークに混合モデルをあてはめることです。R ^ dのベクトルは、通常の尤度に簡単に定式化できますが、距離行列の処理方法は不明です。MCMCを実行する各観測での通常の尤度の平均を制限できますが、これには明確な数学的/統計的意味がありません。誰かが同様の問題の経験がありますか？参考文献への提案は高く評価されます！

8 clustering bayesian

2

いくつかのバイナリテストの結果を組み合わせる方法は？

まず、38年前に工学部で統計学のコースを1つ受けていたとしましょう。だから私はここで盲目的に飛んでいます。疾患の診断テストは基本的に18種類ありますが、その結果はわかりました。各テストはバイナリです-はい/いいえ、テストを「調整」するために調整できるしきい値はありません。各テストについて、「ゴールドスタンダード」と比較した場合の真/偽陽性/陰性の表向きは有効なデータがあり、特異性と感度の数値（およびそのデータから導出できる他のすべて）が得られます。もちろん、単独で使用するのに十分な特異性/感度を持つ単一のテストはありません。また、すべてのテストの結果を「目玉」にした場合、多くの場合、明らかな傾向はありません。これらの数値を組み合わせて、（できれば）単一のテストよりも信頼性の高い最終スコアが得られるようにするための最良の方法は何でしょうか。これまでのところ、TRUEテストの特異性を組み合わせて spec_combined = 1 - (1 - spec_1) * (1 - spec_2) * ... (1 - spec_N) FALSEの感度を組み合わせると、同じ方法でテストされます。比率 (1 - sens_combined) / (1 - spec_combined) 次に、10を超える値は信頼できるTRUEであり、0.1未満の値は信頼できるFALSEであり、かなり良い「最終スコア」をもたらすようです。しかし、このスキームは真の厳密さを欠いており、テスト結果のいくつかの組み合わせでは、直感に反する答えを生成するようです。特異性と感度を考慮して、複数のテストのテスト結果を組み合わせるより良い方法はありますか？（一部のテストの特異度は85、感度は15です。他のテストはその逆です。） OK、頭が痛い！感度/特異度（％）のテスト1〜4があるとします。 65/50 25/70 30/60 85/35 テスト1と2は陽性、3と4は陰性です。 1が偽陽性であると推定される確率は（1-0.5）であり、2は（1-0.7）であるため、両方が偽陽性である確率は0.5 x 0.3 = 0.15です。 3および4が偽陰性であると推定される確率は、（1-0.3）および（1-0.85）または0.7 x 0.15 = 0.105です。（現時点では、数値が合計されないという事実は無視します。）ただし、1と2が真陽性であると推定される確率は0.65と0.25 …

8 classification bayesian diagnostic

3

ロジスティック回帰における交互作用項の有意性と信頼区間

私はWinBugsにベイジアンロジスティック回帰を適合させました。これには相互作用項があります。このようなもの： P R O B（y私= 1 ）=L O G I T− 1（a +b1∗バツ私+b2∗w私+b３∗バツ私∗w私）Prob(yi=1)=logit−1(a+b1∗xi+b2∗wi+b3∗xi∗wi)\mathrm{Prob}(y_{i}=1) = \mathrm{logit}^{-1} (a + b_{1}*x_{i} + b_{2}*w_{i} + b_{3}*x_{i}*w_{i}) ここで、は標準化された連続変数、はダミー変数です。実際にはモデルはもっと複雑ですが、私は物事を単純に保ちたいです。バツxxwww 相互作用の項は「有意」ですが、単一の予測子ではありません。例えば、 mは電子nは（b1）= − .2mean(b1)=−.2\mathrm{mean}(b_{1}) = -.2および分位数：および959595%（− 1.3(−1.3(-1.3.7 ）.7).7) mは電子nは（b2）= − .4mean(b2)=−.4\mathrm{mean}(b_{2}) = -.4および分位数： -および959595%(−1.3(−1.3(-1.3.5).5).5) mean(b3)=1.4mean(b3)=1.4\mathrm{mean}(b_{3}) = 1.4および分位数：（.および959595%(.4(.4(.42.5)2.5)2.5) この発見にどう反応するかについてアドバイスはありますか？場合、影響全体に対して95％の信頼区間を計算できると思いました。これは次のようになります。xの合計効果の95％値、条件付き： -およびxxxw=1w=1w=1w=1w=1w=1(−1.3+.4(−1.3+.4(-1.3+.4.7+2.5)=(−.9+3.2).7+2.5)=(−.9+3.2).7+2.5) = (-.9 + 3.2) これは正しいです？そうでない場合、どうすればよいですか？この件に関する参考資料はありますか？

8 logistic bayesian statistical-significance interaction

3

ベイジアン2因子分散分析

私は、Bayesian Two Factor ANOVAをBUGSにフィッティングするか、Rパッケージを利用することに興味があります。残念ながら、このトピックに関するリソースを見つけるのに苦労しています。助言がありますか？アプローチについて説明した記事も役立ちます。

8 r bayesian anova bugs

3

ベルヌーイ分布のは何ですか？

確率のベイズ理論では、確率はあるものについての知識の表現であり、そのものの特性ではありません。しかし、私は常に人々がを推定する必要があるパラメータとして扱うのを見ています。彼らは、事前分布を、通常はベータ関数の形式で設定し、この変数の「実現」に応じて更新します。pppppp 偉大なベイジアンのジェインズでさえ、「確率を推定している」、または「データに最も適合する」を探しているという印象を与えることがあります。ppp ここで、「ベルヌーイクラス」に属する仮説のみを考慮に入れます。この場合、各試行で可能な結果があり、実験の連続反復でのの確率は独立して定常的であると見なされます。BmBmB_mmmmAkAkA_k 確率論、ET Jaynes、297ページこれは、私は混乱になりある確率ではない、それは確率変数の財産であり、それはであることから、周波数いない変数は、単一のイベントを表しているので、。ppp

8 probability bayesian bernoulli-distribution philosophical

2

どのように？

最近、最尤推定量とベイジアン統計について読み始めました。統計モデルが与えられた場合、は大きなパラメーター空間に属し、と間のKL発散（は真見つけたいパラメーター）は、を最大化するに対して最小化されます。イベントが独立して同一に分布していると仮定すると、これは、結合確率を最大化することになり(X,(Pθ))(X,(Pθ))(X, (P_\theta))θθ\thetaΘΘ\ThetaPθPθP_\thetaPθ∗Pθ∗P_\theta*θ∗θ∗\theta^*θθ\theta∏ni=1pθ(Xi)∏i=1npθ(Xi)\prod_{i=1}^{n}p_\theta(X_i)P[X1=x1,X2=x2,...,Xn=xn].P[X1=x1,X2=x2,...,Xn=xn].P[X_1=x_1, X_2=x_2, ...,X_n=x_n]. （独立性の仮定により、これを個々の要素の積と同等と見なすことができます）ベイズアプローチは、分布の事前信念を占め、と最大にベイズ規則により、最大限に相当し、。ここまではわかった。この後、は「可能性」と呼ばれ、に置き換えられこれは、個々の確率の積です流通におけるXの。これは、が実際に、つまり、与えられた確率であることを意味しますかθθ\thetaP(θ)P(θ)P(\theta)P(θ|X)P(θ|X)P(\theta|X)P(X|θ)P(θ)/P(X)P(X|θ)P(θ)/P(X)P(X|\theta)P(\theta)/P(X)P(X|θ)P(X|θ)P(X|\theta)P[X1=x1,X2=x2,...,Xn=xn]P[X1=x1,X2=x2,...,Xn=xn]P[X_1=x_1, X_2=x_2, ...,X_n=x_n]PθPθP_\thetaP[X1=x1,X2=x2,...,Xn=xn]P[X1=x1,X2=x2,...,Xn=xn]P[X_1=x_1, X_2=x_2, ...,X_n=x_n]Pθ[X1=x1,X2=x2,...,Xn=xn]Pθ[X1=x1,X2=x2,...,Xn=xn]P_\theta[X_1=x_1, X_2=x_2, ...,X_n=x_n]θθ\theta、またはそのようなもの？私は確率と分布があまり得意ではありません。私の理解では、オブジェクトは条件付き確率と呼ばれ、オブジェクト（独立性によって等しい）は結合確率と呼ばれ、非常に異なるものです。著者がを最大確率での同時確率に使用する場合があるのを見てきました。結合確率と条件付き確率が等しいと見なされるのはなぜですか。P(X|θ)P(X|θ)P(X|\theta)P[X1=x1,X2=x2,...,Xn=xn]P[X1=x1,X2=x2,...,Xn=xn]P[X_1=x_1, X_2=x_2, ...,X_n=x_n]∏ni=1pθ(Xi)∏i=1npθ(Xi)\prod_{i=1}^{n}p_\theta(X_i)P(X;θ)P(X;θ)P(X;\theta)

8 probability bayesian maximum-likelihood

1

以前の選択でベイズ推定量ではない許容可能な推定量を持つモデル？

私の知る限り、すべてのベイズ推定量は許容されます。（関連質問- 1、2。）私は私の教授が講義中に一度触れて思い出しラフ直感として、少なくとも、逆はすべての許容推定器は、前のいくつかの選択のためのベイズ推定量である、である、としても真である、ということ。彼は「例外がある」または「規則的な条件が必要である」という線に沿って何かを言いました。質問：誰かが次のことについて何か知っていますか？逆に必要な規則性条件はどれですか。すべての許容可能な推定量は、保持するための以前のベイズ推定量です。および/または統計モデルの（良い）反例が存在している（合理的）許容推定器はありませんのためにベイズ推定任意の前の選択？私の推測では、特にクロムウェルの法則に違反する以前のものが「効果的なモデルサイズ」を人為的に縮小することはよく知られているため、反例はクロムウェルの法則と関係がある可能性があります。したがって、何らかの理由ですべての事前分布がクロムウェルの規則に違反しなければならないモデルがある場合、（妥当な）反例が存在する可能性があると考えられます。宿題の問題として、私たちは非常に限られたケースでこの逆を証明しなければなりませんでした：クロムウェルのルールに違反していない事前確率と、有限のパラメーター空間。有限パラメータ空間への制限は必須ではなかったと思いますが、コースの前提条件として機能解析がリストされていなかったため、無限次元のベクトル空間で凸解析を行う必要をなくすためだけです。とは言っても、すべての無限次元ベクトル空間が凸分析の一般化が適用されるバナッハ空間であるとは限らないため、反例が存在することを期待することもできますが、それらが存在する場合は、無限のパラメーター空間があることも期待します。編集：この回答に基づいて、私が持っている別の推測は、すべての事前分布が何らかの理由で無限のベイズリスクを持っているモデル（おそらくコーシーモデル）の反例が存在する可能性があることです。

8 bayesian mathematical-statistics prior example admissibility

1

ベイジアンモデルの選択で擬似優先順位を適切に使用する

ベイジアンフレームワークでのモデル比較の1つのアプローチは、ベルヌーイインジケーター変数を使用して、2つのモデルのどちらが「真のモデル」である可能性が高いかを決定します。このようなモデルをフィッティングするためにMCMCベースのツールを適用する場合、チェーン内の混合を改善するために疑似優先順位を使用するのが一般的です。疑似優先順位が役立つ理由についての非常にアクセスしやすい扱いについては、こちらを参照してください。このトピックに関する独創的な論文で、Carlin＆Chib（p。475）は「[疑似優先]の形式は無関係である」と述べています。これは、モデルに基づく事後推論に影響を与えるべきではないことを意味します（ただし、モデルフィッティング中のMCMCミキシングに影響する可能性があります）。ただし、私の考えでは、疑似優先順位の形式は重要です。私は以前、この質問でこれについて尋ねました。@ Xi'anはコメントしました（4番目のコメント）：「どのモデルが正しいかについての推論は、疑似優先度に依存しません」。最近、Martyn Plummerから、Carlin＆Chibに対する私の理解と矛盾するコメントを読みました。マーティンは言う：「Carlin-Chibメソッドが機能するためには、モデルがtrueの場合、疑似優先順位が事後と一致する必要があります。」（私は、プラマーがカーリン＆チブと矛盾することを言っているのではなく、カーリン＆チブの主張に対する私の理解と矛盾しているということだけです）。これらすべてから、次の5つの質問が残ります。ここで何が起こっているのですか？モデルが収束し、事後から有効なサンプルサイズが得られる場合、モデルに含める変数に関する推論は、疑似優先度に依存しますか？そうでない場合、どのように私はこれを私の直感とプラマーのコメントで二乗するのですか？もしそうなら、これをカーリン＆チブの論文と西安のコメント（4番目のコメント）でどう平方するか？プラマーのコメントに対する私の理解が正しく、変数が含まれている場合に疑似優先度が事後に対応している必要がある場合...これは、真の事前値に正確に対応する疑似優先度が許可されないことを意味しますか？これは、疑似優先順位が、MCMCでの混合を改善するための便利な手法よりもはるかに優れていることを意味します。インジケーター変数がいくつかのパラメーター（たとえば、総平均、分散、nグループ効果のある変量効果）を使用してモデルの一部をオンまたはオフにするとどうなりますか？次のうちどれが許容されますか（このアプローチが許容されるという確信度の順に）？記載していないより良いアプローチはありますか？私。すべてのパラメーターの完全同時事後分布を近似する疑似優先順位を使用します。 ii。混合が残虐に許容されない場合は、疑似優先度をまったく使用しないでください（つまり、真の事前値と同等の疑似優先度を使用します）。 iii。各パラメーターの1変量事後分布に基づく疑似優先順位を使用しますが、それらがどのように一緒に分布されるかについては心配しないでください。 iv。カーリンとチブの明らかに平易な言葉に従い、MCMCチェーン内で計算上効率的なミキシングを提供する任意の疑似優先順位を使用します。「[疑似優先順位]の形式は無関係です」。西安@上の最初のコメントに何を意味する私の質問を言っにおける「疑似事前確率は、補正の重要性サンプリングタイプの補正を必要としています。」

8 bayesian model-selection prior

2

ベイズ推定におけるフィルタリングと平滑化

観測された系列指定して、観測できない変数をサンプリングすることを目的とするMCMCアプリケーションの事後分布に直面しています。x={xt}Tt=0x={xt}t=0Tx=\{x_t\}_{t=0}^{T}y={yt}Tt=0y={yt}t=0Ty=\{y_t\}^T_{t=0} ただし、条件付き事後者はとして読み取り、はa追加の構造パラメーターのベクトル。私の理解によれば、の値を推測するには知識が必要であるため、これは平滑化の問題になります。p(xt|yt+1,yt,yt−1,xt−1,xt+1,Θ),p(xt|yt+1,yt,yt−1,xt−1,xt+1,Θ),p(x_t | y_{t+1}, y_t, y_{t-1} ,x_{t-1}, x_{t+1}, \Theta),ΘΘ\Thetayt+1yt+1y_{t+1}xtxtx_t ただし、同じ問題を扱う記事では、シリーズをフィルターシリーズと呼んでいます。xxx ここで何か不足していますか？

8 time-series bayesian smoothing filter

1

MCMC後に多変量の信頼できる区間推定値/最高密度領域（HDR）を取得する方法

ベイジアンアプローチとマルコフ連鎖モンテカルロ（MCMC）法を使用して、モデルの15個のパラメーターを推定しています。100000サンプルのMCMCチェーンを実行した後のデータは、パラメーター値の100000×15テーブルになります。私の事後分布の15次元の最高密度領域を見つけたいです。私の問題：サンプルをクラスタリングしてHDRに割り当てるには（以下の密度ベースのクラスタリングを使用する例）、すべてのサンプルの距離行列が必要です。100000サンプルの場合、この行列には37 GiBのRAMが必要ですが、計算時間といえば、これはありません。適切な量のコンピューティングリソースを使用してHDRを見つけるにはどうすればよいですか？誰かが以前にこの問題を抱えていたに違いない！？追加のために編集：このSOの質問とDBSCANウィキペディアのページによれば、DBSCANは、空間インデックスを使用して距離行列を回避することにより、時間の複雑さと空間の複雑さに分類できます。まだ実装またはその説明を探しています...O（nログn ）O(nlog⁡n)\mathcal O(n\log n)O（n）O(n)\mathcal O(n) 密度ベースのクラスタリング（DBSCAN）を使用した多変量最高密度領域 AX％の最高密度領域は、確率質量のX％を含む分布の領域です。探索された事後分布に（漸近的に）比例する頻度でMCMCメソッドアピアアによって抽出されたサンプルとして、私のX％HDRも私のサンプルのX％を含みます。サンプルの密度は後部のピークの高さに直接関係するため、密度ベースのクラスタリングアルゴリズムDBSCANを使用してサンプルをクラスター化することを計画しました。 Hyndman（1996）の方法による類推（論文、SO質問）、私は、サンプルのX％がいくつかの一部になるまで、単一のサンプルがクラスターからの最大距離を増やし、クラスターの一部と見なされるようにすることを計画しました集まる：そのステップの後、各領域の各クラスターの範囲を計算して、最高密度領域を提示します。この例では、80％のHDRが2つの異なる領域を囲んでいるのに対し、50％のHDRには1つのクラスターしか含まれていないことがわかります。上記のプロットは2次元以上には適用できないため、以下に示すようにこれを視覚化できます。

8 bayesian mcmc monte-carlo credible-interval highest-density-region

1

フィッシャーの正確確率検定の不適切な使用を回避する時期と方法

Richard McElreathがフィッシャーの正確な検定が彼の優れたベイジアン紹介本（統計的再考）でますか？参考までに、コンテキストは以下のとおりです。なぜ革新的な研究に十分なテストではないのですか？導入統計の古典的な手順は、柔軟性がなく、壊れやすい傾向があります。柔軟性がないということは、彼らが独自の研究状況に適応する方法が非常に限られているということです。壊れやすいということは、新しいコンテキストに適用すると、予測できない方法で失敗するということです。ほとんどの科学の境界では、どの手順が適切であるかがはっきりしないので、これは重要です。従来のゴーレムはどれも斬新な研究環境で評価されていないため、1つを選択してそれがどのように動作するかを理解するのは難しい場合があります。良い例はフィッシャーの正確検定です。これは非常に狭い経験的コンテキストに（正確に）適用されますが、セル数が少ない場合は常に使用されます。私は個人的にフィッシャーの正確な検定の数百の使用法を科学雑誌で読みましたが、フィッシャーの元の使用法は別として、それが適切に使用されたことはありません。多くの点で非常に柔軟性があり、興味深い多様な仮説を非常に多様にエンコードできる通常の線形回帰のような手順でさえ、壊れやすい場合があります。たとえば、予測変数に大きな測定誤差がある場合、手順は見事に失敗する可能性があります。しかし、より重要なことに、主にオーバーフィッティングと呼ばれる現象が原因で、通常の線形回帰よりも優れた処理を行うことがほぼ常に可能です。

7 hypothesis-testing bayesian fishers-exact

1

帰無仮説の棄却がなぜ検察官の誤りのケースではないのですか？

これが私の理解です： p値-調査質問の帰無仮説（H0）が真の場合に、観測された、またはより極端な結果を見つける確率つまり、p-valueです。ここで、p値が特定のしきい値（）を下回ると、帰無仮説を棄却します。=P(evidence/nullhypothesis)=P(evidence/nullhypothesis)=P(evidence/nullhypothesis)alphaalphaalpha 私はここで非常に基本的な何かを見逃していることを知っていますが、検察官の誤謬を犯した場合ではなく、帰無仮説が真実であるという証拠である可能性が低いことに基づいて帰無仮説を拒否するのはどうですか？

7 hypothesis-testing bayesian p-value frequentist fallacy

3

ベイジアンの信頼できる区間は、推定されたパラメーターを確率変数として扱いますか？

私は最近ウィキペディアの次の段落を読みました：ベイジアン区間では、境界が固定され、推定パラメーターが確率変数として扱われます。一方、頻度主義信頼区間では、境界が確率変数として扱われ、パラメーターが固定値として扱われます。しかし、これが本当かどうかはわかりません。信頼できる区間の私の解釈は、推定されたパラメーターの真の値についての私たち自身の不確実性をカプセル化したが、推定されたパラメーター自体はある種の「真の」値を持っていたというものでした。これは、推定されたパラメーターが「ランダム変数」であると言うこととは少し異なります。私が間違っている？

7 bayesian empirical-bayes

2

事後は必然的に以前のものと同じ条件付き依存構造に従いますか？

モデルの仮定の1つは、同時事前分布の確率変数間の条件依存です。次のモデル、考えます。 p(a,b|X)∝p(X|a,b)p(a,b)p(a,b|X)∝p(X|a,b)p(a,b)p(a,b|X) \propto p(X|a,b)p(a,b) 次に、以前の独立性の仮定を想定します。p(a,b)=p(a)p(b)p(a,b)=p(a)p(b)p(a,b) = p(a)p(b) この仮定は、事後が次の条件付き依存性も持っていることを意味しますか？ p(a|X)p(b|X)∝p(X|a,b)p(a)p(b)p(a|X)p(b|X)∝p(X|a,b)p(a)p(b)p(a|X)p(b|X) \propto p(X|a,b)p(a)p(b)

7 bayesian inference

3

後部が適切であることの確認

ある事後分布の妥当性を検証するように求める教科書に宿題の問題があり、少し問題があります。セットアップは、1つの予測子を持つロジスティック回帰モデルがあり、よりも前に不適切な均一モデルを持っていることです。R2R2\mathbb{R}^2 以下のために具体的には、想定そのそう可能性は問題は、この事後が実際に不適切であると私が思うことです。i=1,…,ki=1,…,ki=1,\ldots,kyi∣α,β,xi∼Binomial(n,invlogit(α+βxi)),yi∣α,β,xi∼Binomial(n,invlogit(α+βxi)), y_i \mid \alpha, \beta,x_i \sim \text{Binomial}(n,\text{invlogit}(\alpha + \beta x_i)), p(y∣α,β,x)=∏i=1k[invlogit(α+βxi)]yi[1−invlogit(α+βxi)]n−yi.p(y∣α,β,x)=∏i=1k[invlogit(α+βxi)]yi[1−invlogit(α+βxi)]n−yi. p(y \mid \alpha, \beta, x ) = \prod_{i=1}^k [\text{invlogit}(\alpha + \beta x_i)]^{y_i}[1-\text{invlogit}(\alpha + \beta x_i)]^{n-y_i}. の特定の状況で、変数の変更およびを使用すると、アスタリスクのある行では、0 <y <nであると想定していますが、そうでない場合は、同じ結果になります。k=1k=1k=1s1=invlogit(α+βx)s1=invlogit(α+βx)s_1 = \text{invlogit}(\alpha + \beta x)s2=βs2=βs_2 = \beta∬R2p(y∣α,β,x)dαdβ=∬R2[invlogit(α+βx)]y[1−invlogit(α+βx)]n−ydαdβ=∫∞−∞∫10sy−11(1−s1)n−y−1ds1ds2=B(y,n−y)∫∞−∞1ds2=∞.(*)∬R2p(y∣α,β,x)dαdβ=∬R2[invlogit(α+βx)]y[1−invlogit(α+βx)]n−ydαdβ=∫−∞∞∫01s1y−1(1−s1)n−y−1ds1ds2(*)=B(y,n−y)∫−∞∞1ds2=∞.\begin{align*} \iint_{\mathbb{R}^2}p(y \mid \alpha, \beta, x ) \text{d}\alpha \text{d}\beta &= \iint_{\mathbb{R}^2}[\text{invlogit}(\alpha …

7 logistic bayesian posterior improper-prior

タグ付けされた質問 「bayesian」

タグ付けされた質問「bayesian」