タグ付けされた質問 「bayesian」

ベイズ推定は、モデルパラメータを確率変数として扱い、ベイズの定理を適用して、観測されたデータセットを条件とするパラメータまたは仮説に関する主観的な確率ステートメントを推定することに依存する統計的推定の方法です。

3
経験的尤度の例示的な用途は何ですか?
オーウェンの経験的可能性について聞いたことがありますが、最近まで興味のある論文で出くわすまで気にしませんでした(Mengersen et al。2012)。 それを理解するための努力の中で、観測されたデータの尤度は 、ここでおよびです。Σ I P I = 1 P I > 0L=∏ipi=∏iP(Xi=x)=∏iP(Xi≤x)−P(Xi<x)L=∏ipi=∏iP(Xi=x)=∏iP(Xi≤x)−P(Xi<x)L = \prod_i p_i = \prod_i P(X_i=x) = \prod_i P(X_i \le x) - P(X_i \lt x)∑ipi=1∑ipi=1\sum_i p_i = 1pi>0pi>0p_i > 0 しかし、私はこの表現を観察に関する推論を行うためにどのように使用できるかと結びつける精神的な飛躍をすることができませんでした。おそらく、モデルのパラメータについての尤度を考えることにあまりにも根ざしていますか? とにかく、私は概念を内在化するのに役立つ経験的可能性を採用しているいくつかの論文をGoogle Scholarで検索しています... 明らかに、経験的可能性に関するアートオーウェンの本がありますが、Googleブックスはすべてのおいしい部分を省き、私はまだ図書館間貸し出しの遅いプロセスにいます。 それまでの間、誰かが経験的尤度の前提とそれがどのように採用されているかを明確に示す論文や文書を親切に私に指し示すことができますか?EL自体の説明も歓迎します!

1
lmerモデルからの効果の再現性の計算
混合効果モデリングによる測定の再現性(別名信頼性、別名クラス内相関)の計算方法を説明するこの論文に出会ったばかりです。Rコードは次のようになります。 #fit the model fit = lmer(dv~(1|unit),data=my_data) #obtain the variance estimates vc = VarCorr(fit) residual_var = attr(vc,'sc')^2 intercept_var = attr(vc$id,'stddev')[1]^2 #compute the unadjusted repeatability R = intercept_var/(intercept_var+residual_var) #compute n0, the repeatability adjustment n = as.data.frame(table(my_data$unit)) k = nrow(n) N = sum(n$Freq) n0 = (N-(sum(n$Freq^2)/N))/(k-1) #compute the adjusted repeatability Rn = …
28 mixed-model  reliability  intraclass-correlation  repeatability  spss  factor-analysis  survey  modeling  cross-validation  error  curve-fitting  mediation  correlation  clustering  sampling  machine-learning  probability  classification  metric  r  project-management  optimization  svm  python  dataset  quality-control  checking  clustering  distributions  anova  factor-analysis  exponential  poisson-distribution  generalized-linear-model  deviance  machine-learning  k-nearest-neighbour  r  hypothesis-testing  t-test  r  variance  levenes-test  bayesian  software  bayesian-network  regression  repeated-measures  least-squares  change-scores  variance  chi-squared  variance  nonlinear-regression  regression-coefficients  multiple-comparisons  p-value  r  statistical-significance  excel  sampling  sample  r  distributions  interpretation  goodness-of-fit  normality-assumption  probability  self-study  distributions  references  theory  time-series  clustering  econometrics  binomial  hypothesis-testing  variance  t-test  paired-comparisons  statistical-significance  ab-test  r  references  hypothesis-testing  t-test  normality-assumption  wilcoxon-mann-whitney  central-limit-theorem  t-test  data-visualization  interactive-visualization  goodness-of-fit 



3
なぜジェフリーズの事前情報は情報価値がないと見なされるのですか?
ジェフリーズ前に考えてみ、ここでiはフィッシャー情報です。p(θ)∝|i(θ)|−−−−√p(θ)∝|i(θ)|p(\theta) \propto \sqrt{|i(\theta)|}iii 私はこの事前情報が情報価値のない事前情報として言及されているのを見続けていますが、なぜそれが情報価値がないのかという議論を見たことはありません。結局のところ、それは定数の前ではないので、他の引数が必要です。 再パラメータ化に依存しないことを理解しているため、次の質問に進みます。フィッシャー情報の決定要因は再パラメーター化に依存しないということですか?フィッシャーの情報は間違いなく問題のパラメーター化に依存するからです。 ありがとう。
27 bayesian  prior 


2
なげなわペナルティが二重指数関数(ラプラス)事前に等しいのはなぜですか?
回帰パラメーターベクトルのLasso推定値は、各事前分布が二重指数分布(ラプラス分布とも呼ばれる)であるBBBの事後モードと同等であることを多くの参考文献で読みました。BBBBiBiB_i 私はこれを証明しようとしましたが、誰かが詳細を具体化できますか?

3
他の分析よりも早く行われた特権分析のベイジアン正当化とは何ですか?
背景と実証例 2つの研究があります。実験を実行し(研究1)、それを複製しました(研究2)。研究1では、2つの変数間の相互作用が見つかりました。研究2では、この相互作用は同じ方向であったが、有意ではなかった。研究1のモデルの概要は次のとおりです。 Coefficients: Estimate Std. Error t value Pr(>|t|) (Intercept) 5.75882 0.26368 21.840 < 2e-16 *** condSuppression -1.69598 0.34549 -4.909 1.94e-06 *** prej -0.01981 0.08474 -0.234 0.81542 condSuppression:prej 0.36342 0.11513 3.157 0.00185 ** そして、研究2のモデル: Coefficients: Estimate Std. Error t value Pr(>|t|) (Intercept) 5.24493 0.24459 21.444 <2e-16 *** prej 0.13817 0.07984 …
26 bayesian 

2
ディリクレ分布のアルファとは正確には何ですか?
私はベイジアン統計にかなり慣れていないので、アルゴリズムのバックエンドでディリクレプロセスを使用する修正された相関測定SparCCに出会いました。何が起こっているのかを実際に理解するために段階的にアルゴリズムを試してみましたがalpha、ディリクレ分布でベクトルパラメーターが何をするのか、ベクトルパラメーターをどのように正規化するのか正確にはわかりませんかalpha? 実装は以下をPython使用していNumPyます:https : //docs.scipy.org/doc/numpy/reference/generated/numpy.random.dirichlet.html ドキュメントは言う: alpha:分布の配列パラメーター(次元kのサンプルのk次元)。 私の質問: alphas分布にどのような影響がありますか?; どのようalphasに正規化されていますか?; そして alphasが整数でない場合はどうなりますか? import numpy as np import pandas as pd import matplotlib.pyplot as plt # Reproducibility np.random.seed(0) # Integer values for alphas alphas = np.arange(10) # array([0, 1, 2, 3, 4, 5, 6, 7, 8, 9]) # Dirichlet Distribution dd = …

1
変分ベイズとEMの関係
変分ベイズ法はEMアルゴリズムの一般化であるとどこかで読みました。実際、アルゴリズムの反復部分は非常に似ています。EMアルゴリズムが変分ベイズの特別なバージョンであるかどうかをテストするために、次のことを試しました。 YYYはデータ、は潜在変数のコレクション、はパラメーターです。変分ベイズでは、ような近似を作成できます。どこ sが単純で、扱いやすい分布です。Θ P (X 、Θ | Y )≈ Q X(X )Q Θ(Θ )QXXXΘΘ\ThetaP(X,Θ|Y)≈QX(X)QΘ(Θ)P(X,Θ|Y)≈QX(X)QΘ(Θ)P(X,\Theta|Y) \approx Q_X(X)Q_\Theta(\Theta)QQQ EMアルゴリズムはMAPポイントの推定値を見つけるため、Q ^ 1_ \ Theta(\ Theta)= \ delta _ {\ Theta ^ 1}(\ Theta)のようなデルタ関数を使用すると、変分ベイズがEMに収束できると考えました。Q1Θ(Θ)=δΘ1(Θ)QΘ1(Θ)=δΘ1(Θ)Q^1_\Theta(\Theta)=\delta_{\Theta^1}(\Theta)。Θ1Θ1\Theta_1は、EMで通常行われるパラメーターの最初の推定値です。 場合Q1Θ(Θ)=δΘ1(Θ)QΘ1(Θ)=δΘ1(Θ)Q^1_\Theta(\Theta)=\delta_{\Theta^1}(\Theta)、与えられたQ1バツ(X)QX1(X)Q^1_X(X) KL発散を最小化式によって求められるQ1バツ(X)= exp(EδΘ1[ lnP(X、Y、Θ )] )∫exp(EδΘ1[ lnP(X、Y、Θ )] )dバツQX1(X)=exp⁡(EδΘ1[ln⁡P(X,Y,Θ)])∫exp⁡(EδΘ1[ln⁡P(X,Y,Θ)])dXQ^1_X(X)=\frac{\exp(E_{\delta_{\Theta^1}}[\ln P(X,Y,\Theta)])}{\int\exp(E_{\delta_{\Theta^1}}[\ln P(X,Y,\Theta)])dX} 上記の式はQ1バツ(X)= P(X| Θ1、Y)QX1(X)=P(X|Θ1,Y)Q^1_X(X)=P(X|\Theta^1,Y)に簡略化され、このステップはExpectationステップと同等であることが判明しました。 EMアルゴリズムの! しかし、これを継続するものとして最大化ステップを導き出すことはできません。次のステップでは、Q ^ 2_ \ Theta(\ …

5
ウィキペディアの可能性に関するエントリはあいまいに見える
「条件付き確率」と「可能性」に関する簡単な質問があります。(私はすでにこの質問をここで調査しましたが、役に立ちませんでした。) ウィキペディアの可能性に関するページから始まります。彼らはこう言います: 結果与えられたパラメーター値のセットの尤度は、パラメーター値が与えられた場合に観測された結果の確率に等しい、つまりθθ\thetaxxx L(θ∣x)=P(x∣θ)L(θ∣x)=P(x∣θ)\mathcal{L}(\theta \mid x) = P(x \mid \theta) すばらしいです!そう英語で、私はこれを読んで、「シータ、所与のデータX = X、(左辺)を、等しいパラメータの可能性は、データXがXに等しい確率に等しい所定のパラメータことシータに等しい」。(太字は強調のためのものです)。 ただし、同じページの3行以上後に、Wikipediaのエントリは次のように続きます。 ましょ離散確率分布を持つ確率変数 、パラメータに応じて、。次に、関数XXXpppθθ\theta L(θ∣x)=pθ(x)=Pθ(X=x),L(θ∣x)=pθ(x)=Pθ(X=x),\mathcal{L}(\theta \mid x) = p_\theta (x) = P_\theta (X=x), \, 関数と見なされるものは、(確率変数結果が与えられた場合の)尤度関数と呼ばれます 。時には値の確率のパラメータ値のためのとして書き込まれる。多くの場合のように記述を強調するために、このから異なる 条件付き確率されていないので、パラメータとしない確率変数です。θθ\thetaθθ\thetaxxxXXXxxxXXXθθ\thetaP(X=x∣θ)P(X=x∣θ)P(X=x\mid\theta)P(X=x;θ)P(X=x;θ)P(X=x;\theta)L(θ∣x)L(θ∣x)\mathcal{L}(\theta \mid x) θθ\theta (太字は強調のためのものです)。したがって、最初の引用では、文字通り条件付き確率について説明されていますが、その後すぐに、これは実際には条件付き確率ではなく、実際には?P(x∣θ)P(x∣θ)P(x\mid\theta)P(X=x;θ)P(X=x;θ)P(X = x; \theta) それで、どれが?尤度は、実際には最初の引用の条件付き確率を暗示していますか?または、2番目の引用の単純な確率を暗示していますか? 編集: これまでに受け取った有益で洞察に満ちたすべての答えに基づいて、私の質問を要約しました。 で英語「可能性が観測されたデータを考えると、パラメータの関数である。」:、我々はと言います で数学:、我々は、のように記述。L(Θ=θ∣X=x)L(Θ=θ∣X=x)L(\mathbf{\Theta}= \theta \mid \mathbf{X}=x) 尤度は確率ではありません。 尤度は確率分布ではありません。 尤度は確率質量ではありません。 ただし、英語では、尤度は「であり、パラメーター化された確率分布の積(連続的な場合)、または確率質量の積(離散的な場合)。 " 数学、我々は、次に、そのように書く:(連続ケース、はPDF)、および(離散ケース、は確率質量)。ここで重要なことは、ここではまったくX=xX=x\mathbf{X} …

3
サンプルサイズが大きいと、ベイジアン事前分布は無関係になりますか?
ベイジアン推論を実行する場合、パラメーターについて持っている事前確率と組み合わせて尤度関数を最大化することにより動作します。対数尤度がより便利であるため、MCMCを使用して、または事後分布を生成する(PDFを使用してを効果的に最大化し各パラメーターの事前確率と各データポイントの尤度)。∑ln(prior)+∑ln(likelihood)∑ln⁡(prior)+∑ln⁡(likelihood)\sum \ln (\text{prior}) + \sum \ln (\text{likelihood}) 大量のデータがある場合、そこから得られる可能性は、単純な数学によって、以前のデータが提供する情報を圧倒します。最終的に、これは設計上適切です。事後は、想定されているため、より多くのデータで尤度に収束することがわかっています。 共役事前分布によって定義された問題の場合、これは正確に証明できます。 与えられた尤度関数とサンプルサイズに対して事前分布が重要でない場合を決定する方法はありますか?
26 bayesian  prior 

7
さまざまなソースからの確率/情報の組み合わせ
3つの独立したソースがあり、それぞれが明日の天気を予測するとします。最初の人は明日の雨の確率が0であると言い、2番目の人は確率が1であると言い、最後の人は確率が50%であると言います。その情報が与えられた場合の合計確率を知りたいです。 独立したイベントに乗算定理を適用すると、0になりますが、これは正しくないようです。すべてのソースが独立している場合、3つすべてを乗算できないのはなぜですか?新しい情報が得られたときに事前を更新するベイジアンの方法はありますか? 注:これは宿題ではなく、私が考えていたものです。

1
ガウスモデルの最小二乗とMLEの等価性
私は機械学習が初めてで、自分で学習しようとしています。最近、私はいくつかの講義ノートを読んでいて、基本的な質問がありました。 スライド13は、「最小二乗推定はガウスモデルの最尤推定と同じです」と述べています。簡単なように思えますが、これは見えません。誰かがここで何が起こっているのか説明してもらえますか?私は数学を見ることに興味があります。 リッジとラッソ回帰の確率論的観点も後で見ようと思うので、私に役立つ提案があれば、それも高く評価されます。

2
ベイジアン手法が過剰適合しないのは本当ですか?
ベイジアン手法が過剰適合しないのは本当ですか?(この主張をするいくつかの論文やチュートリアルを見ました) たとえば、ガウス過程をMNIST(手書き数字分類)に適用し、単一のサンプルのみを表示する場合、その単一のサンプルとは異なる入力であっても、差は小さいものの前の分布に戻りますか?

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.