タグ付けされた質問 「likelihood」

確率変数が与えられた バツ パラメータ化された分布から生じる Fバツ;θ、尤度は、観測データの確率としての関数として定義されます θLθ=Pθ;バツ=バツ

2
ベイズの定理をの形式で使用しないのはなぜですか?
連続的な場合のベイズの公式のいくつかのあいまいさについては(このように)多くの質問があります。 p(θ|x)=p(x|θ)⋅p(θ)p(x)p(θ|x)=p(x|θ)⋅p(θ)p(x)p(\theta | x) = \frac{p(x | \theta) \cdot p(\theta)}{p(x)} 多くの場合、条件付き分布定義は、が指定された固定の関数であると説明されているという事実から混乱が生じ。f(variable|parameter)f(variable|parameter)f(variable | parameter) fffvariablevariablevariableparameterparameterparameter それに加えて、尤度は次のように記述できることを示す等価原理があります L(θ|x)=p(x|θ)L(θ|x)=p(x|θ) L(\theta | x) = p(x | \theta) それでは、なぜ次の形式の分布にベイズ規則を使用しないのですか? P (θ | X )= L (θ | X )⋅ P (θ )p (x )p(θ|x)=L(θ|x)⋅p(θ)p(x)p(\theta | x) = \frac{L(\theta | x) \cdot p(\theta)}{p(x)} 観測データxが与えられた\ thetaの関数を 扱っていること、およびそれぞれの項が尤度(少なくともLで始まる)であることを強調するには?θθ\thetaバツxxLLL …

1
限界尤度を推定するのが難しい/扱いにくいのはなぜですか?
私がここで尋ねる一般的に基本的な質問がありますが、これはしばらくの間私を悩ませてきました。私がベイジアン統計を読んだことのほとんどを通して、それは事実上、限界尤度はしばしば扱いにくいか、推定することが難しいと述べました。どうして? しばしば述べられる理由には、推定される積分/総和の高次元の性質に関するステートメント、または可能なモデルの領域が無限であるというステートメントが含まれます。 このコミュニティに、理由を掘り下げ、この問題を簡単な言葉で説明することをお願いします。 リソースへのリンクもいただければ幸いです。これを明確に説明するリソースを探すために用語をグーグルで検索しましたが、それらのほとんどは説明なしで問題を述べているだけです。また、機械学習の本のパターン認識とケビンマーフィーの機械学習の本も持っています。私はこれらのテキストの説明に満足していないので、明確でシンプルなものを探しています。

1
多変量ホークスプロセスのMLE
多変量ホークスプロセス(HP)の最尤推定量の実装に苦労しています。具体的には、単変量HPの対数尤度関数の分析式はオンラインで簡単に見つけることができますが(たとえば、Ozaki、1979)、多変量HPの対数尤度関数のバージョンは(一貫性がないか、同等か)異なるようです。そこに。また、以下の推定量を自分で導き出そうとしたところ、さらに別の結果が得られました(ただし、このテーマは非常に新しいです)。誰かがこれを片付けてくれませんか?ありがとう! これは私が導き出したものです(私はLaub et al。、2015で使用されている表記に従います)。カウントプロセスのコレクションを考えは、各カウントプロセス(および a自然数)。強度がように指数関数的に減衰する消失関数を使用して多変量HPを定義します。このm変量HPの対数尤度は、個々の対数尤度の合計に等しくなります。つまり、N = (N 1、。。、NのM)T iは、J iは= 1 、。。、M J λ * I(T )= λ I + M Σ J = 1 Σ T J 、K < T α I 、J、E - β I 、J(T -mmmN=(N1,..,Nm)N=(N1,..,Nm)N=(N_{1},..,N_{m})ti,jti,jt_{i,j}i=1,..,mi=1,..,mi=1,..,mjjj LNL(T)のLNL(T)= M Σ J = 1つのLNLの J(T)LNLの J(T)=- T ∫ 0 …

1
上付き文字での意味は何である
尤度ベースの推論のコンテキストで、私は少し混乱しているので、関心のあるパラメーターに関するいくつかの表記を見てきました。 例えば、表記などとE θ [ S (θ )]。pθ(x)pθ(x)p_{\theta}(x)Eθ[S(θ)]Eθ[S(θ)]{\mathbb E}_{\theta}\left[S(\theta)\right] 上記の添え字表記におけるパラメーター()の意味は何ですか?言い換えれば、それをどのように読むべきでしょうか?θθ\theta 私の最初の仮定は、それが単に「パラメーター使って」を意味するということでした。例えば、用のp θ(X )、それは次のようになります。θθ\thetapθ(x)pθ(x)p_{\theta}(x) 「パラメーターθを持つの確率密度。」xxxθθ\theta しかし、これはおそらく正しくないと、一般的には、L (θが)でない分布は(すなわち、それは団結に統合されません)。したがって、それは密度ではあり得ないでしょうか?pθ(x)=L(θ)pθ(x)=L(θ)p_{\theta}(x) = L(\theta)L(θ)L(θ)L(\theta) また、の場合には、私はそれがに対する変更内容はよく分からないE [ (S (θ )](つまり添字付きθ省略します)。Eθ[S(θ)]Eθ[S(θ)]{\mathbb E}_{\theta}\left[S(\theta)\right]E[(S(θ)]E[(S(θ)]{\mathbb E}\left[(S(\theta)\right]θθ\theta 上記のとL (θ )は、それぞれスコア関数と尤度関数を表します。S(θ)S(θ)S(\theta)L(θ)L(θ)L(\theta)

3
MCMCはフラットな尤度の問題を処理します
Metropolis-Hastingsサンプラーが非常に不規則にパラメーター空間を移動する可能性が非常に低い可能性があります。つまり、提案分布のパラメーター(私の場合はガウス分布)に関係なく、収束は達成できません。私のモデルにはそれほど複雑ではありません-2つのパラメーターだけですが、MHはこのタスクを処理できないようです。それで、この問題の周りに何かトリックがありますか?非常に遠く後部テールに移動するマルコフチェーンを生成しないサンプラーはありますか? 問題の更新: 詳細を示して質問を再定式化しようとします。まず、モデルについて説明します。 2つのノードを持つグラフィカルモデルがあります。各ノードは、次のように自動ポアソンモデル(Besag、1974)によって制御されます または、2つのノードしかなく、等しいグローバル強度を想定しているため: P (X 1 | X 2 = X 2、θ 、α )〜P O I Sp(Xj|Xk=xk,∀k≠j,Θ)∼Poisson(eθj+∑j≠kθkjxk)p(Xj|Xk=xk,∀k≠j,Θ)∼Poisson(eθj+∑j≠kθkjxk)p\left ( X_{j} |X_{k}=x_{k},\forall k\neq j,\Theta \right )\sim Poisson\left ( e^{\theta _{j}+\sum _{j\neq k}\theta _{kj}x_{k}} \right )、P (X 2 | X 1 = X 1、θ 、α )〜P 、O 、I 、S 、S 、O …

1
MCMCチェーンからの奇妙な尤度トレース
私は行くモデルを持っています:Single parameter -> Complex likelihood function -> Log-likelihood。(MCMCを使用して)MCMCチェーンを実行し、パラメーターのトレースと対数尤度をプロットしました。パラメータの見積もりは妥当なものになりましたが、対数尤度プロットは奇妙に見えます。 対数尤度が特定の値を超えることはありません。この値が最尤値である場合、これは理にかなっていると思いますが、このような尤度のトレースを見たことはありません。私の質問は、これは正常ですか?

3
10,000回の試行で1回だけ発生する10000:1の確率
ランダムイベントの「可能性」と、実際に発生する可能性があると言われている正確な確率で実際に発生する特定の確率との違いを理解することに興味があります。つまり、イベントに10000分の1の確率がある場合、10000回の試行で正確に1回発生する可能性は2回ではなく、0回ではなく、3回ではなく、等々であり、どのように表現(および説明)するか偏差? イベントの確率が1:10,000の場合、10万回の試行で10回発生する可能性があります。1,000,000回の試行では、100回発生する可能性がありますが、1,000,000回の試行の任意のセットで何度も発生する可能性はそれほど高くありません。たとえば、98回、99回、101回、96回、102回など 統計的に言えば、特定の結果が実際に1:10000であり、1:9999や1:10001や1:10000.5などではないという統計的確実性に近づくために、平均化して説明しなければならない試行の数は?

1
可能性と確率
私はと困難持っている尤度を。ベイズの定理を理解しています p(A|B,H)=p(B|A,H)p(A|H)p(B|H)p(A|B,H)=p(B|A,H)p(A|H)p(B|H)p(A|B, \mathcal{H}) = \frac{p(B|A, \mathcal{H}) p(A|\mathcal{H})}{p(B|\mathcal{H})} これは、直接適用することから推定することができるp(A,B)=p(B)⋅p(A|B)=p(A)p(B|A)=p(B,A)p(A,B)=p(B)⋅p(A|B)=p(A)p(B|A)=p(B,A)p(A,B) = p(B) \cdot p(A|B) = p (A) p(B|A) = p(B,A)。したがって、私の解釈では、p(⋅)p(⋅)p(\cdot)ベイズの定理の関数は、どういうわけか限界または条件付きのすべての確率です。だから私は実際には、可能性を概念としての方が逆確率のより頻繁な見方だと思っていました。 しかし、私は今、可能性は確率分布ではないというベイズ主義者の本の発言を繰り返し見ました。昨日マッケイの本を読んで、私は次の声明につまずいた 「[...]尤度と確率という用語は同義語ではないことに注意することが重要です。数量P(nb|u,N)P(nb|u,N)P(n_b|u,N)は、nBnBn_Bと両方の関数uuuです。固定uuu場合、P(nb|u,N)P(nb|u,N)P(n_b|u,N)は、超える確率を定義します。nBnBn_B固定されたnBnBn_B場合、P(nB|u,N)P(nB|u,N)P(n_B|u,N)はの尤度を定義しuuuます。 次のように私はこれを理解する:p(A|B)p(A|B)p(A|B)の確率でAAA所与下BBB従って、機能probability:A→[0,1]probability:A→[0,1]\text{probability} : \mathcal{A}\to [0,1]。しかし、与えられた値を考慮∈ Aをし、評価のpを(Aは= | B ) 'は異なる上の依存B ∈ Bが '私たちは実際には異なる機能を使用しているよL :B → [ 0 、a∈Aa∈Aa \in Ap(A=a|B)p(A=a|B)p(A=a|B)b∈Bb∈Bb\in\mathcal{B}L:B→[0,1]L:B→[0,1]L : \mathcal{B}\to[0,1]。 この解釈は正しいですか? 最尤法は、事前分布が一定になるように選択されているベイズの定理によって動機付けられると言えるでしょうか。

2
膨大なデータセットが与えられた場合、なぜ統計モデルは過剰適合しますか?
現在のプロジェクトでは、特定のグループの行動を予測するモデルを構築する必要があるかもしれません。トレーニングデータセットには6つの変数のみが含まれます(idは識別目的のみです)。 id, age, income, gender, job category, monthly spend その中で monthly spend応答変数です。ただし、トレーニングデータセットには約300万行が含まれid, age, income, gender, job category、予測されるデータセット(応答変数は含まれるが、含まれない)には100万行が含まれます。私の質問は、統計モデルにあまりにも多くの行(この場合は300万行)を投げた場合に潜在的な問題はありますか?計算コストが懸念事項の1つであることを理解していますが、他に懸念事項はありますか?データセットのサイズの問題を完全に説明している本/紙はありますか?
8 modeling  large-data  overfitting  clustering  algorithms  error  spatial  r  regression  predictive-models  linear-model  average  measurement-error  weighted-mean  error-propagation  python  standard-error  weighted-regression  hypothesis-testing  time-series  machine-learning  self-study  arima  regression  correlation  anova  statistical-significance  excel  r  regression  distributions  statistical-significance  contingency-tables  regression  optimization  measurement-error  loss-functions  image-processing  java  panel-data  probability  conditional-probability  r  lme4-nlme  model-comparison  time-series  probability  probability  conditional-probability  logistic  multiple-regression  model-selection  r  regression  model-based-clustering  svm  feature-selection  feature-construction  time-series  forecasting  stationarity  r  distributions  bootstrap  r  distributions  estimation  maximum-likelihood  garch  references  probability  conditional-probability  regression  logistic  regression-coefficients  model-comparison  confidence-interval  r  regression  r  generalized-linear-model  outliers  robust  regression  classification  categorical-data  r  association-rules  machine-learning  distributions  posterior  likelihood  r  hypothesis-testing  normality-assumption  missing-data  convergence  expectation-maximization  regression  self-study  categorical-data  regression  simulation  regression  self-study  self-study  gamma-distribution  modeling  microarray  synthetic-data 

2
切り捨てられたデータの尤度関数
切り捨てられたデータの可能性の概念と導出を理解するのに少し問題があります。 たとえば、分布からのサンプルに基づいて尤度関数を検索したいが、分布からサンプルを取得する場合、切り捨てられた値を観察します(カットオフがあるMMM場合、つまり任意のMxi>Mバツ私>Mx_{i}>Mとして記録されます):MMM x1,x2,M,x3,M,x4,x5,...,x10バツ1、バツ2、M、バツ3、M、バツ4、バツ5、。。。、バツ10 x_{1}, x_{2}, M, x_{3}, M, x_{4}, x_{5}, ..., x_{10} 場所の数 MMM値はmメートルmです。次に、可能性はおそらく以下によって与えられます: L(x;θ)=∏10i=1f(xi;θ)∗[P(X>M)]mL(バツ;θ)=Π私=110f(バツ私;θ)∗[P(バツ>M)]メートルL(x;\theta) = \prod_{i=1}^{10}f(x_{i};\theta)*[P(X>M)]^{m} これがそうである理由の説明/証明、非常に重要なのはなぜ2番目の要素がそうであるのかを私は非常に感謝します。可能であれば直感的かつ数学的に。よろしくお願いします。

2
ときの尤度の計算
私はこの事後分布を計算しようとしています: (θ | − )= ∏んi = 1py私私(1 − p私)1 − y私Σすべてθ 、p私| θΠんi = 1py私私(1 − p私)1 − y私(θ|−)=Π私=1んp私y私(1−p私)1−y私Σすべてθ、p私|θΠ私=1んp私y私(1−p私)1−y私 (\theta|-)=\frac{\prod_{i=1}^{n}p_i^{y_i}(1-p_i)^{1-y_i}}{\sum_{\text{all}\,\theta,p_i|\theta}\prod_{i=1}^{n}p_i^{y_i}(1-p_i)^{1-y_i}} 問題は、ベルヌーイ(p私、y私)ベルヌーイ(p私、y私)\text{Bernoulli}(p_i,y_i)確率の束の積である分子が小さすぎることです。(私のんんnは大きく、約1500です)。 したがって、すべての事後値はすべてθθ\theta0と計算されます(私はRで計算を行っています)。 明確にするために、各y私y私y_iは独自のp私p私p_i、これらのはn yのn要素のp私p私p_iベクトルを作成します。各θには、p iの独自のn要素ベクトルがあります。んんnんんn yyyθθ\thetaんんnp私p私p_iます。 編集:再現例の追加(分子用) p <- sample(seq(0,1,by=0.01), 1500, replace=T) y <- sample(c(0,1), 1500, replace=T) dbern(y, p) # 1500-element vector, each element is < 1 prod(dbern(y, p)) …

1
MLE /対数正規分布区間の可能性
以下のサンプルのように、間隔として表される応答の変数セットがあります。 > head(left) [1] 860 516 430 1118 860 602 > head(right) [1] 946 602 516 1204 946 688 ここで、左は応答の下限、右は応答の上限です。対数正規分布に従ってパラメーターを推定したい。 しばらくの間、可能性を直接計算しようとしたとき、2つの境界が異なるパラメーターのセットに沿って分布しているため、以下のようないくつかの負の値が得られるという事実に苦労していました。 > Pr_high=plnorm(wta_high,meanlog_high,sdlog_high) > Pr_low=plnorm(wta_low, meanlog_low,sdlog_low) > Pr=Pr_high-Pr_low > > head(Pr) [1] -0.0079951419 0.0001207749 0.0008002343 -0.0009705125 -0.0079951419 -0.0022395514 私は実際にそれを解決する方法を理解できず、代わりに間隔の中間点を使用することに決めました。これは、間隔応答の対数尤度を抽出するmledist関数を見つけるまで、良い妥協です。これは私が得る要約です: > mledist(int, distr="lnorm") $estimate meanlog sdlog 6.9092257 0.3120138 $convergence [1] 0 …

1
通常の可能性と通常の事前確率で正方形を完了するにはどうすればよいですか?
中断したところから正方形を完成させるにはどうすればよいですか?これまでのところ正しいですか? 私はの形式の通常の事前を持っています。P (β | σ 2)〜N(0 、σ 2 V )ββ\betap(β|σ2)∼N(0,σ2V)p(β|σ2)∼N(0,σ2V)p(\beta|\sigma^2)\sim \mathcal{N}(0,\sigma^2V) p (β| σ2)= (2 πσ2V)p2exp[ − 12つのσ2βTβ]p(β|σ2)=(2πσ2V)p2exp⁡[−12σ2βTβ]p(\beta|\sigma^2)=(2\pi\sigma^2V)^\frac{p}{2}\exp[-\frac{1}{2\sigma^2}\beta^T\beta] ここで、は です。P Σ iは= 1 β 2 IβTββTβ\beta^T\betaΣi = 1pβ2私∑i=1pβi2\sum\limits_{i=1}^p \beta_i^2 私の可能性は、の形式のデータポイントyの正規分布を持っていますp (y| β、σ2)〜N(B β、σ2私)p(y|β,σ2)∼N(Bβ,σ2I)p(y|\beta,\sigma^2)\sim\mathcal{N}(B\beta,\sigma^2I) p (y| β、σ2)= (2 πσ2V)ん2exp[ − 12つのσ2(Y - B β)T(Y - B β)]p(y|β,σ2)=(2πσ2V)n2exp⁡[−12σ2(y−Bβ)T(y−Bβ)]p(y|\beta,\sigma^2)=(2\pi \sigma^2V)^\frac{n}{2}\exp[-\frac{1}{2\sigma^2}({\bf y}-{\bf B}{\bf \beta})^T({\bf …

2
フィッシャーのスコア関数は平均ゼロを持っています-それはどういう意味ですか?
尤度理論のプリンストンのレビューに従っています。彼らFisher’s score functionは、対数尤度関数の1次導関数として定義し、スコアはランダムなベクトルであると言います。例:幾何分布: u(π)=n(1π−y¯1−π)あなた(π)=ん(1π−y¯1−π) u(\pi) = n\left(\frac{1}{\pi} - \frac{\bar{y}}{1-\pi} \right) そして、それは確かに(パラメータ)関数であり、含むためランダムです。ππ\piy¯y¯\bar{y} しかし、彼らは私が理解していないことを言います:「真のパラメーター値評価されたスコアは平均ゼロです」と彼らはそれをとして公式化し。「真のパラメータ値」で評価して、その平均を見つけるとはどういう意味ですか?そして、幾何学的な例では、アイデンティティすると、すぐに?「真のパラメータ値」はこれとどのように関係していますか?ππ\piE(u(π))=0E(あなた(π))=0E(u(\pi)) = 0E(y)=E(y¯)=1−ππE(y)=E(y¯)=1−ππE(y) = E(\bar{y}) = \frac{1-\pi}{\pi}E(u(π))=0E(あなた(π))=0E(u(\pi)) = 0

1
スコア関数と漁師の情報を生徒に説明する(直感/例を提供する)
来週は、スコア関数とその分散(つまり、漁師情報)を生徒に教えます。 私は、これらの概念を説明し、生徒が理解できるようにする方法を探しています(クラスでよく行われているさまざまな分布についてそれらを計算するだけではありません)。 どんな提案も役に立ちます(スコア関数の背後にある直感とは何か、および尤度スコア関数101へのリンクを提供する以外に)

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.