タグ付けされた質問 「likelihood」

確率変数が与えられた バツ パラメータ化された分布から生じる Fバツ;θ、尤度は、観測データの確率としての関数として定義されます θLθ=Pθ;バツ=バツ

5
尤度の原則が*本当に*重要な例?
比例尤度を持つ2つの異なる防御可能なテストが著しく異なる(および同様に防御可能な)推論につながる例があります。たとえば、p値は桁違いに離れていますが、代替に対する力は似ていますか? 私が見るすべての例は非常にばかげており、二項と負の二項を比較しています。最初のp値は7%で、2番目のp値は3%です。 5%(ちなみに、推論の基準としてはかなり低い)などの重要性を持ち、権力を見ることすらしません。たとえば、しきい値を1%に変更すると、どちらも同じ結論になります。 著しく異なる防御可能な推論につながる例を見たことはありません。そのような例はありますか? 可能性の原理が統計的推論の基礎の基本的なものであるかのように、このトピックに多くのインクが費やされているのを見てきたので、私は尋ねています。しかし、上記のような馬鹿げた例が最良の例である場合、原則はまったく取るに足らないように見えます。 したがって、私は非常に説得力のある例を探しています.LPに従わない場合、証拠の重みは1つのテストで一方向を圧倒的に指し示しますが、比例尤度を持つ別のテストでは証拠の重みが反対方向を圧倒的に指摘し、両方の結論が理にかなっているように見えます。 理想的には、対検定など、同じ選択肢を検出するための比例尤度と同等の検出力など、任意の遠く離れた、しかし賢明な答えが得られることを実証できます。p=0.1p=0.1p =0.1p=10−10p=10−10p= 10^{-10} PS:ブルースの答えは、この質問をまったく扱っていません。

2
尤度原理が頻繁な確率と衝突する場合、そのうちの1つを破棄しますか?
ここに最近投稿されたコメントで、1人のコメンターが、頻度の高い推論が尤度の原則と衝突することを(ソースなしで)指摘するLarry Wassermanのブログを指摘しました。 尤度の原理は、同様の尤度関数を生成する実験は同様の推論を生成する必要があると単純に述べています。 この質問に対する2つの部分: 頻度論的推論のどの部分、フレーバーまたはスクールは、尤度原理に特に違反していますか? 衝突がある場合、どちらかを破棄する必要がありますか?もしそうなら、それからどれ?議論のために、ハッキングとロワイヤルが尤度原理は公理的であると私に確信させたので、何かを破棄しなければならない場合、衝突する頻度の高い推論の部分を破棄する必要があることをお勧めします。

1
プロファイル尤度の欠点は何ですか?
パラメータのベクトルを考えてみましょうで、関心のパラメータ、および A迷惑パラメータ。θ 1 θ 2(θ1,θ2)(θ1,θ2)(\theta_1, \theta_2)θ1θ1\theta_1θ2θ2\theta_2 場合データから構築尤度さのために、プロファイル尤度として定義される;(_2 = L(\ theta_1、\帽子{\シータ}(X \ theta_1)L_P \ theta_1); x)ここで、\ hat {\ theta} _2(\ theta_1)は\ theta_1の固定値に対する\ theta_2のMLEです。X θ 1 L P(θ 1 ; X )= L (θ 1、θ 2(θ 1); X )、θ 2(θ 1)θ 2 θ 1L(θ1,θ2;x)L(θ1,θ2;x)L(\theta_1, \theta_2 ; x)xxxθ1θ1\theta_1LP(θ1;x)=L(θ1,θ^2(θ1);x)LP(θ1;x)=L(θ1,θ^2(θ1);x)L_P(\theta_1 ; x) = L(\theta_1, \hat{\theta}_2(\theta_1) …

5
「尤度は、比例の乗法定数までしか定義されていません」とは実際にはどういう意味ですか?
筆者は、表面上は初心者への紹介として、最尤推定の議論からベイズの定理へと導く論文を読んでいます。 尤度の例として、二項分布から始めます。 p (x | n 、θ )= ( nバツ) θバツ(1 - θ )n − xp(x|n,θ)=(nx)θx(1−θ)n−xp(x|n,\theta) = \binom{n}{x}\theta^x(1-\theta)^{n-x} そして、両側を記録します ℓ (θ | x 、n )= x ln(θ )+ (n − x )ln(1 - θ )ℓ(θ|x,n)=xln⁡(θ)+(n−x)ln⁡(1−θ)\ell(\theta|x, n) = x \ln (\theta) + (n-x)\ln (1-\theta) 次の理由で: 「尤度は比例の乗法定数(または対数尤度の加法定数)までしか定義されていないため、二項係数を削除し、尤度の代わりに対数尤度を記述することにより、再スケーリングできます。」 数学は理にかなっていますが、「尤度は比例の乗法定数までしか定義されていない」と、これが二項係数を下げてp (x | n 、θ …

4
対数尤度対尤度を使用するための理論的動機
私は、統計学と確率論における対数尤度(そしておそらくより一般的には対数確率)の遍在性をより深いレベルで理解しようとしています。対数確率はあちこちに現れます。通常、分析(たとえば最大化)のために対数尤度を使用します。フィッシャー情報は対数尤度の2次導関数で定義され、エントロピーは期待される対数確率です。 、Kullback-Lieblerの発散には対数確率が含まれ、予想される逸脱は予想される対数尤度などです。 今、私は多くの実用的で便利な理由に感謝しています。多くの一般的で有用なpdfは、指数ファミリからのものであり、対数変換されると用語がエレガントに簡素化されます。合計は、製品よりも扱いやすい(特に差別化のため)。対数プローブには、直線プローブよりも優れた浮動小数点の利点があります。PDFをログ変換すると、多くの場合、非凹関数が凹関数に変換されます。しかし、ログプロブの理論的な理由/正当化/動機は何ですか? 私の困惑の例として、フィッシャー情報(FI)を考えてみましょう。FIを直観するための通常の説明は、対数尤度の2次導関数が対数尤度の「ピーク」を示していることです。 、ほぼ平坦な対数尤度(低い曲率)は、多くの異なるパラメーター値が(対数尤度に関して)MLEとほぼ同じくらい良いことを意味するため、MLEはより不確実です。 これはすべてうまくいきますが、尤度関数自体の曲率を見つけることはより自然ではありませんか?一見、対数変換の強調はarbitrary意的で間違っているように見えます。確かに、実際の尤度関数の曲率にもっと興味があります。代わりにスコア関数と対数尤度のヘッセ行列を使用するフィッシャーの動機は何ですか? 答えは、最終的に、対数尤度から漸近的に素晴らしい結果が得られるという単純なものですか?たとえば、Cramer-RaoおよびMLE /後方の正常性。または、より深い理由がありますか?

4
情報量の少ないまたは主観的な事前分布を通常使用する場合、ベイジアンフレームワークの解釈はどのように改善されますか?
それはデータ与えられたパラメータの確率を計算するので、それは多くの場合、(frequentist以上)ベイズフレームワークは解釈の大きな利点を持っていると主張している-の代わりに、のように、頻繁なフレームワーク。ここまでは順調ですね。p (x | θ )p (θ | x )p(θ|x)p(\theta|x)p (x | θ )p(x|θ)p(x|\theta) しかし、それが基づいている全体の方程式: p (θ | x )= p(x | θ )。p (θ )p (x )p(θ|x)=p(x|θ).p(θ)p(x)p(\theta|x) = {p(x|\theta) . p(\theta) \over p(x)} 私には2つの理由で少し疑っています: 多くの論文では、通常、情報量の少ない事前分布(均一分布)が使用され、その後のみが使用されます。ベイジアン事後確率と頻度論者の可能性が同じ分布である場合の解釈?同じ結果が得られます。p (θ | x )=p (x | θ )p(θ|x)=p(x|θ)p(\theta|x) = p(x|\theta) 有益な事前分布を使用すると、異なる結果が得られますが、ベイジアンは主観的な事前分布の影響を受けるため、全体にも主観的な色合いがあります。p (θ | x )p(θ|x)p(\theta|x) …

1
尤度原理に関する質問
私は現在、Likelihood Principleを理解しようとしていますが、率直に言ってまったく理解していません。それで、たとえそれらが非常に基本的な質問であっても、私はすべての質問をリストとして書きます。 この原則の文脈において、「すべての情報」という言葉は正確に何を意味するのでしょうか?(サンプル内のすべての情報が尤度関数に含まれているように。) この原理は、という非常に証明可能な事実に何らかの形で関係していますか?原則の「可能性」はp (y | x )と同じものですか、そうではありませんか?p(x|y)∝p(y|x)p(x)p(x|y)∝p(y|x)p(x)p(x|y)\propto p(y|x)p(x)p(y|x)p(y|x)p(y|x) 数学の定理はどのようにして「論争の的になる」ことができますか?私の(弱い)数学の理解は、定理が証明されるか、証明されないことです。Likelihood Principleはどのカテゴリに分類されますか? 尤度原理は、式に基づいたベイズ推論にとってどのように重要ですか?p(x|y)∝p(y|x)p(x)p(x|y)∝p(y|x)p(x)p(x|y)\propto p(y|x)p(x)

2
モデルのAICとそのログ変換バージョンの比較
私の質問の本質はこれです: LET平均値を有する多変量正規ランダム変数でと共分散行列。ましょう、すなわち。観測された実現に適合したモデルのAICと、観測された実現に適合したモデルのAICを比較するにはどうすればよいですか?Y∈RnY∈RnY \in \mathbb{R}^nμμ\muΣΣ\SigmaZ:=log(Y)Z:=log⁡(Y)Z := \log(Y)Zi=log(Yi),i∈{1,…,n}Zi=log⁡(Yi),i∈{1,…,n}Z_i = \log(Y_i), i \in \{1,\ldots,n\}YYYZZZ 私の最初のやや長い質問: LET多変量正規確率変数です。適合したモデルとに適合したモデルを比較したい場合、それらの対数尤度を調べることができます。ただし、これらのモデルはネストされていないため、対数尤度(およびAICなど)を直接比較することはできませんが、変換する必要があります。Y∼N(μ,Σ)Y∼N(μ,Σ)Y \sim \mathcal{N}(\mu,\Sigma)YYYlog(Y)log⁡(Y)\log(Y) 私があれば知っている関節のPDFを有するランダム変数であるとIF一対一の変換にと、のpdfは与えられますここで、Jは変換に関連付けられたヤコビアンです。X1,…,XnX1,…,XnX_1,\ldots,X_ng(x1,…,xn)g(x1,…,xn)g(x_1,\ldots,x_n)Yi=ti(X1,…,Xn)Yi=ti(X1,…,Xn)Y_i = t_i(X_1,\ldots,X_n)titit_ii∈{1,…,n}i∈{1,…,n}i \in \{1,\ldots,n\}Y1,…,YnY1,…,YnY_1,\ldots,Y_nf(y1,…,yn)=g(t−11(y),…,t−1n(y))det(J)f(y1,…,yn)=g(t1−1(y),…,tn−1(y))det(J)f(y_1,\ldots,y_n)=g(t_1^{-1}(y),\ldots,t_n^{-1}(y))\det(J)JJJ 単に変換ルールを使用して比較する必要がありますか l(Y)=log(∏i=1nϕ(yi;μ,Σ))l(Y)=log⁡(∏i=1nϕ(yi;μ,Σ))l(Y) = \log(\prod_{i=1}^{n}\phi(y_i;\mu,\Sigma)) to l(log(Y))=log(∏i=1nϕ(log(yi);μ,Σ))l(log⁡(Y))=log⁡(∏i=1nϕ(log⁡(yi);μ,Σ))l(\log(Y))=\log(\prod_{i=1}^{n}\phi(\log(y_i);\mu,\Sigma)) または私にできることは他にありますか? [編集]最後の2つの式に対数を入れるのを忘れました。

2
難易度の高い本当に単純なモデルの例は何でしょうか?
近似ベイズ計算は、基本的に任意の確率モデルをフィッティングするための本当にクールな手法です。尤度が手に負えないモデルを対象としています(たとえば、パラメーターを修正してもモデルからサンプリングできますが、数値的、アルゴリズム的、または分析的に尤度を計算することはできません)。聴衆におおよそのベイズ計算(ABC)を導入すると、本当に簡単ではあるがまだ多少面白いですいくつかの例のモデルを使用していいですし、それが難治可能性があります。 まだ手に負えない可能性がある本当に単純なモデルの良い例は何でしょうか?

3
単変量指数HawkesプロセスのMLEを見つける
単変量の指数関数的ホークスプロセスは、イベント到着率が次の自己励起ポイントプロセスです。 λ (t )= μ + ∑t私&lt; tα E- β(t − t私)λ(t)=μ+∑ti&lt;tαe−β(t−ti) \lambda(t) = \mu + \sum\limits_{t_i<t}{\alpha e^{-\beta(t-t_i)}} ここで、はイベント到着時間です。t1、。。tnt1,..tn t_1,..t_n 対数尤度関数は − tnμ + αβ∑ (e- β(tn− t私)− 1 ) + ∑i &lt; jln(μ + α E- β(tj− t私))−tnμ+αβ∑(e−β(tn−ti)−1)+∑i&lt;jln⁡(μ+αe−β(tj−ti)) - t_n \mu + \frac{\alpha}{\beta} \sum{( e^{-\beta(t_n-t_i)}-1 )} + \sum\limits_{i<j}{\ln(\mu+\alpha e^{-\beta(t_j-t_i)})} …

2
私たちは頻繁にベイジアンを暗黙的/無意識にしていますか?
与えられた推論問題について、ベイジアンアプローチは通常、形式と結果の両方が周波数論的アプローチと異なることを知っています。頻繁に(通常私を含む)彼らの方法は事前を必要としないため、「判断駆動型」よりも「データ駆動型」であるとしばしば指摘します。もちろん、ベイジアンのものは、情報価値のない事前分布を指すことができます。または、実際的であるため、本当に拡散事前分布を使用することもできます。 私の懸念は、特に私の周波数主義的客観性にうんざりしているように感じた後、おそらく「客観的」と言われる方法が、いくつかの異常な事前モデルとデータモデルであるにもかかわらず、ベイジアンフレームワークで定式化できることです。その場合、私は自分のフリークエンシー主義の手法が暗示する、とんでもない前例とモデルを至福のように知らないのでしょうか? ベイジアンがそのような定式化を指摘した場合、私の最初の反応は「まあ、それはあなたがそれを行うことができるのは素晴らしいことですが、それは私が問題について考える方法ではありません!」しかし、だれが私がそれについてどう考えるか、または私がそれをどのように公式化するかを気にします。私の手順は、統計的/数学的に等価である場合には、いくつかのベイズモデル、そして私は(暗黙的だ無意識のうちにベイズ推定を実行します!)。 以下の実際の質問 この実現は、独善的な誘惑を大幅に弱めました。ただし、ベイジアンのパラダイムがすべての頻繁な手順に対応できるかどうかはわかりません(再度、ベイジアンが適切な事前確率と尤度を選択した場合)。私は逆が間違っていることを知っています。 私が最近条件付き推論に関する質問を投稿したので、私はこれを尋ねます。そして、それは私を次の論文に導きました:ここ(3.9.5、3.9.6を見てください) 彼らは、どの「関連サブセット」が最も関連性があるのか​​という質問を頼み、複数の補助的な統計値が存在する可能性があるというバスの有名な結果を指摘しています。さらに悪いことに、一意の補助統計がある場合でも、他の関連サブセットの存在を排除しない2つの例を示しています。 彼らは、ベイジアンメソッド(またはそれらに相当するメソッド)のみがこの問題を回避でき、問題のない条件推論を可能にすると結論付けています。 それはケースではないかもしれないベイズ統計その Fequentist統計-ここでは、このグループへの私の質問です。しかし、2つのパラダイム間の基本的な選択は、目標よりも哲学にあるようです。高い条件精度または低い無条件エラーが必要ですか。⊃⊃\supset 特異なインスタンスを分析する必要がある場合、高い条件精度が適用されるようです-この方法は次のデータセット(ハイパーコンディショナリティ/特殊化)に適切または正確でないかもしれないという事実にもかかわらず、この特定の推論に対して正しいことを望みます。 長期的なエラーが最小化または制御されている限り、場合によっては条件付きで誤った推論を行う場合は、低無条件エラーが適切です。正直なところ、これを書いた後、私は時間に縛られて、ベイジアン分析を行うことができなかった場合を除き、なぜこれを望むのかわかりません...うーん。 尤度関数からいくつかの(漸近的/近似)条件付けを取得するため、尤度ベースのフェンティクストの推論を好む傾向がありますが、事前に調整する必要はありません-しかし、特にベイジアン推論に慣れてきました私は以前の小さなサンプル推論の正規化用語を参照します。 ごめんなさい。私の主な問題に対する助けをいただければ幸いです。

2
電圧計の話を頻繁に受けているのは何ですか?
電圧計の話とそのバリエーションを頻繁に取り上げているのは何ですか?その背後にある考え方は、仮説的なイベントにアピールする統計分析は、それらの仮説的なイベントが想定どおりに行われなかったことが後でわかった場合に修正する必要があるということです。 ウィキペディアのストーリーのバージョンは以下に提供されています。 エンジニアが電子管のランダムなサンプルを引き出し、その電圧を測定します。測定範囲は75〜99ボルトです。統計学者は、サンプル平均と真の平均の信頼区間を計算します。その後、統計学者は、電圧計が100までしか読み取らないことを発見したため、人口は「検閲」されているように見えます。統計学者が正統派の場合、これには新しい分析が必要です。しかし、エンジニアは、電圧が100を超えていた場合に使用する1000ボルトの別のメーター読み取り値があると言います。しかし、翌日、エンジニアは、この2番目のメーターが測定時に機能していなかったことを統計学者に通知します。統計学者は、メーターが修正されるまでエンジニアが測定値を保持しなかったことを確認し、新しい測定値が必要であることを彼に通知します。エンジニアは驚いています。「次に、私のオシロスコープについて尋ねます」。 話は明らかに馬鹿げていることを意図しているが、それがおもしろい方法論でどのような自由が取られているのかははっきりしていない。この場合、忙しい応用統計学者はこれについて心配することはないと思いますが、筋金入りのアカデミックなフリークエンティストはどうでしょうか? 独断的な頻度主義的アプローチを使用して、実験を繰り返す必要がありますか?すでに利用可能なデータから結論を引き出すことはできますか? また、ストーリーで作成されたより一般的なポイントに対処するために、既に持っているデータを利用したい場合、頻度結果のフレームワークに適合するように、仮想的な結果の必要な修正を行うことができますか?

1
ベイジアンになるためには、尤度の原則に従う必要がありますか?
この質問は、(もしあれば)頻繁なアプローチがベイジアンよりも実質的に優れているという質問から生まれました。 私はその質問に対する私の解決策で投稿したように、私の意見では、あなたが頻繁な主義者である場合、あなたはしばしば頻度主義者の 方法がそれに違反するため、尤度の原則を信じる/遵守する必要はありません。ただし、これは通常、適切な事前確率を前提としているため、ベイズ法は尤度の原則に違反することはありません。 だから今、あなたがベイジアンであるということは、尤度原理における自分の信念や合意を確認しますか、またはベイジアンであることは尤度原理が違反されないという素晴らしい結果をもたらすという議論ですか?

1
線形ガウスカルマンフィルターの対数尤度パラメーター推定
n次元状態ベクトルの線形ガウス状態空間解析用に、カルマンフィルタリングを実行できるコードをいくつか作成しました(多くの異なるカルマンタイプのフィルター[情報フィルターなど]を使用)。フィルターはうまく機能し、いくつかの素晴らしい出力を得ています。ただし、対数尤度推定によるパラメーター推定は私を混乱させます。私は統計学者ではなく物理学者なので、親切にしてください。 線形ガウス状態空間モデルを考えてみましょう yt= Ztαt+ ϵt、yt=Ztαt+ϵt、y_t = \mathbf{Z}_{t}\alpha_{t} + \epsilon_{t}, αt + 1= Ttαt+ Rtηt、αt+1=Ttαt+Rtηt、\alpha_{t + 1} = \mathbf{T}_{t}\alpha_{t} + \mathbf{R}_{t}\eta_{t}, ここで、は観測ベクトル、は時間ステップ状態ベクトルです。太字の量は、対象のシステムの特性に従って設定される状態空間モデルの変換行列です。私たちも持っていますytyty_{t}αtαt\alpha_{t}ttt η T〜N I D (0 、QはT)、α 1〜N I D (1、P 1)。ϵt〜N私D (0 、Ht)、ϵt〜N私D(0、Ht)、\epsilon_{t} \sim NID(0, \mathbf{H}_{t}), ηt〜N私D (0 、Qt)、ηt〜N私D(0、Qt)、\eta_{t} \sim NID(0, \mathbf{Q}_{t}), α1〜N私D (a1、P1)。α1〜N私D(a1、P1)。\alpha_{1} \sim NID(a_{1}, \mathbf{P}_{1}). ここで、です。ここで、初期パラメーターと分散行列を推測することにより、この一般的な状態空間モデルのカルマンフィルターの再帰を導出および実装しました\ mathbf …

2
異分散測定誤差を伴うAR(1)プロセス
1.問題 I変数のいくつかの測定値有する、、Iは、配信有するため簡単にするため、私は仮定しますMCMCを介して得られたが、平均値のガウス分布でありますと分散。ytyty_tt=1,2,..,nt=1,2,..,nt=1,2,..,nfyt(yt)fyt(yt)f_{y_t}(y_t)μtμt\mu_tσ2tσt2\sigma_t^2 これらの観測の物理モデル、たとえばありますが、残差相関しているようです。具体的には、私がいることを考えるのは物理的な理由持っているプロセスを考慮に相関を取るために十分であろう、と私は、私は必要のあるMCMC、経由フィットの係数を求めることを計画する可能性を。解決策はかなり簡単だと思いますが、私にはよくわかりません(とても簡単に思えるので、何かが足りないと思います)。g(t)g(t)g(t)rt=μt−g(t)rt=μt−g(t)r_t = \mu_t-g(t)AR(1)AR(1)AR(1) 2.尤度の導出 平均ゼロのAR(1)AR(1)AR(1)プロセスは次のように記述できます Xt=ϕXt−1+εt, (1)Xt=ϕXt−1+εt, (1)X_t = \phi X_{t-1}+\varepsilon_t,\ \ \ (1) ここで、εt∼N(0,σ2w)εt∼N(0,σw2)\varepsilon_t\sim N(0,\sigma_w^2)。したがって、推定されるパラメーターはθ={ϕ,σ2w}θ={ϕ,σw2}\theta = \{\phi,\sigma_w^2\}(私の場合、モデルg(t)のパラメーターも追加する必要がありますが、g(t)g(t)g(t)それは問題ではありません)。しかし、私が観察しているのは変数 Rt=Xt+ηt, (2)Rt=Xt+ηt, (2)R_t = X_t+\eta_t,\ \ \ (2) ここで\ eta_t \ sim N(0、\ sigma_t ^ 2)を想定してηt∼N(0,σ2t)ηt∼N(0,σt2)\eta_t\sim N(0,\sigma_t^2)おり、σ2tσt2\sigma_t^2は既知です(測定エラー)。XtXtX_tはガウス過程であるため、RtRtR_tもそうです。特に、私はそれを知っています X1∼N(0,σ2w/[1−ϕ2]),X1∼N(0,σw2/[1−ϕ2]),X_1 \sim N(0,\sigma_w^2/[1-\phi^2]), したがって、 R1∼N(0,σ2w/[1−ϕ2]+σ2t).R1∼N(0,σw2/[1−ϕ2]+σt2).R_1 \sim N(0,\sigma_w^2/[1-\phi^2]+\sigma_t^2). 次の課題は、t \ neq 1に対してR_t | R_ …

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.