タグ付けされた質問 「maximum-likelihood」

特定のサンプルを観察する確率を最適化するパラメーター値を選択することにより、統計モデルのパラメーターを推定する方法。

2
選択するパラメーター推定の方法を知るにはどうすればよいですか?
パラメータの推定には、かなりの数の方法があります。MLE、UMVUE、MoM、意思決定理論、その他はすべて、パラメーター推定に役立つ理由についてかなり論理的なケースがあるように見えます。ある方法は他の方法よりも優れていますか、それとも単に「最適な」推定量を定義する方法の問題ですか(直交誤差を最小化すると通常の最小二乗アプローチから異なる推定値が生成されるのと同様)?

1
尤度比検定の規則性条件は何ですか
尤度比検定の漸近分布の規則性条件は何か教えてもらえますか? 私が見ているところはどこでも、「規則性の下」または「確率的規則性の下」と書かれています。正確な条件は何ですか?最初と2番目の対数尤度導関数が存在し、情報行列がゼロでないこと それとも完全に別のものですか?

1
フィッシャーの厳密検定と超幾何分布
私はフィッシャーの正確なテストをよりよく理解したかったので、次のおもちゃの例を考案しました。ここで、fとmは男性と女性に対応し、nとyは次のように「ソーダ消費」に対応します。 > soda_gender f m n 0 5 y 5 0 明らかに、これは大幅な簡略化ですが、コンテキストが邪魔になりたくありませんでした。ここで私は男性がソーダを飲まず、女性がソーダを飲まないと仮定し、統計手順が同じ結論になるかどうかを確認したかっただけです。 Rでフィッシャーの正確検定を実行すると、次の結果が得られます。 > fisher.test(soda_gender) Fisher's Exact Test for Count Data data: soda_gender p-value = 0.007937 alternative hypothesis: true odds ratio is not equal to 1 95 percent confidence interval: 0.0000000 0.4353226 sample estimates: odds ratio 0 ここでは、p値が0.007937であるため、性別とソーダ消費が関連付けられていると結論付けます。 フィッシャーの正確な検定が超幾何分布に関連していることを知っています。だから私はそれを使って同様の結果を得たいと思った。つまり、この問題は次のように表示できます。10個のボールがあり、5個が「男性」、5個が「女性」とラベル付けされており、交換せずに5つのボールをランダムに描画すると、0個の男性ボールが表示されます。 。この観察の可能性は何ですか?この質問に答えるために、次のコマンドを使用しました。 …

4
最尤推定(MLE)とベイズの定理の比較
ベイジアン定理では、であり、私が読んでいる本から、は可能性が、私はそれだけだと仮定条件付き確率の与えられた、右? p(x|y)xyp (y|x)=p(x|y)p(y)p(x)p(y|x)=p(x|y)p(y)p(x)p(y|x) = \frac{p(x|y)p(y)}{p(x)}p(x|y)p(x|y)p(x|y)xxxyyy 最尤推定最大化しようとし権利を、?もしそうなら、私はひどく混乱しています、は両方ともランダム変数ですから?を最大化するには、を見つけるだけです。もう1つの問題、これらの2つの確率変数が独立している場合、はだけですよね?次に、を最大化すると、最大化されます。X 、Y 、P (X | Y )Y P (X | Y )P (X )P (X | Y )P (X )p(x|y)p(x|y)p(x|y)x,yx,yx,yp(x|y)p(x|y)p(x|y) y^y^\hat yp(x|y)p(x|y)p(x|y)p (x)p(x)p(x)p(x|y)p(x|y)p(x|y)p (x)p(x)p(x) あるいは、はいくつかのパラメータ関数、つまりであり、MLEは最大化できるを見つけようとしますか?または、が実際にはランダム変数ではなくモデルのパラメーターであっても、可能性を最大化するには?θ P (X | Y 、θ )θ P (X | Y )Y Yp(x|y)p(x|y)p(x|y)θθ\thetap(x|y; θ)p(x|y;θ)p(x|y; \theta)θθ\thetap(x|y)p(x|y)p(x|y)yyyy^y^\hat y 更新 私は機械学習の初心者です。この問題は、機械学習のチュートリアルで読んだものと混同しています。ここでは、観測されたデータセット与えられた場合、ターゲット値はであり、このデータセットにモデルを適合させようとしますなので、与えられた場合、はによってパラメーター化されたという名前の分布の形式、つまりを持ち、これは事後確率であると思いますか?、{ Y 1、Y 2、。。。、Y …

4
与えられた推定手法とパラメータに対して、サンプルはどのくらいの大きさでなければなりませんか?
与えられた数のパラメーターを使用してモデルを推定するために、サンプルの大きさを判断するための経験則、または何らかの方法さえありますか? したがって、たとえば、5つのパラメーターを使用して最小二乗回帰を推定する場合、サンプルはどのくらいの大きさである必要がありますか? 使用している推定手法(たとえば、最尤法、最小二乗法、GMM)、または実行するテストの数または数は重要ですか?決定を行う際にサンプルの変動性を考慮に入れる必要がありますか?

4
ディープラーニングにおけるMLEとクロスエントロピーの関係はどの程度意味がありますか?
一連の独立した観測 が与えられたことを理解してい最尤推定(または、平坦と同等に、MAP /均一前)ことを識別するパラメータ\ mathbf {θ}モデル分布生成 P_ {モデル} \ これらの観測に最もよく一致するleft(\、\ cdot \、; \ mathbf {θ} \ right)は、mmmO={o(1),...,o(m)}O={o(1),...,o(m)}\mathbb{O}=\{\mathbf{o}^{(1)}, . . . , \mathbf{o}^{(m)}\}θθ\mathbf{θ}pmodel(⋅;θ)pmodel(⋅;θ)p_{model}\left(\,\cdot\, ; \mathbf{θ}\right) θML(O)=pmodel(O;θ)=argmaxθ‎‎∏i=1mpmodel(o(i);θ)θML(O)=pmodel(O;θ)=arg⁡maxθ‎‎∏i=1mpmodel(o(i);θ)\mathbf{θ}_{ML}(\mathbb{O})= p_{model}\left(\mathbb{O}; \mathbf{θ}\right) = \underset{\mathbf{θ}}{\arg\max}‎‎\prod_{i=1}^{m} p_{model}\left(\mathbf{o}^{(i)}; \mathbf{θ}\right) または、より便利に θML(O)=argminθ∑i=1m−logpmodel(o(i);θ)θML(O)=arg⁡minθ∑i=1m−log⁡pmodel(o(i);θ)\mathbf{θ}_{ML}(\mathbb{O})= \underset{\mathbf{θ}}{\arg\min}\sum_{i=1}^{m} -\log p_{model}\left(\mathbf{o}^{(i)}; \mathbf{θ}\right) その役割を参照θMLθML\mathbf{θ}_{ML}、マルチクラスの深いニューラルネットワークを損失関数を定義する際に再生することができますがこれでθθ\mathbf{θ}ネットワークのトレーニング可能パラメータ(例えば、に相当するθ={W,b})θ={W,b})\mathbf{θ} = \{\mathbf{W}, \mathbf{b}\} )と観測は、入力アクティベーションxx\mathbf{x}と対応する正しいクラスラベルy∈[1,k]y∈[1,k]y \in [1, k]、\ mathbf {oのペアです。} ^ {(i)}o(i)o(i)\mathbf{o}^{(i)} = { …

1
三角分布のMLE?
通常のMLE手順を三角形の分布に適用することは可能ですか?-私は試していますが、分布が定義されている方法によって、数学のいずれかのステップでブロックされているようです。私は、cの上下のサンプル数を知っている(cを知らなくても)という事実を使用しようとしています。nがサンプルの総数である場合、これらの2つの数はcnと(1-c)nです。しかし、それは導出には役立たないようです。瞬間のモーメントは、cの推定量をほとんど問題なく与えます。ここでMLEに対する閉塞の正確な性質は何ですか(実際にある場合)? 詳細: さんが考えるで[ 0 、1 ]と上に定義されたディストリビューション[ 0 、1 ]によって: ccc[ 0 、1 ][0,1][0,1][ 0 、1 ][0,1][0,1] X <Cの場合、F(X、C)=2(1-X)f(x ; c )= 2 xcf(x;c)=2xcf(x;c) = \frac{2x}{c} c <= xの場合 f(x ; c )= 2 (1 - x )(1 − c )f(x;c)=2(1−x)(1−c)f(x;c) = \frac{2(1-x)}{(1-c)} このサンプルから与えられたcの対数尤度からこの分布から iidサンプル{ x i }を取りましょう:んnn{ x私}{xi}\{x_{i}\} l^(c | …

1
分散のMLEがガウス分布でバイアスされていることを理解するにはどうすればよいですか?
PRMLを読んでいて、画像が理解できません。絵を理解するためのヒントと、ガウス分布の分散のMLEが偏っている理由を教えてください。 式1.55: 式1.56 σ 2 M L E =1μMLE=1N∑n=1NxnμMLE=1N∑n=1Nxn \mu_{MLE}=\frac{1}{N} \sum_{n=1}^N x_n σ2MLE=1N∑n=1N(xn−μMLE)2σMLE2=1N∑n=1N(xn−μMLE)2 \sigma_{MLE}^2=\frac{1}{N}\sum_{n=1}^{N}(x_n-\mu_{MLE})^2

1
ヘッセ行列と共分散行列の関係
私は最尤推定を研究していますが、最尤推定で推論を行うには、分散を知る必要があります。分散を見つけるには、曲率に2次微分を持つヘッセ行列のように見えるクラマーのラオ下限を知る必要があります。共分散行列とヘッセ行列の間の関係を定義するために、私はちょっと混乱しています。質問についてのいくつかの説明を聞くことを願っています。簡単な例が評価されます。

4
尤度のない推論-それはどういう意味ですか?
最近、私は「可能性のない」方法が文学で取り残されていることに気づきました。ただし、推論または最適化の方法が尤度フリーであることの意味は明確ではありません。 機械学習の目的は、通常、一部のパラメーターがニューラルネットワークの重みなどの関数に適合する可能性を最大にすることです。 では、正確に尤度フリーのアプローチの哲学は何であり、なぜGANsのような敵対的なネットワークがこのカテゴリーに該当するのでしょうか?

4
エラーが正規分布していない場合、最小二乗法と最尤法の回帰法が等しくないのはなぜですか?
タイトルはそれをすべて言います。モデルのエラーが正規分布している場合、最小二乗と最大尤度は回帰係数に対して同じ結果になることを理解しています。しかし、エラーが正常に分布していない場合はどうなりますか?なぜ2つの方法が同等ではなくなったのですか?

2
制限付き最尤法が分散のより良い(バイアスされていない)推定値をもたらすのはなぜですか?
Rのlme4パッケージに関するDoug Batesの理論の論文を読んで、混合モデルの要点をよりよく理解し、制限付き最尤(REML)を使用して分散を推定することについて、より理解したい興味深い結果に出会いました。 REML基準のセクション3.3で、分散推定におけるREMLの使用は、近似線形モデルの残差から分散を推定するときの自由度補正の使用と密接に関連していると述べています。特に、「通常はこの方法で導出されることはありませんが」、「REML基準」の最適化を通じて分散を推定することにより、自由度補正を導出できます(式(28))。REML基準は基本的には尤度だけですが、線形フィットパラメーターは、(バイアスされたサンプル分散を与えるフィット推定に等しく設定する代わりに)マージナライズすることで削除されました。 私は計算を行い、固定効果のみの単純な線形モデルに対して主張された結果を検証しました。私が苦労しているのは解釈です。適合パラメーターが取り除かれた可能性を最適化することによって分散推定値を導き出すことが自然であるいくつかの視点がありますか?確率を事後として考え、フィット変数をランダム変数であるかのように取り除いているかのように、それはベイジアンのような感じです。 それとも正当化は主に数学的なものですか?それは線形の場合に機能しますが、一般化も可能ですか?

1
最尤推定の幾何学的解釈
私はフランクリンM.フィッシャーの『計量経済学における識別問題』という本を読んでいて、尤度関数を視覚化することで識別を示している部分に戸惑いました。 問題は次のように簡略化できます。 回帰の場合、どこU 〜I 。私。d 。N (0 、σ 2 I )、 及びBはパラメータです。Yの係数cが1に等しいと仮定します。その後の空間における尤度関数Cは、、bが なければならない真のパラメータとそのスカラー倍のベクトルに対応する線に沿ってリッジY= a + Xb + uY=a+Xb+uY=a+Xb+uU 〜I 。私。d。N(0 、σ2私)u∼i.i.d.N(0,σ2I)u \sim i.i.d. N(0,\sigma^2I)aaabbbYYYcccc 、a 、bc,a,bc, a,b。によって与えられる場所のみを考慮する場合、尤度関数は、光線がその平面と交差する点で一意の最大値を持ちます。c=1c=1c=1 私の質問は: デモンストレーションで言及された尾根と光線について、どのように理解し、それを推論すべきか。 光線は真のパラメーターとスカラーであるため、パラメーターcの真の値が1であるため、光線が与えられる平面上にないのはなぜですか。c=1c=1c=1ccc


1
頻出者のサンプリング分布を回帰設定でベイズ事後として解釈できないのはいつですか?
私の実際の質問は最後の2つの段落にありますが、それらに動機を与えるために: 既知の分散を持つ正規分布に従う確率変数の平均を推定しようとしている場合、平均に前に一様を置くと、尤度関数に比例する事後分布が得られることを読みました。これらの状況では、ベイジアン信頼区間は頻出信頼区間と完全に重なり、ベイジアン最大事後推定値は頻出最大尤度推定値と等しくなります。 単純な線形回帰設定では、 Y=Xβ+ϵ,ϵ∼N(0,σ2)Y=Xβ+ϵ,ϵ∼N(0,σ2)Y = \textbf{X}\beta+\epsilon, \hspace{1cm} \epsilon\sim N(0,\sigma^2) 上に均一な前入れと逆ガンマ前にσ 2後部の小さいパラメータ値の結果とβ M A P frequentistに非常に類似してβ M L E、及び事後配布のための信頼区間をβ | Xは、最尤推定値の周囲の信頼区間に非常に似ています。彼らはまったく同じではありませんので、上の前σ 2ββ\betaσ2σ2\sigma^2β^MAPβ^MAP\hat\beta^{MAP}β^MLEβ^MLE\hat\beta^{MLE}β|Xβ|X\beta|Xσ2σ2\sigma^2事後推定は矛盾の別のソースをご紹介しますMCMCシミュレーションを介して行われますが、周りのベイズの信頼区間あれば影響の少量を発揮し、β M A Pと周りfrequentist信頼区間β M L Eはなります互いにかなり近く、そしてもちろん、サンプルサイズが増加するにつれて、可能性の影響が前のもののそれを支配するように成長するにつれて、それらは収束するはずです。β^MAPβ^MAP\hat\beta^{MAP}β^MLEβ^MLE\hat\beta^{MLE} しかし、これらの同等性が成り立たない退行状況もあると私は読んだ。たとえば、変量効果のある階層回帰、またはロジスティック回帰-これらは、私が理解しているように、「良い」目的または参照の事前分布がない状況です。 だから私の一般的な質問はこれです-私がについて推論したいと仮定しますP(β|X)P(β|X)P(\beta|X)組み込む必要のある事前情報がないため、これらの状況で頻出の最尤推定を続行し、結果の係数推定と標準誤差をベイジアンMAP推定と標準偏差として解釈して、これらを暗黙的に処理できないのはなぜですか?そのような事後につながるだろう事前の明確な定式化を見つけることを試みることなしに「有益ではない」に違いない事前からの「事後」推定は?一般に、回帰分析の領域では、これらの線に沿って(事後のように可能性を処理することで)続行しても問題ないのはいつですか。準尤度法など、尤度ベースではない頻出法についてはどうでしょうか。 答えは、推論の対象が係数点の推定であるか、係数が特定の範囲内にある確率であるか、または予測分布の量であるかによって異なりますか?

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.