タグ付けされた質問 「maximum-likelihood」

特定のサンプルを観察する確率を最適化するパラメーター値を選択することにより、統計モデルのパラメーターを推定する方法。

2
新しい観測ストリームとしてMLEを再帰的に更新
一般的な質問 我々はIIDデータ持っていると言う、、... |(boldsymbol {\シータ} \、\ X \、)\シムFの中でストリーミング私たちは、再帰的の最尤推定値を計算します。boldsymbol {\シータを} \。つまり、 \ hat {\ boldsymbol {\ theta}} _ {n-1} = \ underset {\ boldsymbol {\ theta} \ in \ mathbb {R} ^ p} {\ arg \ max} \ prod_ { i = 1} ^ {n-1} f(x_i \、| \、\ boldsymbol {\ theta})、 新しいx_nを観察し、推定値\ …

5
M推定器の経験的ヘッセ行列は不定にできますか?
Jeffrey Wooldridgeは、断面およびパネルデータの計量経済分析(357ページ)で、経験的なヘッシアンは、「作業中の特定のサンプルについて、正定値、または正定値でさえも保証されない」と述べています。 これは私にとって間違っているようです(数値問題は別として)ヘッシアンは、与えられたサンプルの目的関数を最小化するパラメーターの値としてのM-estimatorの定義と、 (ローカル)最小値では、ヘッセ行列は半正定です。 私の主張は正しいですか? [編集:文は第2版で削除されました。本の。コメントを参照してください。] 背景と仮定最小化することにより得られた推定量である 示し番目の観察。θˆNθ^N\widehat \theta_N1N∑i=1Nq(wi,θ),1N∑i=1Nq(wi,θ),{1 \over N}\sum_{i=1}^N q(w_i,\theta),wiwiw_iiii レッツの意味ヘッセ行列によって、 qqqHHHH(q、θ )私はj= ∂2q∂θ私∂θjH(q、θ)私j=∂2q∂θ私∂θjH(q,\theta)_{ij}=\frac{\partial^2 q}{\partial \theta_i \partial \theta_j} の漸近共分散にはがます。ここでは真のパラメーター値です。それを推定する1つの方法は、経験的なヘッセ行列を使用することですθˆnθ^n\widehat \theta_nE[ H(q、θ0)]E[H(q、θ0)]E[H(q,\theta_0)]θ0θ0\theta_0 Hˆ= 1N∑i = 1NH(w私、θˆn)H^=1N∑私=1NH(w私、θ^n)\widehat H=\frac{1}{N}\sum_{i=1}^N H(w_i,\widehat \theta_n) 問題になっているのは\ widehat Hの確定性ですHˆH^\widehat H。

6
最尤推定を使用することはありますか?
統計で最尤推定が使用されているかどうか疑問に思っています。私たちはその概念を学びますが、実際にいつ使用されるのでしょうか。データの分布を仮定すると、2つのパラメーターが見つかります。1つは平均用で、もう1つは分散用ですが、実際の状況で実際に使用しますか? 誰かがそれが使用されている簡単なケースを教えてもらえますか?

2
どのモデルの場合、MLEのバイアスは分散よりも速く低下しますか?
してみましょう trueパラメータの最尤推定値も一部のモデルの。データポイント数が増えると、エラーは通常O(1 / \ sqrt n)として減少します。三角形の不等式と期待値の特性を使用すると、このエラー率が「バイアス」\ lVert \ mathbb E \ hat \ theta-\ theta ^ * \ rVertと「偏差」\ lVert \ mathbb Eの両方を意味することを示すことができます。\ hat \ theta-同じO(1 / \ sqrt {n})での\ hat \ theta \ rVertの減少θ^θ^\hat\thetaθ∗θ∗\theta^*nnn∥θ^−θ∗∥‖θ^−θ∗‖\lVert\hat\theta-\theta^*\rVertO(1/n−−√)O(1/n)O(1/\sqrt n)∥Eθ^−θ∗∥‖Eθ^−θ∗‖\lVert \mathbb E\hat\theta - \theta^*\rVert∥Eθ^−θ^∥‖Eθ^−θ^‖\lVert \mathbb E\hat\theta - \hat\theta\rVertO(1/n−−√)O(1/n)O(1/\sqrt{n})割合。もちろん、モデルがより速い速度で縮小するバイアスを持つことは可能です。多くのモデル(通常の最小二乗回帰など)にはバイアスがありません。 O(1 / \ sqrt n)よりも速く収縮するバイアスを持つモデルに興味O(1/n−−√)O(1/n)O(1/\sqrt n)がありますが、偏差がO(1 …

1
完全な列ランク未満の制限付き最尤法
この質問は、線形モデルの特定のバージョンにおける制限付き最尤法(REML)の推定を扱っています。 Y=X(α)β+ϵ,ϵ∼Nn(0,Σ(α)),Y=X(α)β+ϵ,ϵ∼Nn(0,Σ(α)), Y = X(\alpha)\beta + \epsilon, \\ \epsilon\sim N_n(0, \Sigma(\alpha)), ここで、は、と同様に、でパラメーター化された()行列です。は迷惑パラメーターの未知のベクトルです。関心が推定である、私たちは持っている。最尤法によるモデルの推定は問題ありませんが、REMLを使用したいと思います。これはよく知られており、例えば、参照LaMotteを、尤度その、なるよう任意の半直交行列である書くことができます。X(α)X(α)X(\alpha)n×pn×pn \times pα∈Rkα∈Rk\alpha \in \mathbb R^kΣ(α)Σ(α)\Sigma(\alpha)ββ\betaαα\alphak≤p≪nk≤p≪nk\leq p\ll nA′YA′YA'YAAAA′X=0A′X=0A'X=0 LREML(α∣Y)∝|X′X|1/2|Σ|−1/2|X′Σ−1X|−1/2exp{−12r′Σ−1r},r=(I−X(X′Σ−1X)+X′Σ−1)Y,LREML(α∣Y)∝|X′X|1/2|Σ|−1/2|X′Σ−1X|−1/2exp⁡{−12r′Σ−1r},r=(I−X(X′Σ−1X)+X′Σ−1)Y, L_{\text{REML}}(\alpha\mid Y) \propto\vert X'X\vert^{1/2} \vert \Sigma\vert^{-1/2}\vert X'\Sigma^{-1}X\vert^{-1/2}\exp\left\{-\frac{1}{2} r'\Sigma^{-1}r \right\}, \\ r = (I - X(X'\Sigma^{-1}X)^+X'\Sigma^{-1})Y, when XXX is full column rank. My problem is that for some perfectly reasonable, and …

1
さまざまなトポロジのさまざまな推定量の収束動作について説明する必要があるのはなぜですか?
異なる機能空間での推定の収束について述べている本「代数幾何学と統計学習理論」の最初の章では、ベイジアン推定はシュワルツ分布トポロジーに対応し、最尤推定はsup-normトポロジーに対応していると述べています。 (7ページ): たとえば、sup-norm、LpLpL^p -norm、ヒルベルト空間の弱いトポロジ、シュワルツ分布トポロジなどです。収束が成立するかどうかは、関数空間のトポロジに大きく依存します。ベイズ推定はシュワルツ分布トポロジーに対応しますが、最尤法または事後法はsup-normに対応します。この違いは、特異モデルの学習結果に大きく影響します。L2L2L^2Kn(w )→ K(w )Kn(w)→K(w)K_n(w)\to K(w) ここで、とはそれぞれ、経験的KL発散(観測値に対する合計)と真のモデルとパラメーターモデル(パラメーターを使用)間の真のKL発散(積分とデータ分布)です。Kn(w)Kn(w)K_n(w)K(w )K(w)K(w)www 誰もが説明を与えることができますか、本のどの場所に正当性があるのか​​を教えてくれますか?ありがとうございました。 更新:著作権の内容は削除されました。

1
キャレットglmnetとcv.glmnet
glmnetwithin caretを使用して最適なラムダを検索cv.glmnetし、同じタスクを実行するために使用することの比較には、多くの混乱があるようです。 次のような多くの質問が提起されました。 分類モデルtrain.glmnet対cv.glmnet? キャレットでglmnetを使用する適切な方法は何ですか? 「キャレット」を使用して「glmnet」を相互検証する しかし、答えはありません。これは、質問の再現性による可能性があります。最初の質問に続いて、非常に似た例を挙げますが、同じ質問があります:推定されるラムダはなぜそんなに違うのですか? library(caret) library(glmnet) set.seed(849) training <- twoClassSim(50, linearVars = 2) set.seed(849) testing <- twoClassSim(500, linearVars = 2) trainX <- training[, -ncol(training)] testX <- testing[, -ncol(testing)] trainY <- training$Class # Using glmnet to directly perform CV set.seed(849) cvob1=cv.glmnet(x=as.matrix(trainX),y=trainY,family="binomial",alpha=1, type.measure="auc", nfolds = 3,lambda = seq(0.001,0.1,by = …

1
尤度を最大化するロジスティック回帰は、線形モデルよりもAUCも最大化する必要がありますか?
バイナリの結果およびいくつかの予測行列データセットが与えられると、標準ロジスティック回帰モデルは係数推定します二項尤度を最大化します。がフルランクの場合、は一意です。完全な分離が存在しない場合、有限です。y∈{0,1}ny∈{0,1}ny\in\{0,1\}^nX∈Rn×pX∈Rn×pX\in\mathbb{R}^{n\times p}βMLEβMLE\beta_{MLE}XXXβMLEβMLE\beta_{MLE} この最尤モデルはROC AUC(別名統計)も最大化しますか、またはより高いROC AUCを取得する係数推定存在しますか?MLEが必ずしもROC AUCを最大化するとは限らない場合、この質問を見るもう1つの方法は、「ロジスティック回帰のROC AUCを常に最大化する尤度最大化の代替手段はありますか?」です。cccβAUC≠βMLEβAUC≠βMLE\beta_{AUC} \neq \beta_{MLE} それ以外のモデルは同じであると仮定しています:で予測子を追加または削除したり、モデルの仕様を変更したりすることはなく、尤度最大化モデルとAUC最大化モデルが同じリンク関数を使用していると仮定しています。XXX

1
個々のサンプルの確率が0であるのに、なぜMLEが理にかなっていますか?
これは、いくつかの古い統計を確認しているときに感じた奇妙な考えであり、何らかの理由でその答えを考えることができないようです。 連続PDFは、特定の範囲の観測値の密度を示します。すなわち、場合X∼N(μ,σ2)X∼N(μ,σ2)X \sim N(\mu,\sigma^2)、例えば、次に実現が間に入る確率とBは単に∫ bは φを(X )D Xここでφは、標準正規の密度です。aaabbb∫baϕ(x)dx∫abϕ(x)dx\int_a^{b}\phi(x)dxϕϕ\phi たとえばμμ\muパラメーターのMLE推定を行うことを考えるとき、たとえばNNNランダム変数X1..XNX1..XNX_1 .. X_Nの結合密度を書きます。。X Nとする対数尤度WRT分化μμ\mu、0に等しく設定し、について解きますμμ\mu。しばしば与えられる解釈は「データが与えられると、どのパラメーターがこの密度関数をもっともらしいものにするか」です。 私を悩ませている部分はこれです:NNN rvの密度があり、特定の実現、たとえばサンプルを取得する確率は正確に0です。データ(繰り返しますが、実際のサンプルを観察する確率は正確に0です)? 私が思いつく唯一の合理化は、領域内の積分(したがって、この領域内のデータを観測する確率)が最高になるように、観測されたサンプルの周囲で PDFを可能な限りピークにしたいということです。

1
頻繁な条件付き推論はまだ実際に使用されていますか?
私は最近、ナンシー・リード、バーンドルフ・ニールセン、リチャード・コックス、そしてはい、頻度論的パラダイムにおける「条件付き推論」の概念に関する小さなロナルド・フィッシャーによるいくつかの古い論文をレビューしました。サンプルスペース全体ではなく、サンプルスペースの「関連サブセット」。 重要な例として、サンプルの変動係数(補助統計と呼ばれる)も考慮すると、t統計に基づく信頼区間を改善できることが知られています(Goutis&Casella、1992)。 尤度ベースの推論を定期的に使用する人として、漸近%-confidence interval を形成するとき、尤度は観測されたサンプルに条件があるため、(近似)条件推論を実行していると想定しました。αα\alpha 私の質問は、条件付きロジスティック回帰とは別に、推論の前に補助統計を条件付けするという考え方をあまり利用していないということです。このタイプの推論は指数関数族に制限されていますか、それとも最近では別の名前で行われているので、制限されているように見えます。 最近の記事(Spanos、2011年)を見つけましたが、条件付き推論(つまり、無秩序性)によるアプローチに深刻な疑問を投げかけているようです。代わりに、「不規則な」場合(分布のサポートがパラメーターによって決定される)のパラメトリック推論は、通常の無条件のサンプリング分布を切り捨てることによって解決できるという、非常に賢明で数学的に複雑でない提案を提案します。 Fraser(2004)は条件性をうまく防御しましたが、複雑なケースに条件付き推論を実際に適用するには、ほんの少しの運と工夫以上のものが必要であるという感覚が残っています...カイ2乗を呼び出すよりも確かに複雑です「近似」条件付き推論の尤度比統計の近似。 ウェールズ(2011年、163ページ)が私の質問(3.9.5、3.9.6)に答えたかもしれません。 彼らは、どの「関連サブセット」が最も関連性があるのか​​という質問を頼み、複数の補助的な統計値が存在する可能性があるというBasuのよく知られている結果(Basuの定理)を指摘しています。さらに悪いことに、一意の補助統計がある場合でも、他の関連サブセットの存在を排除しない2つの例を示しています。 彼らは、ベイジアンメソッド(またはそれらに相当するメソッド)のみがこの問題を回避でき、問題のない条件推論を可能にすると結論付けています。 参照: グーティス、コンスタンチノス、ジョージカセラ。「スチューデントの間隔の信頼性を高める。」ttt 統計学年報(1992):1501-1513。 スパノス、アリス。「Welch Uniform Modelの再考:条件付き推論のケース?」 統計科学の進歩と応用 5(2011):33-52。 フレーザー、DAS 「付属物と条件付き推論」。 統計科学 19.2(2004):333-369。 ウェールズ、アランH. 統計的推論の側面。巻 916.ジョンワイリー&サンズ、2011年。

1
ANOVAは最尤法ではなくモーメント法に依存していますか?
さまざまな場所で、ANOVAはモーメント法を使用して推定を行うと述べています。 瞬間の方法に精通していなくても、それは最尤法とは異なるものであり、同等ではないという私の理解だからです。一方、ANOVAは、カテゴリ予測変数との線形回帰として見ることができ、回帰パラメータのOLS推定は、ある最大尤。 そう: ANOVA手順をモーメント法として適格とするものは何ですか? ANOVAは、カテゴリカル予測子を使用したOLSと同等であるため、最尤ではありませんか? 通常のANOVAの特殊なケースでこれら2つの方法が何らかの形で同等であることが判明した場合、差異が重要になる特定のANOVA状況はありますか?不均衡な設計?繰り返し測定?混合(被験者間+被験者内)デザイン?

3
線形回帰:OLSとMLEの同一性を与える非正規分布はありますか?
この質問は、ここでのコメントの長い議論から着想を得ています: 線形回帰は正規分布をどのように使用しますか? :通常の線形回帰モデルでは、単純化のためにここで一つだけの予測で書かれた 知られている定数であり、ゼロ平均の独立した誤差項です。さらに誤差の正規分布を仮定すると、の通常の最小二乗推定量と最尤推定量は同じです。Yi=β0+β1xi+ϵiYi=β0+β1xi+ϵ私 Y_i = \beta_0 + \beta_1 x_i + \epsilon_i xixix_iϵiϵi\epsilon_iβ0,β1β0,β1\beta_0, \beta_1 だから私の簡単な質問:mleが通常の最小スクアレス推定量と同一になるような誤差項の他の分布はありますか?1つの含意は簡単に表示でき、もう1つの含意はそうではありません。

3
どちらがより優れた最尤法または限界尤度であり、なぜですか?
以下からの定義に従えば、回帰の実行中:部分尤度、プロファイル尤度、および限界尤度の違いは何ですか? つまり、最尤法は L(β、θ| data)を最大化するβとθを見つけます。 一方、限界尤度 我々は、βを条件とするθの確率分布を特定できるという事実を活用することにより、尤度方程式からθを統合します。 最大化するのに適した方法論とその理由はどれですか?

1
コーシー分布の位置パラメーターのMLE
センタリング後、2つの測定値xおよび−xは、確率密度関数を使用したコーシー分布からの独立した観測値であると仮定できます。 1f(x:θ)=f(x:θ)=f(x :\theta) = 、-∞&lt;X&lt;∞1π(1+(x−θ)2)1π(1+(x−θ)2)1\over\pi (1+(x-\theta)^2) ,−∞&lt;x&lt;∞,−∞&lt;x&lt;∞, -∞ < x < ∞ 場合、のMLE は0であるが、場合、±に等しいの2つのMLEがあることを示すθ のx 2 &gt; 1 θ √x2≤1x2≤1x^2≤ 1θθ\thetax2&gt;1x2&gt;1x^2>1θθ\thetax2−1−−−−−√x2−1\sqrt {x^2-1} 対数尤度を区別する必要があるMLEを見つけると思います。 =Σ2(XI-θ)dldθdldθdl\over d\theta =∑=∑=\sum =2(-X-θ)2(xi−θ)1+(xi−θ)22(xi−θ)1+(xi−θ)22(x_i-\theta)\over 1+(x_i-\theta)^2 === 2(−x−θ)1+(−x−θ)22(−x−θ)1+(−x−θ)22(-x-\theta)\over 1+(-x-\theta)^2 + =02(x−θ)1+(x−θ)22(x−θ)1+(x−θ)22(x-\theta)\over 1+(x-\theta)^2 =0=0=0 そう、 =2(X+θ)2(x−θ)1+(x−θ)22(x−θ)1+(x−θ)22(x-\theta)\over 1+(x-\theta)^2 === 2(x+θ)1+(x−θ)22(x+θ)1+(x−θ)22(x+\theta)\over 1+(x-\theta)^2 その後、私はそれを 5x2=3θ2+2θx+35x2=3θ2+2θx+35x^2 = 3\theta^2+2\theta x+3 今、私は壁にぶつかった。私はおそらくある時点で間違っていたかもしれませんが、どちらにせよ質問の答え方がわかりません。誰でも助けることができますか?

1
MLEとOLSの使用
通常の最小二乗法の代わりに最尤推定法を使用することが望ましいのはいつですか?それぞれの長所と制限は何ですか?一般的な状況でそれぞれを使用する場所に関する実用的な知識を収集しようとしています。

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.