統計とビッグデータ maximum-likelihood

1

このページを読む：http : //neuralnetworksanddeeplearning.com/chap3.html また、クロスエントロピーを備えたシグモイド出力層は、対数尤度を備えたsoftmax出力層と非常に類似していると述べました。出力層で対数尤度を持つシグモイドまたはクロスエントロピーを持つソフトマックスを使用するとどうなりますか？大丈夫ですか？なぜなら、クロスエントロピー（eq.57）の方程式にはほとんど違いがないからです： C= − 1n∑バツ（ylna + （1 − y）ln（1 − a ）））C=−1n∑バツ（yln⁡a+（1−y）ln⁡（1−a））C = -\frac{1}{n} \sum\limits_x (y \ln a + (1-y) \ln (1-a)) および対数尤度（eq.80）： C= − 1n∑バツ（lnaLy）C=−1n∑バツ（ln⁡ayL）C =-\frac{1}{n} \sum\limits_x(\ln a^L_y)

31 neural-networks maximum-likelihood softmax

5

機械学習で階層/ネストされたデータを処理する方法

例で問題を説明します。いくつかの属性（年齢、性別、国、地域、都市）を与えられた個人の収入を予測するとします。あなたはそのようなトレーニングデータセットを持っています train <- data.frame(CountryID=c(1,1,1,1, 2,2,2,2, 3,3,3,3), RegionID=c(1,1,1,2, 3,3,4,4, 5,5,5,5), CityID=c(1,1,2,3, 4,5,6,6, 7,7,7,8), Age=c(23,48,62,63, 25,41,45,19, 37,41,31,50), Gender=factor(c("M","F","M","F", "M","F","M","F", "F","F","F","M")), Income=c(31,42,71,65, 50,51,101,38, 47,50,55,23)) train CountryID RegionID CityID Age Gender Income 1 1 1 1 23 M 31 2 1 1 1 48 F 42 3 1 1 2 62 M 71 4 …

29 regression machine-learning multilevel-analysis correlation dataset spatial paired-comparisons cross-correlation clustering aic bic dependent-variable k-means mean standard-error measurement-error errors-in-variables regression multiple-regression pca linear-model dimensionality-reduction machine-learning neural-networks deep-learning conv-neural-network computer-vision clustering spss r weighted-data wilcoxon-signed-rank bayesian hierarchical-bayesian bugs stan distributions categorical-data variance ecology r survival regression r-squared descriptive-statistics cross-section maximum-likelihood factor-analysis likert r multiple-imputation propensity-scores distributions t-test logit probit z-test confidence-interval poisson-distribution deep-learning conv-neural-network residual-networks r survey wilcoxon-mann-whitney ranking kruskal-wallis bias loss-functions frequentist decision-theory risk machine-learning distributions normal-distribution multivariate-analysis inference dataset factor-analysis survey multilevel-analysis clinical-trials

3

フィッシャー情報とはどのような情報ですか？

ランダム変数ます。場合は trueパラメータだった、尤度関数を最大化し、ゼロに等しい派生する必要があります。これが最尤推定量の背後にある基本原則です。バツ〜F（x | θ ）バツ〜f（バツ|θ）X \sim f(x|\theta)θ0θ0\theta_0 私が理解するように、フィッシャー情報は次のように定義されます私（θ ）= E [ （∂∂θf（X| θ））2]私（θ）=E[（∂∂θf（バツ|θ））2]I(\theta) = \Bbb E \Bigg[\left(\frac{\partial}{\partial \theta}f(X|\theta)\right)^2\Bigg ] したがって、が真のパラメーターである場合、です。しかし、が真のパラメーターでない場合、フィッシャーの情報が多くなります。θ0θ0\theta_0私（θ ）= 0私（θ）=0I(\theta) = 0θ0θ0\theta_0 私の質問フィッシャー情報は、特定のMLEの「エラー」を測定しますか？言い換えると、ポジティブなフィッシャー情報の存在は、私のMLEが理想的ではないことを意味しないのでしょうか？「情報」のこの定義は、シャノンが使用する定義とどのように異なりますか？なぜそれを情報と呼ぶのですか？

29 bayesian maximum-likelihood likelihood intuition fisher-information

1

切り捨てられた分布の最尤推定量

検討NNNの独立した試料SSSランダム変数から得られたXXX（例えばA切り捨て分布に従うと仮定される正規分布を切り捨て既知の（有限の）最小値と最大値の）およびBが、未知パラメータのμ及びσ 2。場合Xは非切り捨て分布に従って、最尤推定量は、μ及びσ 2のためのμ及びσ 2からSは試料の平均であろうμaaabbbμμ\muσ2σ2\sigma^2XXXμˆμ^\widehat\muσˆ2σ^2\widehat\sigma^2μμ\muσ2σ2\sigma^2SSSμˆ=1N∑iSiμ^=1N∑iSi\widehat\mu = \frac{1}{N} \sum_i S_i及び試料分散 σ 2=1σˆ2=1N∑i(Si−μˆ)2σ^2=1N∑i(Si−μ^)2\widehat\sigma^2 = \frac{1}{N} \sum_i (S_i - \widehat\mu)^2。しかし、切り捨て分布のために、このように定義されたサンプル分散はで囲まれている(b−a)2(b−a)2(b-a)^2、それは必ずしも一致推定量ではないのでための：σ2>(b−a)2σ2>(b−a)2\sigma^2 > (b-a)^2、それに対して確率で収束することができませんσ2σ2\sigma^2としてNNN無限大になります。そのようですので、 μ及び σ 2は、の最尤推定量ではありませんμμˆμ^\widehat\muσˆ2σ^2\widehat\sigma^2μμ\muそして、切り捨て配布するため。もちろん、これは以来、予想されるμとσ 2つの切断正規分布のパラメータは、その平均と分散ではありません。σ2σ2\sigma^2μμ\muσ2σ2\sigma^2 それでは、既知の最小値と最大値の切り捨てられた分布のおよびσパラメーターの最尤推定量は何ですか？μμ\muσσ\sigma

28 distributions estimation mathematical-statistics maximum-likelihood truncation

3

経験的尤度の例示的な用途は何ですか？

オーウェンの経験的可能性について聞いたことがありますが、最近まで興味のある論文で出くわすまで気にしませんでした（Mengersen et al。2012）。それを理解するための努力の中で、観測されたデータの尤度は、ここでおよびです。Σ I P I = 1 P I > 0L=∏ipi=∏iP(Xi=x)=∏iP(Xi≤x)−P(Xi<x)L=∏ipi=∏iP(Xi=x)=∏iP(Xi≤x)−P(Xi<x)L = \prod_i p_i = \prod_i P(X_i=x) = \prod_i P(X_i \le x) - P(X_i \lt x)∑ipi=1∑ipi=1\sum_i p_i = 1pi>0pi>0p_i > 0 しかし、私はこの表現を観察に関する推論を行うためにどのように使用できるかと結びつける精神的な飛躍をすることができませんでした。おそらく、モデルのパラメータについての尤度を考えることにあまりにも根ざしていますか？とにかく、私は概念を内在化するのに役立つ経験的可能性を採用しているいくつかの論文をGoogle Scholarで検索しています... 明らかに、経験的可能性に関するアートオーウェンの本がありますが、Googleブックスはすべてのおいしい部分を省き、私はまだ図書館間貸し出しの遅いプロセスにいます。それまでの間、誰かが経験的尤度の前提とそれがどのように採用されているかを明確に示す論文や文書を親切に私に指し示すことができますか？EL自体の説明も歓迎します！

28 bayesian maximum-likelihood nonparametric likelihood empirical-likelihood

5

最尤推定—多くの場合、バイアスがかかっているにもかかわらず使用される理由

最尤推定では、バイアスのかかった推定量が得られることがよくあります（たとえば、サンプル分散の推定値はガウス分布に対してバイアスがかけられます）。それで何がそんなに人気があるのでしょうか？なぜそんなに正確に使用されるのですか？また、特に代替アプローチであるモーメント法よりも優れている点は何ですか？また、ガウスでは、MLE推定量を単純にスケーリングすることでバイアスが偏らないことに気付きました。なぜこのスケーリングは標準的な手順ではないのですか？つまり、なぜMLE計算の後、推定量を不偏にするために必要なスケーリングを見つけるのが日常的ではないのですか？標準的な方法は、スケーリング係数がよく知られているよく知られたガウスの場合を除いて、MLE推定値の単純な計算のようです。

25 normal-distribution maximum-likelihood method-of-moments

3

偏った最尤推定量の背後にある直感的な推論

偏りのある最尤（ML）推定量に混乱があります。概念全体の数学は私にはかなり明確ですが、その背後にある直感的な推論を理解することはできません。分布からのサンプルを含む特定のデータセットがあり、それ自体が推定するパラメーターの関数である場合、ML推定器は、データセットを生成する可能性が最も高いパラメーターの値になります。バイアス付きML推定量を直感的に理解することはできません。パラメーターの最も可能性のある値は、間違った値へのバイアスを伴うパラメーターの実際の値をどのように予測できるのでしょうか。

25 maximum-likelihood bias

2

MLEでRのnlm関数を使用すべきでないのはいつですか？

最尤推定にRのnlmを使用することを提案するいくつかのガイドに出くわしました。ただし、それらのいずれも（Rのドキュメントを含む）、関数を使用するか使用しないかの理論的なガイダンスを提供しません。私が知る限り、nlmは単にNewtonの方法に沿って勾配降下を行っています。このアプローチを使用することが合理的である場合の原則はありますか？どのような選択肢がありますか？また、nlmに渡すことができる配列などのサイズに制限はありますか？

25 r maximum-likelihood

2

MLEを使用してニューラルネットワークの重みを推定できますか？

統計とモデルのことについて勉強し始めたところです。現在、私の理解では、MLEを使用してモデルの最適なパラメーターを推定することです。ただし、ニューラルネットワークがどのように機能するかを理解しようとすると、通常、代わりに別のアプローチを使用してパラメーターを推定するようです。なぜMLEを使用しないのか、またはMLEをまったく使用できないのですか？

23 maximum-likelihood neural-networks

4

MLEの問題には常にマキシマイザーがありますか？

最大（対数）尤度推定問題には常に最大化器があるのだろうか？言い換えれば、MLE問題に最大化機能がない分布とパラメーターがありますか？私の質問は、MLEのコスト関数（尤度または対数尤度、どちらが意図されたのかわからない）は常に凹であるため、常に最大化されているというエンジニアの主張から来ています。よろしくお願いします！

23 maximum-likelihood optimization

4

スチューデントのt分布のパラメーターの推定

スチューデントのt分布のパラメーターの最尤推定量は何ですか？それらは閉じた形で存在しますか？簡単なGoogle検索では結果が得られませんでした。今日は単変量のケースに興味がありますが、おそらくモデルを複数の次元に拡張する必要があります。編集：私は実際には主に場所とスケールのパラメータに興味があります。今のところ、自由度パラメーターが固定されていると仮定し、場合によっては後で数値を使用して最適値を見つけることができます。

23 estimation maximum-likelihood t-distribution

4

偏りのない最尤推定量は常に最良の偏りのない推定量ですか？

規則的な問題については、最良の正規の不偏推定量があれば、それは最尤推定量（MLE）でなければなりません。しかし、一般に、偏りのないMLEがある場合、それは最良の偏りのない推定量にもなります（または、分散が最小である限り、UMVUEと呼ぶべきでしょうか）。

22 mathematical-statistics maximum-likelihood unbiased-estimator

2

パラメータ推定のために二項分布の尤度関数を導出する方法は？

Miller and Freund's Probability and Statistics for Engineers、8ed（pp.217-218）によれば、二項分布（ベルヌーイ試行）で最大化される尤度関数は次のように与えられます。 L （p ）= ∏ni = 1pバツ私（1 − p ）1 - x私L（p）=∏私=1npバツ私（1−p）1−バツ私L(p) = \prod_{i=1}^np^{x_i}(1-p)^{1-x_i} この方程式に到達する方法は？他の分布であるポアソンとガウス分布に関しては、私にはかなり明らかなようです。 L （θ ）= ∏ni = 1distのPDFまたはPMF。L（θ）=∏私=1ndistのPDFまたはPMF。L(\theta) = \prod_{i=1}^n \text{PDF or PMF of dist.} しかし、二項式のものは少し異なります。率直に言うと、どのように n Cバツ pバツ（1 − p ）n − xnCバツ pバツ（1−p）n−バツnC_x~p^x(1-p)^{n-x} なる pバツ私（1 − p ）1 …

22 estimation maximum-likelihood bernoulli-distribution point-estimation

1

Rでは、ヘッセ行列を使用したoptimからの出力が与えられた場合、ヘッセ行列を使用してパラメーターの信頼区間を計算する方法は？

ヘッセ行列を使用したoptimからの出力が与えられた場合、ヘッセ行列を使用してパラメータ信頼区間を計算する方法 fit<-optim(..., hessian=T) hessian<-fit$hessian 最尤分析のコンテキストに主に興味を持っていますが、この方法を超えて拡張できるかどうか知りたいです。

22 r maximum-likelihood

4

最尤法を使用して多変量正規モデルを近似するときに共分散行列のプロパティを保証する方法は？

私は次のモデルを持っているとします yi=f(xi,θ)+εiyi=f(xi,θ)+εiy_i=f(x_i,\theta)+\varepsilon_i ここで、、は説明変数のベクトル、は非線形関数およびのパラメーターです。ここで当然行列。X I θ F ε I〜N （0 、Σ ）Σ K × Kyi∈RKyi∈RKy_i\in \mathbb{R}^Kxixix_iθθ\thetafffεi∼N(0,Σ)εi∼N(0,Σ)\varepsilon_i\sim N(0,\Sigma)ΣΣ\SigmaK×KK×KK\times K 目標は、およびを推定することです。明白な選択は最尤法です。このモデルの対数尤度（サンプルがあると仮定）は次のようになりますΣ （Y iは、X I）、iは= 1 、。。。、nθθ\thetaΣΣ\Sigma(yi,xi),i=1,...,n(yi,xi),i=1,...,n(y_i,x_i),i=1,...,n l(θ,Σ)=−n2log(2π)−n2logdetΣ−∑i=1n(yi−f(xi,θ))′Σ−1(y−f(xi,θ)))l(θ,Σ)=−n2log⁡(2π)−n2log⁡detΣ−∑i=1n(yi−f(xi,θ))′Σ−1(y−f(xi,θ)))l(\theta,\Sigma)=-\frac{n}{2}\log(2\pi)-\frac{n}{2} \log\det\Sigma-\sum_{i=1}^n(y_i-f(x_i,\theta))'\Sigma^{-1}(y-f(x_i,\theta))) これは簡単に思えますが、対数尤度が指定され、データが入力され、非線形最適化のために何らかのアルゴリズムが使用されます。問題は、ΣΣ\Sigmaが正定であることを確認する方法です。たとえばoptimR（またはその他の非線形最適化アルゴリズム）で使用しても、ΣΣ\Sigmaが正定であることは保証されません。質問は、ΣΣ\Sigmaが確実に正定値を維持するようにする方法ですか？次の2つの解決策があります。 Rが上三角行列または対称行列である場合、RRとしてΣΣ\Sigmaを再設定します。その場合、\ Sigmaは常に正定値になり、Rは制約なしになります。RR′RR′RR'RRRΣΣ\SigmaRRR プロファイル尤度を使用します。およびの式を導き出します。いくつかのから開始して、、収束するまで。θ^(Σ)θ^(Σ)\hat\theta(\Sigma)Σ^(θ)Σ^(θ)\hat{\Sigma}(\theta)θ0θ0\theta_0Σ^j=Σ^(θ^j−1)Σ^j=Σ^(θ^j−1)\hat{\Sigma}_j=\hat\Sigma(\hat\theta_{j-1})θ^j=θ^(Σ^j−1)θ^j=θ^(Σ^j−1)\hat{\theta}_j=\hat\theta(\hat\Sigma_{j-1}) 他の方法はありますか？これらの2つのアプローチはどうですか？それらは機能しますか？それらは標準ですか？これはかなり標準的な問題のように思えますが、クイック検索では何の指針も得られませんでした。ベイジアン推定も可能であることは知っていますが、当面はそれを行いたくありません。

22 maximum-likelihood optimization covariance

タグ付けされた質問 「maximum-likelihood」

タグ付けされた質問「maximum-likelihood」