タグ付けされた質問 「maximum-likelihood」

特定のサンプルを観察する確率を最適化するパラメーター値を選択することにより、統計モデルのパラメーターを推定する方法。


3
「制限付き最尤法」とは何ですか?いつ使用する必要がありますか?
この論文の要旨で次のことを読みました。 「Hartley aud Raoの最尤法(ML)手続きは、尤度を2つの部分に分割するパターソンとトンプソンからの変換を適用することによって修正されます。1つは固定効果がありません。 (REML)推定量。」 また、このペーパーの要約でREML を読みました。 「固定効果の推定から生じる自由度の損失を考慮します。」 悲しいことに、私はそれらの論文の全文にアクセスできません(そして、もし私がそうしたら理解できないでしょう)。 また、REMLとMLの利点は何ですか?混合効果モデルをフィッティングする場合、どのような状況下でMLよりもREMLが好まれるか(またはその逆)。数学の背景が高校(またはそれ以上)の人に適した説明をお願いします!

8
既存の変数と定義された相関関係を持つランダム変数を生成します
シミュレーション研究のために、既存の変数に対する事前定義された(母集団)相関を示すランダム変数を生成する必要があります。YYY 私は、に見えたRパッケージcopulaとCDVine特定の依存構造を持つランダムな多変量分布を生成することができました。ただし、結果の変数の1つを既存の変数に修正することはできません。 アイデアや既存の機能へのリンクを歓迎します! 結論: さまざまなソリューションで、2つの有効な答えが出ました。 カラカルによるR スクリプト。事前定義された変数との正確な(サンプル)相関を持つランダム変数を計算します 事前定義された変数に対する定義された母集団相関を持つランダム変数を計算するR 関数 [@ttnphnsの追加:質問のタイトルを単一の固定変数の場合から任意の数の固定変数に拡大するために自由を取りました。すなわち、いくつかの固定された既存の変数と事前定義された相関を持つ変数を生成する方法]

7
モーメント法が小さなサンプルで最尤法に勝てる例?
最尤推定量(MLE)は漸近的に効率的です。サンプルサイズが小さい場合でも、モーメント法(MoM)推定(それらが異なる場合)よりも優れていることが多いという点で、実際的な結果が見られます。 ここで「より良い」とは、両方がバイアスされていない場合の分散が通常小さいという意味で、より一般的には平均二乗誤差(MSE)が小さいことを意味します。 ただし、問題は発生します。 MoMがMSEで、たとえば小さなサンプルでMLEに勝てる場合はありますか? (これは奇妙な/退化した状況ではありません-つまり、MLが存在する条件が与えられた場合/漸近的に効率的なホールドになる場合) その場合、フォローアップの質問は「どれだけ小さいことができますか?」-つまり、例があれば、比較的大きなサンプルサイズ、おそらくはすべて有限のサンプルサイズでも保持されるものがありますか? [有限サンプルでMLに勝てるバイアス付き推定器の例を見つけることができますが、MoMではありません。] レトロスペクティブに追加された注:ここでの私の焦点は、主に単変量の場合(実際には、私の根底にある好奇心がどこから来ているか)です。多変量のケースを除外したくはありませんが、ジェームズ・スタイン推定の詳細な議論に迷いたくはありません。


9
高度な統計図書の推奨事項
このサイトには、入門統計と機械学習に関する本の推奨事項に関するいくつかのスレッドがありますが、優先順位の順に、最尤、一般化線形モデル、主成分分析、非線形モデルなど、高度な統計に関するテキストを探しています。AC Davisonによる統計モデルを試しましたが、率直に言って、2つの章の後にそれを書き留めなければなりませんでした。テキストはその範囲と数学的扱いにおいて百科事典ですが、実務家として、私は最初に直観を理解することによって主題にアプローチするのが好きで、それから数学的背景を掘り下げます。 これらは、教育的価値のために私が傑出していると考えるいくつかのテキストです。私が言及したより高度な主題に相当するものを見つけたいと思います。 Statistics、D。Freedman、R。Pisani、R。Purves。 予測:メソッドとアプリケーション、R。Hyndman et al。 多重回帰とその先、TZキース 現代の統計的手法の適用、Rand R. Wilcox Rのアプリケーションを使用した統計学習の概要-(PDFリリース版)、Gareth James、Daniela Witten、Trevor Hastie、Robert Tibshirani 統計学習の要素:データマイニング、推論、および予測。-(PDFリリース版)、Hastie、Tibshirani、Friedman(2009)

2
フィッシャー情報行列とヘッセ行列誤差および標準誤差との関係に関する基本的な質問
わかりました、これは非常に基本的な質問ですが、私は少し混乱しています。私の論文では、次のように書いています。 (観測された)フィッシャー情報行列の対角要素の平方根の逆数を計算することにより、標準誤差を見つけることができます。 -ログLI(μ、σ2)=H-1sμ^,σ^2=1I(μ^,σ^2)−−−−−−√sμ^,σ^2=1I(μ^,σ^2)\begin{align*} s_{\hat{\mu},\hat{\sigma}^2}=\frac{1}{\sqrt{\mathbf{I}(\hat{\mu},\hat{\sigma}^2)}} \end{align*} Rの最適化コマンドは最小化するため、(観測された)フィッシャー情報行列は、ヘッセ行列の逆数を計算することで見つけることができます: −logL−log⁡L-\log\mathcal{L}I( μ^、σ^2)= H− 1I(μ^,σ^2)=H−1\begin{align*} \mathbf{I}(\hat{\mu},\hat{\sigma}^2)=\mathbf{H}^{-1} \end{align*} 私の主な質問:これは私が言っていることは正しいですか? 7ページのこのソースでは次のように書かれているため、少し混乱しています。 情報行列は、ヘッセ行列の期待値の負です (したがって、ヘッセ行列の逆行列はありません。) 一方、このソースの 7ページ(脚注5)には次のように記載されています。 観測されたフィッシャー情報は等しくなります。(− H)− 1(−H)−1(-H)^{-1} (だからここは逆です。) 私はマイナス記号とそれをいつ使用するか、そしていつ使用しないかを知っていますが、なぜ逆符号をとるかどうかで違いがありますか?


4
負の尤度が尤度の最大化に等しい場合、なぜそれを最小化するのですか?
この質問は長い間私を困惑させてきました。可能性を最大化する際に「ログ」を使用することを理解しているため、「ログ」については質問しません。 私の質問は、対数尤度の最大化は「負の対数尤度」(NLL)の最小化と同等であるため、なぜこのNLLを発明したのですか?常に「ポジティブな可能性」を使用しないのはなぜですか?NLLはどのような状況で好まれますか? ここで少し説明を見つけました。https://quantivity.wordpress.com/2011/05/23/why-minimize-negative-log-likelihood/、深さの明らかな同等性を説明するようですが、私の混乱を解決しません。 任意の説明をいただければ幸いです。

2
共分散行列の逆数はデータについて何と言っていますか?(直感的に)
の性質に興味があります。「がデータについて何と言っているか」について、誰でも直観的に話せますか?Σ−1Σ−1\Sigma^{-1}Σ−1Σ−1\Sigma^{-1} 編集: 返信ありがとう いくつかの素晴らしいコースを受講した後、いくつかのポイントを追加したいと思います。 つまり、は方向沿った情報量です。xTΣ−1xxTΣ−1xx^T\Sigma^{-1}xxxx 双対性:のでそうである、正定である、我々は正則化最小二乗問題のためFenchelデュアルを導き出すことができるように、彼らはドット積規範ですので、より正確に、彼らはお互いのデュアル規範あり、二重問題の最大化を行います。条件に応じて、どちらかを選択できます。ΣΣ\SigmaΣ−1Σ−1\Sigma^{-1} ヒルベルト空間:と列(および行)は同じ空間にます。したがって、または表現の間に利点はありません(これらの行列のいずれかが悪条件の場合)Σ−1Σ−1\Sigma^{-1}ΣΣ\SigmaΣ−1Σ−1\Sigma^{-1}ΣΣ\Sigma ベイジアン統計:ノルムは、ベイジアン統計で重要な役割を果たします。それは我々が前に持っているどのくらいの情報決定すなわち、例えば、前の密度の共分散が似ているとき 我々は(前またはおそらくジェフリーズ)非有益持っていますΣ−1Σ−1\Sigma^{-1}∥Σ−1∥→0‖Σ−1‖→0\|\Sigma^{-1}\|\rightarrow 0 頻度統計: Cramér–Raoバウンドを使用して、フィッシャー情報と密接に関連しています。実際、フィッシャー情報マトリックス(対数尤度とそれ自体の勾配の外積)は、Cramér–Raoによってバインドされています。つまり、Σ−1⪯FΣ−1⪯F\Sigma^{-1}\preceq \mathcal{F}(wrt正半正円錐、iewrt濃度)楕円体)。したがって、Σ−1=FΣ−1=F\Sigma^{-1}=\mathcal{F}の場合、最尤推定量は効率的です。つまり、データに最大の情報が存在するため、頻度主義体制が最適です。簡単な言葉で言えば、いくつかの尤度関数(尤度の関数形式は、データを生成する推定モデル、別名生成モデルに純粋に依存することに注意)の場合、最尤法は効率的で一貫した推定量であり、ボスのようなルールです。(それをやりすぎて申し訳ありません)

2
スタインのパラドックスが次元のみ適用される理由の背後にある直観
スタインの例は、平均および分散をもつ正規分布変数の最尤推定値は場合に許容できないことを示しています(平方損失関数の下)。きちんとした証拠については、大規模推論の最初の章を参照してください: Bradley Effronによる推定、テスト、および予測のための経験的ベイズ法。μ 1、... 、μ nは 1 のn ≥ 3nnnμ1,…,μnμ1,…,μn\mu_1,\ldots,\mu_n111n≥3n≥3n\ge 3 、最も注目すべきは(これは非常に最初に私には驚くべきことであったが、1は、標準的な推定値は許容できないことを期待するかもしれない理由の背後にあるいくつかの直感があった場合、その後、 n。Steinの元の論文で概説されているように、以下にリンクされています)。x∼N(μ,1)x∼N(μ,1)x \sim \mathcal N(\mu,1)E∥x∥2≈∥μ∥2+nE‖x‖2≈‖μ‖2+n\mathbb{E}\|x\|^2\approx \|\mu\|^2+n 私の質問はむしろ:nnn次元空間(n≥3n≥3n\ge 3)のどの特性がR2R2\mathbb{R}^2欠けており、それがSteinの例を容易にしているのか?可能な答えは、nnn球の曲率、またはまったく異なるものです。 つまり、\ mathbb {R} ^ 2で MLEが許容されるのはなぜR2R2\mathbb{R}^2ですか? 編集1: @mpiktasへの応答では、1.30から1.31に続く懸念: Eμ(∥z−μ^∥2)=Eμ(S(N−2S)2)=Eμ((N−2)2S).Eμ(‖z−μ^‖2)=Eμ(S(N−2S)2)=Eμ((N−2)2S).E_\mu\left(\|z-\hat{\mu}\|^2\right)=E_\mu\left(S\left(\frac{N-2}{S}\right)^2\right)=E_\mu\left(\frac{(N-2)^2}{S}\right). μi^=(1−N−2S)ziμi^=(1−N−2S)zi\hat{\mu_i} = \left(1-\frac{N-2}{S}\right)z_iようEμ(∂μi^∂zi)=Eμ(1−N−2S+2z2iS2).Eμ(∂μi^∂zi)=Eμ(1−N−2S+2zi2S2).E_\mu\left(\frac{\partial\hat{\mu_i}}{\partial z_i} \right)=E_\mu\left( 1-\frac{N-2}{S}+2\frac{z_i^2}{S^2}\right).したがって、次のものがあります。 2∑i=1NEμ(∂μi^∂zi)=2N−2Eμ(N(N−2)S)+4Eμ((N−2)S)=2N−Eμ2(N−2)2S.2∑i=1NEμ(∂μi^∂zi)=2N−2Eμ(N(N−2)S)+4Eμ((N−2)S)=2N−Eμ2(N−2)2S.2\sum_{i=1}^N E_\mu\left(\frac{\partial\hat{\mu_i}}{\partial z_i} \right)=2N-2E_\mu\left(\frac{N(N-2)}{S}\right)+4E_\mu\left(\frac{(N-2)}{S}\right)\\=2N-E_\mu\frac{2(N-2)^2}{S}. 編集2:この論文では、スタインは、MLEがN = 2に対して許容されることを証明していN=2N=2N=2ます。

3
対数変換された予測子および/または応答の解釈
従属変数のみ、従属変数と独立変数の両方、または独立変数のみが対数変換されるかどうかの解釈に違いがあるのか​​と思います。 の場合を考えます log(DV) = Intercept + B1*IV + Error IVはパーセントの増加として解釈できますが、 log(DV) = Intercept + B1*log(IV) + Error または私が持っているとき DV = Intercept + B1*log(IV) + Error ?
46 regression  data-transformation  interpretation  regression-coefficients  logarithm  r  dataset  stata  hypothesis-testing  contingency-tables  hypothesis-testing  statistical-significance  standard-deviation  unbiased-estimator  t-distribution  r  functional-data-analysis  maximum-likelihood  bootstrap  regression  change-point  regression  sas  hypothesis-testing  bayesian  randomness  predictive-models  nonparametric  terminology  parametric  correlation  effect-size  loess  mean  pdf  quantile-function  bioinformatics  regression  terminology  r-squared  pdf  maximum  multivariate-analysis  references  data-visualization  r  pca  r  mixed-model  lme4-nlme  distributions  probability  bayesian  prior  anova  chi-squared  binomial  generalized-linear-model  anova  repeated-measures  t-test  post-hoc  clustering  variance  probability  hypothesis-testing  references  binomial  profile-likelihood  self-study  excel  data-transformation  skewness  distributions  statistical-significance  econometrics  spatial  r  regression  anova  spss  linear-model 

8
すべてのモデルは役に立ちませんか?正確なモデルは可能ですか?または有用ですか?
この質問は、1か月以上にわたって私の頭の中で悩まされてきました。Amstat Newsの 2015年2月号には、バークレー教授Mark van der Laanによる不正確なモデルの使用をforる記事が掲載されています。彼は、モデルを使用することで、統計は科学ではなく芸術になると述べています。彼によると、いつでも「正確なモデル」を使用でき、そうしないと「厳密性の欠如...データサイエンスにおける私たちの表現が取り残されてしまうのではないか」と心配しています。 私たちは疎外される危険にさらされていることに同意しますが、脅威は通常、おおよその方法を使用していないが、実際にはその方法がはるかに少ないと主張する人(ファンデルラーン教授のように聞こえます)慎重に適用された統計モデルよりも厳密です。 Van der Laan教授は、Boxのよく使われる引用を繰り返している人々に対して「すべてのモデルは間違っているが、一部は有用である」と軽ratherしていると言ってもいいと思います。基本的に、私がそれを読んだとき、彼はすべてのモデルが間違っていて、すべてが役に立たないと言っています。今、私はバークレーの教授に反対するだろうか?一方、私たちの分野の本当の巨人の一人の意見をそれほど軽んじて却下するのは誰ですか? 詳述すると、ファンデルラーン博士は、「すべてのモデルが間違っていると述べるのは完全にナンセンスです。たとえば、仮定を行わない統計モデルは常に正しい」と述べています。「しかし、多くの場合、私たちはそれよりもはるかに優れた結果を得ることができます。データは、独立した同一の実験の結果であることがわかります。非常に狭いランダムサンプリングまたは制御された実験設定を除いて、どのようにそれを知ることができるかわかりません。著者は、「機械学習/データ適応推定の最新技術、因果推論、打ち切りデータ、効率性、経験的経験のすべてを統合する、目標最尤学習と目標最小損失ベース学習の研究を指摘しています。正式な統計的推論を提供しながら、プロセス理論。」nnn 私が同意する声明もいくつかあります。彼は、私たちの仕事、統計学者としての役割、そして科学協力者を真剣に受け止める必要があると言います。聞いて聞いて!科学的な質問に答えることが適切かどうか、またはデータに適合するかどうかを慎重に検討せずに、人々が日常的にロジスティック回帰モデルなどを使用する場合、それは確かに悪いニュースです。そして、私はこのフォーラムに投稿された質問でそのような虐待の多くを見ています。しかし、パラメトリックなモデルであっても、不正確なモデルの効果的で価値のある使用法も見ています。そして、彼の言うこととは反対に、私はめったに「別のロジスティック回帰モデルによって死に退屈する」ことはありません。これが私の素朴さだと思います。 だからここに私の質問があります: まったく仮定を行わないモデルを使用して、どのような有用な統計的推論を行うことができますか? 対象の最尤法を使用した重要な実際のデータを使用したケーススタディはありますか?これらの方法は広く使用され、受け入れられていますか? すべての不正確なモデルは本当に役に立たないのですか? あなたが些細な場合以外の正確なモデルを持っていることを知ることは可能ですか? これがあまりにも意見に基づいているため、トピックから外れている場合、どこで議論できますか?ファン・デル・ラーン博士の記事は間違いなく議論が必要だからです。


1
glmerが最尤を達成しないのはなぜですか(さらに一般的な最適化を適用することにより検証されます)?
数値的に導出MLE SのGLMMは実際には、困難であると、私は知っている、我々は(使用して、例えばブルートフォース最適化を使用しないでくださいoptimシンプルな方法で)。しかし、私自身の教育目的のために、モデルを正しく理解するために試してみたいと思います(以下のコードを参照)。私はいつも矛盾した結果を得ることがわかったglmer()。 特に、MLE glmerを初期値として使用しても、記述した尤度関数に従って(negloglik)、MLEではありません(opt1$valueより小さいopt2)。次の2つの理由が考えられます。 negloglik うまく記述されていないため、数値エラーが多すぎます。 モデルの仕様が間違っています。モデル仕様の場合、対象モデルは次のとおりです。 fは二項PMFであり、Gは正常PDFです。a、 b、および sを推定しようとしています。特に、モデルの仕様が間違っているかどうか、正しい仕様は何かを知りたい。L = ∏i = 1n(∫∞- ∞f(y私| N、a 、b 、r私)g(r私| s)dr私)L=∏私=1n(∫−∞∞f(y私|N、a、b、r私)g(r私|s)dr私)\begin{equation} L=\prod_{i=1}^{n} \left(\int_{-\infty}^{\infty}f(y_i|N,a,b,r_{i})g(r_{i}|s)dr_{i}\right) \end{equation}fffgggaaabbbsss p <- function(x,a,b) exp(a+b*x)/(1+exp(a+b*x)) a <- -4 # fixed effect (intercept) b <- 1 # fixed effect (slope) s <- 1.5 # random effect (intercept) N <- 8 …

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.