統計とビッグデータ likelihood

2

この質問はこれによって動機づけられます。私は2つのソースを調べましたが、これが私が見つけたものです。 A. van der Vaart、漸近統計：プロファイルの尤度を明示的に計算することはほとんど不可能ですが、その数値評価はしばしば実行可能です。次に、プロファイル尤度は、尤度関数の次元を減らすのに役立ちます。プロファイル尤度関数は、多くの場合、パラメトリックモデルの（通常の）尤度関数と同じ方法で使用されます。離れて推定した最大の彼らのポイントを取ることから、で二次微分の推定マイナス電子の漸近共分散行列の逆行列として使用されます。最近の研究は、この実践を検証しているようです。θ^θ^\hat\thetaθ^θ^\hat\theta J.ウォルドリッジ、断面およびパネルデータの計量経済分析（両方のエディションで同じ）：漸近特性を研究するためのデバイスとして、一般にすべてに依存するため、集中目的関数の値は制限されます。方程式（12.89）がiid関数の合計である設定は、特定の非線形パネルデータモデルから個々の特定の効果を集中させるときに発生します。さらに、集中目的関数は、一見異なる推定アプローチの等価性を確立するのに役立ちます。g(W,β)g（W、β）g(W,\beta)WWW Wooldridgeは、M推定器のより広いコンテキストで問題を説明しているため、最尤推定器にも適用されます。したがって、同じ質問に対して2つの異なる回答が得られます。私の意見では悪魔は詳細にあります。一部のモデルでは、プロファイル尤度のヘッセを、一部のモデルでは安全に使用できます。条件を与える一般的な結果はありますか？

13 estimation maximum-likelihood likelihood asymptotics profile-likelihood

2

ロジスティック回帰と尤度を理解する

パラメーター推定/ロジスティック回帰のトレーニングは実際にどのように機能しますか？これまでに手に入れたものを入れようとします。出力はyであり、xの値に応じた確率の形でのロジスティック関数の出力： P(y=1|x)=11+e−ωTx≡σ(ωTx)P(y=1|x)=11+e−ωTx≡σ(ωTx)P(y=1|x)={1\over1+e^{-\omega^Tx}}\equiv\sigma(\omega^Tx) P(y=0|x)=1−P(y=1|x)=1−11+e−ωTxP(y=0|x)=1−P(y=1|x)=1−11+e−ωTxP(y=0|x)=1-P(y=1|x)=1-{1\over1+e^{-\omega^Tx}} 1つの次元について、いわゆるオッズは次のように定義されます p(y=1|x)1−p(y=1|x)=p(y=1|x)p(y=0|x)=eω0+ω1xp(y=1|x)1−p(y=1|x)=p(y=1|x)p(y=0|x)=eω0+ω1x{{p(y=1|x)}\over{1-p(y=1|x)}}={{p(y=1|x)}\over{p(y=0|x)}}=e^{\omega_0+\omega_1x} 次にlog、線形形式でW_0およびW_1を取得する関数を追加します Logit(y)=log(p(y=1|x)1−p(y=1|x))=ω0+ω1xLogit(y)=log(p(y=1|x)1−p(y=1|x))=ω0+ω1xLogit(y)=log({{p(y=1|x)}\over{1-p(y=1|x)}})=\omega_0+\omega_1x さて問題の部分へ尤度の使用（Big X is y） L(X|P)=∏i=1,yi=1NP(xi)∏i=1,yi=0N(1−P(xi))L(X|P)=∏i=1,yi=1NP(xi)∏i=1,yi=0N(1−P(xi))L(X|P)=\prod^N_{i=1,y_i=1}P(x_i)\prod^N_{i=1,y_i=0}(1-P(x_i)) y = 1の確率を2回考慮している理由は誰にもわかりますか？以来： P(y=0|x)=1−P(y=1|x)P(y=0|x)=1−P(y=1|x)P(y=0|x)=1-P(y=1|x) そして、それからωの値をどのように取得しますか

12 regression logistic likelihood

5

非常に多数のデータポイントで値の代入を実行する方法は？

非常に大きなデータセットがあり、約5％のランダムな値が欠落しています。これらの変数は互いに相関しています。次のRデータセットの例は、ダミーの相関データを使用した単なるおもちゃの例です。 set.seed(123) # matrix of X variable xmat <- matrix(sample(-1:1, 2000000, replace = TRUE), ncol = 10000) colnames(xmat) <- paste ("M", 1:10000, sep ="") rownames(xmat) <- paste("sample", 1:200, sep = "") #M variables are correlated N <- 2000000*0.05 # 5% random missing values inds <- round ( runif(N, 1, length(xmat)) …

12 r random-forest missing-data data-imputation multiple-imputation large-data definition moving-window self-study categorical-data econometrics standard-error regression-coefficients normal-distribution pdf lognormal regression python scikit-learn interpolation r self-study poisson-distribution chi-squared matlab matrix r modeling multinomial mlogit choice monte-carlo indicator-function r aic garch likelihood r regression repeated-measures simulation multilevel-analysis chi-squared expected-value multinomial yates-correction classification regression self-study repeated-measures references residuals confidence-interval bootstrap normality-assumption resampling entropy cauchy clustering k-means r clustering categorical-data continuous-data r hypothesis-testing nonparametric probability bayesian pdf distributions exponential repeated-measures random-effects-model non-independent regression error regression-to-the-mean correlation group-differences post-hoc neural-networks r time-series t-test p-value normalization probability moments mgf time-series model seasonality r anova generalized-linear-model proportion percentage nonparametric ranks weighted-regression variogram classification neural-networks fuzzy variance dimensionality-reduction confidence-interval proportion z-test r self-study pdf

6

を最大化する点推定を使用する場合、それはあなたの哲学について何と言っていますか？（フリークエンシーまたはベイジアンまたは他の何か？）

誰かが言ったら「この方法は、を最大化するパラメーターのポイント推定MLEを使用するため、頻度が高く、さらにベイジアンではありません。」P(x|θ)P(x|θ)\mathrm{P}(x|\theta) 同意しますか？背景に関する最新情報：最近、頻繁に投稿されると主張する論文を読みました。私は彼らの主張に同意しない、せいぜい曖昧だと思う。この論文では、MLE（またはMAP）について明示的に言及していません。彼らは単にポイントの推定値を取得し、このポイントの推定値が真であるかのように単純に進みます。彼らはしますませんこの推定量のサンプリング分布、またはそのような何かの分析を行います。モデルは非常に複雑であるため、このような分析はおそらく不可能です。いずれの時点でも「後」という言葉は使用していません。彼らは、額面価格でこのポイント推定値を取得し、関心のある主要トピックである欠落データの推測に進みます。彼らの哲学には何があるかを示唆するアプローチは彼らのアプローチにはないと思います。彼らは頻繁になりたいと思っていたかもしれませんが（袖に哲学をつける義務があると感じているため）、実際のアプローチは非常に単純/便利/怠/で曖昧です。私は今、この研究にはその背後にある哲学は何もないと言う傾向があります。代わりに、彼らの態度はより実用的または便利だったと思う：「データを観測し、欠落データzを推定したい。zとxの関係を制御するパラメーターθがあります。目的を達成するための手段を除き、θはあまり気にしません。私はのために見積もり持っθ、それはそれが簡単に予測することになりますZをからのxを、私はの点推定値を選択します。θを、それは便利ですので、特に私が選ぶだろう、θ最大P（X | θを）。」xxxzzzθθ\thetazzzxxxθθ\thetaθθ\thetazzzxxxθθ\thetaθ^θ^\hat{\theta}P(x|θ)P(x|θ)\mathrm{P}(x|\theta) 不偏推定量のアイデア明らかにFrequentist概念です。これは、データを条件とせず、パラメーターのすべての値を保持する素晴らしいプロパティ（不偏）を記述するためです。ベイジアン手法では、データとパラメーターの役割は逆になります。特に、現在、観測されたデータを条件として、パラメーターの値について推論を進めています。これには事前の準備が必要です。これまでのところこれでいいのですが、MLE（Maximum Likelihood Estimate）がこれに適合するのはどこですか？私は、多くの人がそれが周波数主義者である（またはより正確には、ベイジアンではない）と感じているという印象を受けます。しかし、観測データを取得し、を最大化するパラメーターを見つけることを含むため、ベイジアンであると感じています。MLEは暗黙的に均一な事前使用とデータの条件付けを使用し、P （p a r a m e t eP(data|parameter)P(data|parameter)P(data | parameter)。MLEがフリークエンティストとベイジアンの両方に見えると言ってもいいですか？または、すべての単純なツールは、これら2つのカテゴリのいずれかに正確に該当する必要がありますか？P(parameter|data)P(parameter|data)P(parameter | data) MLEは一貫していますていますが、一貫性はベイジアンのアイデアとして提示できると思います。任意の大きなサンプルが与えられると、推定値は正解に収束します。「推定値は真の値に等しい」というステートメントは、パラメーターのすべての値に当てはまります。興味深いのは、観測されたデータを条件にしてベイジアンにする場合にも、このステートメントが当てはまることです。この興味深いことは、MLEには当てはまりますが、公平な推定量には当てはまりません。これが、MLEが周波数主義者として記述される可能性のあるメソッドの「最もベイジアン」であると感じる理由です。とにかく、有限のサンプルサイズを含む、ほとんどのフリークエンティストの特性（不偏性など）はすべての場合に適用されます。一貫性が不可能なシナリオ（1つの実験内の無限のサンプル）でのみ成立するという事実は、一貫性がそのような有用な特性ではないことを示唆しています。現実的な（つまり有限の）サンプルが与えられた場合、MLEに当てはまるFrequentistプロパティはありますか？そうでない場合、MLEは実際にはフリークエンティストではありません。

12 bayesian maximum-likelihood likelihood frequentist philosophical

3

カルマンフィルターの尤度が、より滑らかな結果ではなくフィルター結果を使用して計算されるのはなぜですか？

カルマンフィルターを非常に標準的な方法で使用しています。システムは、状態方程式および観測方程式ます。xt+1=Fxt+vt+1xt+1=Fxt+vt+1x_{t+1}=Fx_{t}+v_{t+1}yt=Hxt+Azt+wtyt=Hxt+Azt+wty_{t}=Hx_{t}+Az_{t}+w_{t} 教科書は、カルマンフィルターを適用し、「一歩先の予測」（または「フィルターされた推定」）を取得した後、それらを使用して尤度関数を計算する必要があることを教えています。x^t|t−1x^t|t−1\hat{x}_{t|t-1} fyt|It−1,zt(yt|It−1,zt)=det[2π(HPt|t−1H′+R)]−12exp{−12(yt−Hx^t|t−1−Azt)′(HPt|t−1H′+R)−1(yt−Hx^t|t−1−Azt)}fyt|It−1,zt(yt|It−1,zt)=det[2π(HPt|t−1H′+R)]−12exp⁡{−12(yt−Hx^t|t−1−Azt)′(HPt|t−1H′+R)−1(yt−Hx^t|t−1−Azt)}f_{y_{t}|\mathcal{I}_{t-1},z_{t}}\left(y_{t}|\mathcal{I}_{t-1},z_{t}\right)=\det\left[2\pi\left(HP_{t|t-1}H^{\prime}+R\right)\right]^{-\frac{1}{2}}\exp\left\{ -\frac{1}{2}\left(y_{t}-H\hat{x}_{t|t-1}-Az_{t}\right)^{\prime}\left(HP_{t|t-1}H^{\prime}+R\right)^{-1}\left(y_{t}-H\hat{x}_{t|t-1}-Az_{t}\right)\right\} 私の質問は、「平滑化された推定」\ hat {x} _ {t | T}ではなく、「フィルターされた推定」\ hat {x} _ {t | t-1}を使用して尤度関数が計算されるのはなぜですか？ありません\帽子{X} _ {T | T}状態ベクトルのより良い推定？x^t|t−1x^t|t−1\hat{x}_{t|t-1}x^t|Tx^t|T\hat{x}_{t|T}x^t|Tx^t|T\hat{x}_{t|T}

11 likelihood kalman-filter

3

ベイジアン分析の尤度と条件付き分布

ベイズの定理は次のように書くことができます。 p(θ|x)=f(X|θ)p(θ)∫θf(X|θ)p(θ)dθp(θ|x)=f(X|θ)p(θ)∫θf(X|θ)p(θ)dθp(\theta|x) = \frac{f(X|\theta)p(\theta)}{\int_{\theta} f(X|\theta)p(\theta)d\theta} ここで、は事後、は条件付き分布、は事前分布です。f （X | θ ）p （θ ）p(θ|x)p(θ|x)p(\theta|x)f(X|θ)f(X|θ)f(X|\theta)p(θ)p(θ)p(\theta) または p(θ|x)=L(θ|x)p(θ)∫θL(θ|x)p(θ)dθp(θ|x)=L(θ|x)p(θ)∫θL(θ|x)p(θ)dθp(\theta|x) = \frac{L(\theta|x)p(\theta)}{\int_{\theta} L(\theta|x)p(\theta)d\theta} ここで、は事後、は尤度関数、は事前確率です。L （θ | x ）p （θ ）p(θ|x)p(θ|x)p(\theta|x)L(θ|x)L(θ|x)L(\theta|x)p(θ)p(θ)p(\theta) 私の質問はなぜベイズ分析は条件付き分布ではなく尤度関数を使用して行われるのですか？可能性と条件付き分布の違いは何ですか？可能性は確率分布ではなく、ことがわかっています。L(θ|x)∝f(X|θ)L(θ|x)∝f(X|θ)L(\theta|x) \propto f(X|\theta)

11 bayesian likelihood

2

事後密度が以前の密度と尤度関数の積に比例するのはなぜですか？

11 bayesian conditional-probability likelihood

4

混合型分布の最尤関数

一般的に、関数を最大化します L(θ;x1,…,xn)=∏i=1nf(xi∣θ)L(θ;x1,…,xn)=∏i=1nf(xi∣θ) L(\theta; x_1, \ldots, x_n) = \prod_{i=1}^n f(x_i \mid \theta) ここで、fffは、基礎となる分布が連続的な場合の確率密度関数であり、分布が離散的である場合は、確率質量関数（積の代わりに合計を使用）です。基になる分布が連続分布と離散分布の混合であり、それぞれの重みが依存している場合、尤度関数をどのように指定しますか？θθ\theta

11 mathematical-statistics maximum-likelihood likelihood mixture

1

単純なR lmモデルから対数尤度を再計算する

私は単純にdnorm（）を使用して、lmモデル（R）からのlogLik関数によって提供される対数尤度を再計算しようとしています。大量のデータ（n = 1000など）でも（ほぼ完全に）機能します。 > n <- 1000 > x <- 1:n > set.seed(1) > y <- 10 + 2*x + rnorm(n, 0, 2) > mod <- glm(y ~ x, family = gaussian) > logLik(mod) 'log Lik.' -2145.562 (df=3) > sigma <- sqrt(summary(mod)$dispersion) > sum(log(dnorm(x = y, mean = predict(mod), …

10 r generalized-linear-model likelihood lm

1

P値と尤度の原則

この質問はクラスで出された：実験の仮説を評価するためにp値を使用する場合、尤度原理のどの部分に従っていないか：十分性か条件性か？私の直感は言うことだろう十分性を p値を計算すると、実験の未観測の成果に依存し、以来、充足をしながら、単一の実験内の観察とより対処するようだコンディショナは、異なる実験でより多く扱うようです。

9 likelihood philosophical likelihood-principle

4

コックスハザードモデルの生存曲線を解釈するにはどうすればよいですか？

コックス比例ハザードモデルから生存曲線をどのように解釈しますか？このおもちゃの例ではage、kidneyデータの変数にcox比例ハザードモデルがあり、生存曲線を生成するとします。 library(survival) fit <- coxph(Surv(time, status)~age, data=kidney) plot(conf.int="none", survfit(fit)) grid() たとえば、時間、どのステートメントが正しいですか？または両方が間違っていますか？200200200 ステートメント1：被験者は20％残ります（たとえば、人がいる場合、200日目までに、およそ200人が残っているはずです）。 100010001000200200200200200200 ステートメント2：特定の人に対して、彼/彼女は200日目に生存する可能性がます。20%20%20\%200200200 βTxβTx\beta^Tx

9 r survival cox-model likelihood machine-learning deep-learning generative-models machine-learning reinforcement-learning q-learning regression multicollinearity convergence beta-distribution bernoulli-distribution machine-learning self-study pattern-recognition neural-networks stochastic-processes linear

1

「以前のフラット」のベイジアン推定は、最尤推定と同じですか？

系統学では、系統樹はMLEまたはベイズ分析を使用して構築されることがよくあります。多くの場合、ベイジアン推定ではフラット事前分布が使用されます。私が理解しているように、ベイズ推定は事前分布を組み込んだ尤度推定です。私の質問は、フラット事前分布を使用する場合、単純に尤度分析を行うことと何が違うのですか？

9 bayesian confidence-interval maximum-likelihood likelihood phylogeny

1

変換の下で観察されたフィッシャー情報

：Y. Pawitanによって"オール尤度尤度を使用して統計的モデリングと推論"、再パラメータ化の可能性として定義される L *（ψ ）= 最大{ θ ：G （θ ）= ψ } L （θ ）したがって、gが1対1の場合、L ∗（ψ ）= L （g − 1（ψ ）θ ↦ グラム（θ ）= ψθ↦g(θ)=ψ\theta\mapsto g(\theta)=\psiL∗（ψ ）= 最大{ θ ：g（θ ）= ψ }L （θ ）L∗(ψ)=max{θ:g(θ)=ψ}L(θ) L^*(\psi)=\max_{\{\theta:g(\theta)=\psi\}} L(\theta) gggL∗（ψ ）= L （g− 1（ψ ））L∗(ψ)=L(g−1(ψ))L^*(\psi)=L(g^{-1}(\psi))（p。45）。私があればと述べたエクササイズ2.20を表示しようとしていますスカラーである（と私は推測gは、同様のスカラ関数であると考えられる）、その後、私は*（G （θ））= I （θ）| ∂ …

9 mathematical-statistics inference likelihood fisher-information

2

限界尤度の堅牢なMCMC推定量？

私はモンテカルロ法によって統計モデルの限界尤度を計算しようとしています： f(x)=∫f(x∣θ)π(θ)dθf(x)=∫f(x∣θ)π(θ)dθf(x) = \int f(x\mid\theta) \pi(\theta)\, d\theta 可能性は適切に動作します-滑らかで、対数の凹型-高次元です。重要性のサンプリングを試みましたが、結果は不安定で、使用している提案に大きく依存しています。ハミルトニアンモンテカルロをしていると考え、私の簡潔前制服を想定しにわたり事後サンプル計算すると私は見るまで、調和平均を取って、これを。学んだ教訓として、調和平均は無限の分散を持つことができます。ほぼ同じくらい簡単なMCMC推定器はありますか？θθ\theta

9 monte-carlo likelihood marginal

1

特定のMLE（マルコフ連鎖）の対数尤度の計算

私は現在、マルコフチェーンを使用しており、いくつかのソース（つまり、aからbへの遷移の数をaから他のノードへの全体的な遷移の数で割ったもの）によって提案された遷移確率を使用して最尤推定を計算しました。次に、MLEの対数尤度を計算します。

9 maximum-likelihood markov-process likelihood

タグ付けされた質問 「likelihood」

タグ付けされた質問「likelihood」