統計とビッグデータ likelihood

10

ウィキペディアのページには、可能性と確率が明確な概念であると主張しています。非技術用語では、「可能性」は通常「確率」の同義語ですが、統計的な使用法では、明確な区別があります。観察された結果が与えられたパラメータ値のセットの尤度。誰かがこれが何を意味するのか、より現実的な説明を与えることができますか？さらに、「確率」と「可能性」がどのように一致しないかを示す例もあります。

474 probability likelihood

3

例：バイナリ結果にglmnetを使用したLASSO回帰

私は興味のある結果が二分されglmnetているLASSO回帰の使用に手を出し始めています。以下に小さな模擬データフレームを作成しました。 age <- c(4, 8, 7, 12, 6, 9, 10, 14, 7) gender <- c(1, 0, 1, 1, 1, 0, 1, 0, 0) bmi_p <- c(0.86, 0.45, 0.99, 0.84, 0.85, 0.67, 0.91, 0.29, 0.88) m_edu <- c(0, 1, 1, 2, 2, 3, 2, 0, 1) p_edu <- c(0, 2, 2, …

77 r self-study lasso regression interpretation anova statistical-significance survey conditional-probability independence naive-bayes graphical-model r time-series forecasting arima r forecasting exponential-smoothing bootstrap outliers r regression poisson-distribution zero-inflation genetic-algorithms machine-learning feature-selection cart categorical-data interpretation descriptive-statistics variance multivariate-analysis covariance-matrix r data-visualization generalized-linear-model binomial proportion pca matlab svd time-series correlation spss arima chi-squared curve-fitting text-mining zipf probability categorical-data distance group-differences bhattacharyya regression variance mean data-visualization variance clustering r standard-error association-measure somers-d normal-distribution integral numerical-integration bayesian clustering python pymc nonparametric-bayes machine-learning svm kernel-trick hyperparameter poisson-distribution mean continuous-data univariate missing-data dag python likelihood dirichlet-distribution r anova hypothesis-testing statistical-significance p-value rating data-imputation censoring threshold

4

尤度関数がpdfではない理由は何ですか？

尤度関数がpdf（確率密度関数）ではない理由は何ですか？

57 likelihood pdf

4

負の尤度が尤度の最大化に等しい場合、なぜそれを最小化するのですか？

この質問は長い間私を困惑させてきました。可能性を最大化する際に「ログ」を使用することを理解しているため、「ログ」については質問しません。私の質問は、対数尤度の最大化は「負の対数尤度」（NLL）の最小化と同等であるため、なぜこのNLLを発明したのですか？常に「ポジティブな可能性」を使用しないのはなぜですか？NLLはどのような状況で好まれますか？ここで少し説明を見つけました。https://quantivity.wordpress.com/2011/05/23/why-minimize-negative-log-likelihood/、深さの明らかな同等性を説明するようですが、私の混乱を解決しません。任意の説明をいただければ幸いです。

47 maximum-likelihood likelihood

7

なぜ誰かが、従来のアプローチの代わりに「情報価値のない」不適切な事前のベイジアンアプローチを使用するのでしょうか？

関心が単にモデルのパラメーターを推定するだけで（ポイントワイズおよび/または間隔推定）、以前の情報が信頼できず、弱い場合（これは少しあいまいですが、選択のシナリオを確立しようとしています）事前は困難です）...なぜ誰かが、古典的なアプローチの代わりに「非情報的」な不適切な事前確率でベイジアンアプローチを使用することを選択するのでしょうか？

44 bayesian inference prior likelihood information

9

データが与えられたモデルの確率を計算するのではなく、なぜp値を使用するのですか？

大まかに言えば、p値は、仮説（モデル）が与えられた実験の観測結果の確率を与えます。この確率（p値）を持っているため、仮説（どれだけ可能性があるか）を判断します。しかし、観察された結果を前提として仮説の確率を計算する方が自然ではないでしょうか？より詳細に。コインがあります。20回反転し、14個のヘッドを取得します（20個中14個を「実験の結果」と呼びます）。今、私たちの仮説は、コインが公正であるということです（頭と尾の確率は互いに等しい）。ここで、p値を計算します。これは、コイン20枚で14以上のヘッドを獲得する確率に相当します。OK、今、この確率（0.058）があり、この確率を使用してモデルを判断します（公正なコインがある可能性はどのくらいでしょうか）。しかし、モデルの確率を推定したい場合、実験を与えられたモデルの確率を計算しないのはなぜですか？モデル（p値）を指定して実験の確率を計算するのはなぜですか？

43 likelihood p-value

3

可能性を厳密に定義する方法は？

尤度は、たとえば、いくつかの方法で定義できます。関数からマップをすなわち、。LLLΘ × XΘ×バツ\Theta\times{\cal X}（θ 、x ）（θ、バツ）(\theta,x)L （θ | X ）L（θ∣バツ）L(\theta \mid x)L ：Θ × X→ RL：Θ×バツ→RL:\Theta\times{\cal X} \rightarrow \mathbb{R} ランダム関数L （⋅ | X）L（⋅∣バツ）L(\cdot \mid X) また、尤度は「観測された」尤度のみであると考えることもできL （⋅ | Xobs）L（⋅∣バツobs）L(\cdot \mid x^{\text{obs}}) 実際には、尤度は\ thetaの情報をθθ\theta乗法定数までしか持ち込まないため、尤度は関数ではなく関数の等価クラスと考えることができますパラメーター化の変更を検討する際に別の問題が発生します：ϕ = θ2ϕ=θ2\phi=\theta^2が新しいパラメーター化である場合、一般にL （ϕ ∣ x ）L（ϕ∣バツ）L(\phi \mid x)で\ phiの尤度を示しϕϕ\phi、これは前の関数L （⋅ | X ）L（⋅∣バツ）L(\cdot \mid x)でθ2θ2\theta^2が、でϕ−−√ϕ\sqrt{\phi}。これは虐待的だが有用な表記法であり、強調しないと初心者に困難をもたらす可能性がある。 …

30 mathematical-statistics likelihood likelihood-ratio parametric

3

フィッシャー情報とはどのような情報ですか？

ランダム変数ます。場合は trueパラメータだった、尤度関数を最大化し、ゼロに等しい派生する必要があります。これが最尤推定量の背後にある基本原則です。バツ〜F（x | θ ）バツ〜f（バツ|θ）X \sim f(x|\theta)θ0θ0\theta_0 私が理解するように、フィッシャー情報は次のように定義されます私（θ ）= E [ （∂∂θf（X| θ））2]私（θ）=E[（∂∂θf（バツ|θ））2]I(\theta) = \Bbb E \Bigg[\left(\frac{\partial}{\partial \theta}f(X|\theta)\right)^2\Bigg ] したがって、が真のパラメーターである場合、です。しかし、が真のパラメーターでない場合、フィッシャーの情報が多くなります。θ0θ0\theta_0私（θ ）= 0私（θ）=0I(\theta) = 0θ0θ0\theta_0 私の質問フィッシャー情報は、特定のMLEの「エラー」を測定しますか？言い換えると、ポジティブなフィッシャー情報の存在は、私のMLEが理想的ではないことを意味しないのでしょうか？「情報」のこの定義は、シャノンが使用する定義とどのように異なりますか？なぜそれを情報と呼ぶのですか？

29 bayesian maximum-likelihood likelihood intuition fisher-information

3

経験的尤度の例示的な用途は何ですか？

オーウェンの経験的可能性について聞いたことがありますが、最近まで興味のある論文で出くわすまで気にしませんでした（Mengersen et al。2012）。それを理解するための努力の中で、観測されたデータの尤度は、ここでおよびです。Σ I P I = 1 P I > 0L=∏ipi=∏iP(Xi=x)=∏iP(Xi≤x)−P(Xi<x)L=∏ipi=∏iP(Xi=x)=∏iP(Xi≤x)−P(Xi<x)L = \prod_i p_i = \prod_i P(X_i=x) = \prod_i P(X_i \le x) - P(X_i \lt x)∑ipi=1∑ipi=1\sum_i p_i = 1pi>0pi>0p_i > 0 しかし、私はこの表現を観察に関する推論を行うためにどのように使用できるかと結びつける精神的な飛躍をすることができませんでした。おそらく、モデルのパラメータについての尤度を考えることにあまりにも根ざしていますか？とにかく、私は概念を内在化するのに役立つ経験的可能性を採用しているいくつかの論文をGoogle Scholarで検索しています... 明らかに、経験的可能性に関するアートオーウェンの本がありますが、Googleブックスはすべてのおいしい部分を省き、私はまだ図書館間貸し出しの遅いプロセスにいます。それまでの間、誰かが経験的尤度の前提とそれがどのように採用されているかを明確に示す論文や文書を親切に私に指し示すことができますか？EL自体の説明も歓迎します！

28 bayesian maximum-likelihood nonparametric likelihood empirical-likelihood

5

ウィキペディアの可能性に関するエントリはあいまいに見える

「条件付き確率」と「可能性」に関する簡単な質問があります。（私はすでにこの質問をここで調査しましたが、役に立ちませんでした。）ウィキペディアの可能性に関するページから始まります。彼らはこう言います：結果与えられたパラメーター値のセットの尤度は、パラメーター値が与えられた場合に観測された結果の確率に等しい、つまりθθ\thetaxxx L(θ∣x)=P(x∣θ)L(θ∣x)=P(x∣θ)\mathcal{L}(\theta \mid x) = P(x \mid \theta) すばらしいです！そう英語で、私はこれを読んで、「シータ、所与のデータX = X、（左辺）を、等しいパラメータの可能性は、データXがXに等しい確率に等しい所定のパラメータことシータに等しい」。（太字は強調のためのものです）。ただし、同じページの3行以上後に、Wikipediaのエントリは次のように続きます。ましょ離散確率分布を持つ確率変数、パラメータに応じて、。次に、関数XXXpppθθ\theta L(θ∣x)=pθ(x)=Pθ(X=x),L(θ∣x)=pθ(x)=Pθ(X=x),\mathcal{L}(\theta \mid x) = p_\theta (x) = P_\theta (X=x), \, 関数と見なされるものは、（確率変数結果が与えられた場合の）尤度関数と呼ばれます。時には値の確率のパラメータ値のためのとして書き込まれる。多くの場合のように記述を強調するために、このから異なる条件付き確率されていないので、パラメータとしない確率変数です。θθ\thetaθθ\thetaxxxXXXxxxXXXθθ\thetaP(X=x∣θ)P(X=x∣θ)P(X=x\mid\theta)P(X=x;θ)P(X=x;θ)P(X=x;\theta)L(θ∣x)L(θ∣x)\mathcal{L}(\theta \mid x) θθ\theta （太字は強調のためのものです）。したがって、最初の引用では、文字通り条件付き確率について説明されていますが、その後すぐに、これは実際には条件付き確率ではなく、実際には？P(x∣θ)P(x∣θ)P(x\mid\theta)P(X=x;θ)P(X=x;θ)P(X = x; \theta) それで、どれが？尤度は、実際には最初の引用の条件付き確率を暗示していますか？または、2番目の引用の単純な確率を暗示していますか？編集：これまでに受け取った有益で洞察に満ちたすべての答えに基づいて、私の質問を要約しました。で英語「可能性が観測されたデータを考えると、パラメータの関数である。」：、我々はと言いますで数学：、我々は、のように記述。L(Θ=θ∣X=x)L(Θ=θ∣X=x)L(\mathbf{\Theta}= \theta \mid \mathbf{X}=x) 尤度は確率ではありません。尤度は確率分布ではありません。尤度は確率質量ではありません。ただし、英語では、尤度は「であり、パラメーター化された確率分布の積（連続的な場合）、または確率質量の積（離散的な場合）。 " 数学、我々は、次に、そのように書く：（連続ケース、はPDF）、および（離散ケース、は確率質量）。ここで重要なことは、ここではまったくX=xX=x\mathbf{X} …

26 probability bayesian conditional-probability likelihood definition

1

MCMCサンプルからの限界尤度の計算

これは、定期的な質問（参照で、この記事、この記事とこの記事を）が、私は別のスピンを持っています。一般的なMCMCサンプラーからのサンプルがたくさんあるとします。各サンプルについて、対数尤度および前の対数の値を知っています。役立つ場合は、データポイントごとの対数尤度の値も知っています（この情報は、WAICやPSIS-LOOなどの特定の方法で役立ちます）。θθ\thetalogf(x|θ)log⁡f(x|θ)\log f(\textbf{x} | \theta)logf(θ)log⁡f(θ)\log f(\theta)logf(xi|θ)log⁡f(xi|θ)\log f(x_i | \theta) 私が持っているサンプルと、場合によっては他のいくつかの関数評価を使用して（ただし、アドホック MCMC を再実行せずに）限界尤度の（粗）推定値を取得したい。まず、テーブルをクリアしましょう。私たちは皆、高調波推定器が史上最悪の推定器であることを知っています。次へ移りましょう。事前形式と事後条件を閉じた形式でギブスサンプリングを行う場合は、Chibの方法を使用できます。しかし、これらのケース以外で一般化する方法がわかりません。サンプリング手順を変更する必要がある方法もあります（後回しなど）が、ここでは興味がありません。私が考えているアプローチは、基礎となる分布をパラメトリック（またはノンパラメトリック）形状で近似し、正規化定数を1次元最適化問題（つまり、誤差を最小にする間及びのサンプルで評価）。最も単純な場合、後部がほぼ多変量正規であると仮定すると、を多変量正規として近似し、ラプラス近似に似たものを得ることができます（いくつかの追加の関数評価を使用して、モード）。ただし、として使用できますg(θ)g(θ)g(\theta)ZZZZZZZg(θ)Zg(θ)Z g(\theta)f(x|θ)f(θ)f(x|θ)f(θ)f(\textbf{x}|\theta) f(\theta)g(θ)g(θ)g(\theta)g(θ)g(θ)g(\theta)多変量分布の変分混合など、より柔軟なファミリ。ttt 私は、このメソッドは場合にのみ機能することを認めるへの合理的な近似である、それはに非常に賢明だろう理由のいずれかの理由や訓話しますか？お勧めの読書はありますか？Zg(θ)Zg(θ)Z g(\theta)f(x|θ)f(θ)f(x|θ)f(θ)f(\textbf{x}|\theta) f(\theta) 完全なノンパラメトリックアプローチでは、ガウスプロセス（GP）などのノンパラメトリックファミリを使用して、（またはそのような他の非線形変換など）を近似し平方根として）、およびベイジアン求積法で潜在的なターゲットを暗黙的に統合します（こちらとこちらをご覧ください）。これは興味深い代替アプローチのように見えますが、精神的には類似しています（また、私の場合、GPは扱いにくいことに注意してください）。logf(x|θ)+logf(θ)log⁡f(x|θ)+log⁡f(θ)\log f(\textbf{x}|\theta) + \log f(\theta)

24 machine-learning bayesian sampling mcmc likelihood

5

ベイズの定理直観

私は、事前、事後、尤度、および限界確率の観点から、ベイズの定理の直観に基づいた理解を発展させようとしました。そのために、次の式を使用しますここで、は仮説または信念を表し、はデータまたは証拠を表します。私は事後の概念を理解しました-それは、以前の信念と出来事の可能性を結合する統一体です。私が理解していないのは、可能性が何を意味するのか？そして、なぜ限界は ABP(B|A)=P(A|B)P(B)P(A)P(B|A)=P(A|B)P(B)P(A)P(B|A) = \frac{P(A|B)P(B)}{P(A)}AAABBB分母の確率？いくつかのリソースを確認した後、この引用に出会いました。尤度は、イベントの重量の発生により与えられる ...ある事後イベントの確率イベントのことを考えると、発生しています。A P （B | A ）BBBAAAP(B|A)P(B|A)P(B|A)ABBBAAA 上記の2つのステートメントは、私と同じように見えますが、異なる方法で書かれています。誰も2つの違いを説明できますか？

22 bayesian likelihood intuition

3

尤度の定義に頻度主義者とベイジアンの間に違いはありますか？

尤度関数は条件付き確率ではないと言う人もいれば、そうだと言う人もいます。これは非常に混乱しています。私が見たほとんどの情報源によると、パラメータ分布の尤度は、x iの n個のサンプルが与えられた確率質量関数の積でなければなりません。θθ\thetannnxixix_i L(θ)=L(x1,x2,...,xn;θ)=∏i=1np(xi;θ)L(θ)=L(x1,x2,...,xn;θ)=∏i=1np(xi;θ)L(\theta) = L(x_1,x_2,...,x_n;\theta) = \prod_{i=1}^n p(x_i;\theta) たとえば、ロジスティック回帰では、最適化アルゴリズムを使用して尤度関数（最大尤度推定）を最大化し、最適なパラメーター、したがって最終的なLRモデルを取得します。互いに独立していると仮定するトレーニングサンプルが与えられた場合、確率の積（または結合確率質量関数）を最大化します。これは私には明らかです。nnn よるとの関係：可能性、条件付き確率と故障率、「可能性は確率ではありません、それは条件付き確率ではありません」。また、「尤度はベイジアンの尤度の理解においてのみ条件付き確率です。つまり、が確率変数であると仮定した場合」。θθ\theta 頻度の高い人とベイジアンの間で学習問題を扱う際のさまざまな視点について読みました。ソースによると、ベイジアン推論の場合、アプリオリ、尤度P （X | θ ）があり、ベイジアン定理を使用して事後P （θ | X ）を取得します。P(θ)P(θ)P(\theta)P(X|θ)P(X|θ)P(X|\theta)P(θ|X)P(θ|X)P(\theta|X) P(θ|X)=P(X|θ)×P(θ)P(X)P(θ|X)=P(X|θ)×P(θ)P(X)P(\theta|X)=\dfrac{P(X|\theta) \times P(\theta)}{P(X)} 私はベイジアン推論に精通していません。どうしてP(X|θ)P(X|θ)P(X|\theta)そのパラメータを条件と観測データの分布である、また、可能性と呼ばれますか？ではウィキペディア、それが時にはそれが書かれていると言い。これは何を意味するのでしょうか？L(θ|X)=p(X|θ)L(θ|X)=p(X|θ)L(\theta|X)=p(X|\theta) 頻度についての頻度とベイジアンの定義に違いはありますか？ありがとう。編集：ベイズの定理の解釈には、ベイズの解釈と頻度論者の解釈のさまざまな方法があります（ベイズの定理-ウィキペディアを参照）。

21 probability bayesian conditional-probability likelihood frequentist

6

事後と事前および尤度とは非常に異なる

事前確率と尤度が互いに非常に異なる場合、事後がどちらにも似ていない状況が発生することがあります。たとえば、正規分布を使用するこの図を参照してください。これは数学的には正しいですが、私の直感とは一致していないようです-データが強く保持されている信念またはデータと一致しない場合、どちらの範囲もうまくいかないと予想し、フラットな後方範囲全体または恐らく事前確率と尤度周辺の二峰性分布（どちらがより論理的な意味を持っているかはわかりません）。私は確かに、私の以前の信念やデータのいずれにも一致しない範囲の周りのきつい後方を期待しないでしょう。より多くのデータが収集されると、事後確率が尤度に向かって移動することを理解していますが、この状況では直感に反するように思われます。私の質問は次のとおりです。この状況に対する私の理解はどのように欠陥がありますか（または欠陥がありますか）。後部は、この状況の「正しい」関数です。そうでない場合、他にどのようにモデル化できますか？完全を期すために、事前確率はとして与えられ、尤度はとして与えられます。N（μ = 6.1 、σ = 0.4 ）N（μ = 1.5 、σ= 0.4 ）N（μ=1.5、σ=0.4）\mathcal{N}(\mu=1.5, \sigma=0.4)N（μ = 6.1 、σ= 0.4 ）N（μ=6.1、σ=0.4）\mathcal{N}(\mu=6.1, \sigma=0.4) 編集：与えられた答えのいくつかを見て、私は非常によく状況を説明していないように感じています。私のポイントは、ベイジアン解析は非直感的な結果をもたらすように思われた特定のモデルで仮定。私の望みは、おそらく悪いモデルの決定について、事後部が何らかの形で「説明」することでした。これについては、回答で詳しく説明します。

21 bayesian prior posterior likelihood

1

非常に小さな尤度値を確率に変換（正規化）する

モデルを指定して、データセットのリストの尤度を計算し、各尤度を（確率で）正規化する必要があるアルゴリズムを作成しています。したがって、[0.00043、0.00004、0.00321]のようなものは、[0.2、0.03、0.77]のように変換される可能性があります。私の問題は、私が取り組んでいる対数尤度が非常に小さいことです（たとえば、ログスペースでは、値は-269647.432、-231444.981などのようになります）。私のC ++コードで、それらを2つ追加しようとすると（指数を取ることで）、「Inf」という答えが返されます。私はそれらをログスペース（ログの合計/減算）に追加しようとしましたが、再び同じ問題に出くわしました。誰もこれについて専門家の意見を共有できますか？

21 probability normalization likelihood c++ arithmetic

タグ付けされた質問 「likelihood」

タグ付けされた質問「likelihood」