「尤度」と「確率」の違いは何ですか?


474

ウィキペディアのページには、可能性と確率が明確な概念であると主張しています。

非技術用語では、「可能性」は通常「確率」の同義語ですが、統計的な使用法では、明確な区別があります。観察された結果が与えられたパラメータ値のセットの尤度。

誰かがこれが何を意味するのか、より現実的な説明を与えることができますか?さらに、「確率」と「可能性」がどのように一致しないかを示す例もあります。


9
いい質問ですね。私もそこに「オッズ」と「チャンス」を追加します:)
ニールマクギガン

5
Likelihoodは統計目的であり、確率の確率であるため、この質問stats.stackexchange.com/questions/665 / ...をご覧ください
ロビンジラール

3
うわー、これらは本当に良い答えです。とても感謝しています!すぐに指摘しますが、私は「受け入れられた」答えとして私が特に好きなものを選びます(私は等しく価値があると思ういくつかがありますが)。
ダグラスS.ストーンズ

1
また、観測値の関数であるため、「尤度比」は実際には「確率比」であることに注意してください。
ジョンロス

回答:


321

答えは、離散確率変数を扱うか連続確率変数を扱うかによって異なります。したがって、それに応じて答えを分割します。技術的な詳細が必要であり、必ずしも平易な英語での説明が必要ではないと想定します。

離散確率変数

離散値(たとえば、コインを10回投げた結果、10分以内に店舗に到着した顧客の数など)を取る確率的プロセスがあるとします。このような場合、基礎となる確率過程について適切な仮定を行うことにより、特定の結果セットを観察する確率を計算できます(たとえば、コインの着陸ヘッドの確率はpあり、コインのトスは独立しています)。

Oによる観測結果と、確率過程をθとして記述するパラメーターのセットを示します。したがって、確率について話すときは、P(O|θ)を計算します。言い換えると、θに特定の値が与えられた場合、P(O|θ)O表される結果を観察する確率です。

ただし、実際の確率過程をモデル化する場合、θがわからないことがよくあります。Oを観察するだけで、目標は、観察された結果Oが与えられた場合にもっともらしい選択となるθ推定値に到達することです。θの値が与えられた場合、Oを観測する確率はP O | θ )であることがわかります。したがって、「自然な」推定プロセスは、実際にOを観測する確率を最大化するθの値を選択することです。つまり、次の関数を最大化するパラメーター値θを見つけます。OθOP(O|θ)θOθ

L(θ|O)=P(O|θ)

L(θ|O)は、尤度関数と呼ばれます。定義により、尤度関数は観測されたOを条件とし、未知のパラメーターθ関数であることに注意してください。

連続ランダム変数

継続的な場合、状況は似ていますが、1つの重要な違いがあります。連続的なケースではP O | θ = 0であるため、θを与えられたOを観測した確率についてはもはや話すことができません。技術を習得することなく、基本的な考え方は次のとおりです。θP(O|θ)=0

アウトカムに関連した確率密度関数(pdf)を示す:として。したがって、連続的なケースでは、次の関数を最大化することにより、観測結果与えられた場合のを推定します。Of(O|θ)θO

L(θ|O)=f(O|θ)

この状況では、観測結果関連付けられたPDFを最大化する際に、を観測する確率を最大化するパラメーター値を見つけていると技術的に断言することはできません。OO


35
離散変数と連続変数の区別は、測定理論の観点から消えます。
whuber

24
@whuberはい、しかし測定理論を使用した答えは、誰もがアクセスできるわけではありません。

16
@スリカント:同意した。コメントはOPの利益のためでした。OPは数学者(おそらく統計学者ではないかもしれません)であり、区別について根本的な何かがあると誤解されることを避けます。
whuber

6
場合は、個別のケースと同じ連続密度を解釈できる置き換えられますdはOという意味で、その私たちが求めるならばPのR O O "O " + D O "| θ (すなわち、確率データOO についての半無限の領域に含まれており、答えはf O | θ d O d O OdOPr(O(O,O+dO)|θ)OOf(O|θ)dOdOこれにより、ヒストグラムの無限に薄い「ビン」の面積を計算していることが明らかになります)。
確率

9
私はパーティーに5年以上遅れていますが、この答えへの非常に重要なフォローアップはstats.stackexchange.com/questions/31238/…だと思います。これは尤度関数θに関するpdf 。L θは)実際のパラメータ値が与えられたデータのPDFであるが、以降のでLはの関数であり、θ(一定に保持されたデータを有する)のみ、その無関係であるL θは指定されたデータのPDFですθL(θ)θL(θLθL(θ)θ
-Shobhit

135

これは、ほぼ全員が答えようとしている種類の質問であり、私はすべての答えが良いと期待しています。しかし、あなたは数学者であるダグラスですので、数学的な回答をさせてください。

統計モデルは、2つの別個の概念エンティティを接続する必要があります。データ(ベクトル空間など)の要素xと、データ動作の可能な定量モデルです。モデルは通常、有限次元多様体、境界のある多様体、または関数空間上の点θで表されます(後者は「ノンパラメトリック」問題と呼ばれます)。

データxは、関数Λ x θ によって可能なモデルθ接続されます。任意の所与のためθΛ Xはθ の確率(または確率密度)であることが意図されているXを。一方、任意のxについて、Λ x θ θの関数として見ることができ、通常、連続的な2次微分可能などの特定の優れた特性を持つと想定されます。Λを表示する意図Λ(x,θ)θΛ(x,θ)xxΛ(x,θ)θΛこのようにして、これらの仮定を呼び出すことは、Λ「可能性」と呼ぶことによって発表されます。

それは微分方程式の変数とパラメーターの区別によく似ています:時には解を研究したい(つまり、引数として変数に焦点を合わせたい)ときどき、解がパラメーターによってどのように変化するかを研究したい場合があります。主な違いは、統計では、両方の引数セットの同時変動を調べる必要はほとんどないということです。データxとモデルパラメーターθ両方の変更に自然に対応する統計オブジェクトはありません。そのため、このような二分法については、類似の数学的設定で聞くよりも多く聞くことになります。


6
+1、なんてクールな答え。微分方程式との類推は非常に適切なようです。
-mpiktas

3
エコノミストとして、この答えは、私が学んだ概念の前ほど密接には関係していませんが、直感的な意味で最も有益なものでした。どうもありがとう。
ロブソン

1
実際、このステートメントは、「データxとモデルパラメーターθの両方の変更に自然に対応する統計オブジェクトはありません」というのは本当ではありません。「スムージング、フィルタリング、予測」と呼ばれ、線形モデルではカルマンフィルター、非線形モデルでは完全な非線形フィルター、en.wikipedia.org / wiki / Kushner_equationなど
crow

1
はい、素晴らしい答えです!これは耳障りですが、P x θ の標準表記の代わりに選択することで、次のように定義できる結合確率で開始していることがわかりやすくなりました尤度または条件付き確率。さらに、「特定の素晴らしいプロパティ」コメントが役立ちました。ありがとう!Λ(x,θ)P(x,θ)
マイクウィリアムソン

2
@whuberはい、は通常の表記法ではありません。それがまさに助けた理由です!私はそれが特定の意味を持たなければならないと考えるのをやめ、その代わりに論理に従いました。;-pΛ
マイクウィリアムソン

110

すでにいくつかの優れた数学的な説明があるので、説明で数学を最小化しようとします。

ロビンギランドが指摘するように、確率と尤度の差は確率と統計の差に密接に関連しています。ある意味で、確率と統計は、互いに反対または逆の問題に関係しています。

コイントスを検討してください。(私の答えはWikipediaの例1に似ています。)コインが公正()であることがわかっている場合、一般的な確率の質問は次のとおりです。答えはP H H = P H × P H = 0.5 × 0.5 = 0.25です。p=0.5P(HH)=P(H)×P(H)=0.5×0.5=0.25

典型的な統計上の質問は次のとおりです。コインは公正ですか?これに答えるには、次の点を尋ねる必要があります。サンプルは、という仮説をどの程度サポートしていますか?P(H)=P(T)=0.5

最初に注意する点は、質問の方向が逆になったことです。確率では、仮定されたパラメーター()から開始し、特定のサンプル(2つのヘッドが連続する)の確率を推定します。統計では、観測(連続する2つのヘッド)から開始し、パラメーター(p = P H = 1 P T = 1 q)について推論します。P(head)p=P(H)=1P(T)=1q

ウィキペディアの例1はPの最尤推定、2つの連続したヘッドの後のH p M L E = 1であることを示しています。しかし、データが真のパラメーター値 p H = 0.5を排除することは決してありません(現時点では詳細については気にしません)。実際、 n = 2の後、 p H 、特に p H = 0の非常に小さな値のみを合理的に除去できます。P(H)pMLE=1p(H)=0.5p(H)p(H)=0n=2(コインの2つのスロー)。3番目のスローがテールになった後、(つまり、双頭コインではない)の可能性を排除できますが、その間のほとんどの値はデータによって合理的にサポートできます。(p H の正確な二項95%信頼区間は0.094から0.992です。P(H)=1.0p(H)

100回コインを投げ、(たとえば)70個のヘッドを置いた後、コインが実際には公平ではないという疑いの合理的な根拠が得られました。の正確な95%CI は0.600から0.787になり、p H = 0.5が与えられた100回のトスから70以上の頭(または尾)の極端な結果を観測する確率は0.0000785です。p(H)p(H)=0.5

尤度計算を明示的に使用したことはありませんが、この例では尤度の概念を捉えています。尤度とは、サンプルがパラメトリックモデルのパラメーターの特定の値をサポートする程度の尺度です


3
素晴らしい答えです!特に最後の3つの段落は非常に便利です。継続的なケースを説明するために、これをどのように拡張しますか?
デメトリス14

8
私にとって、最高の答え。私は数学を全く気にしませんが、私にとって数学は私が望むものによって支配されるツールです(私は数学をそれ自体のために楽しんではいませんが、それが私を助けるもののために)。後者を知っているのはこの答えだけです。
Mörre

73

フィッシャーに由来する尤度理論の観点からの視点を提供します-そして、引用されたウィキペディアの記事の統計的定義の基礎です。

パラメーター化された分布F X ; θ から生じるランダム変量があるとしますここで、θFを特徴付けるパラメーターです。その後の確率XF(X;θ)θF次のようになります。 P X = X = F X θ 、既知で θX=xP(X=x)=F(x;θ)θ

多くの場合、データあり、θは不明です。仮定されたモデルFが与えられると、尤度は観測データの確率としてθの関数として定義されますXθFθXは既知ですが、θは不明であることに注意してください。実際、尤度を定義する動機は、分布のパラメーターを決定することです。L(θ)=P(θ;X=x)Xθ

単純に確率関数を書き直したように見えますが、これの重要な結果は、尤度関数が確率の法則に従っていないことです(たとえば、[0、1]区間にバインドされていません)。ただし、尤度関数は観測データの確率に比例します。

この可能性の概念は、実際には異なる考え方の「尤度主義者」(頻度主義者やベイジアン主義者とは異なる)につながり、さまざまな歴史的議論をすべて検索することができます。基礎となるのは、尤度関数から直接推論を実行できると本質的に言う尤度原理です(確率に基づく推論ではないため、ベイジアンも頻度論者もこれを受け入れません)。最近では、学校で「周波数主義者」として教えられているものの多くは、実際には周波数主義者と尤度思考の融合です。

より深い洞察のために、良いスタートと歴史的参照はエドワーズの尤度です。現代のテイクについては、Richard Royallの素晴らしいモノグラフ、Statistical Evidence:A Likelihood Paradigmをお勧めします。


3
興味深い答えとして、私は実際に「可能性のある学校」は基本的に「サンプル学校を設計しない頻度主義者」であり、「設計学校」は残りの頻度主義者であると考えました。すべての学校から少し知識を持っているので、実際に自分がどの「学校」であるかを言うのは難しいと感じています。「拡張ロジックとしての確率」学校は私のお気に入りです(Duh)が、それについて独断的になるために実際の問題にそれを適用するのに十分な実際的な経験がありません。
確率論的

5
「尤度関数は確率の法則に従いません(たとえば、[0、1]区間にバインドされません)。ただし、尤度関数は観測データの確率に比例します」。
セイウチ猫

10
「尤度関数は確率の法則に従わない」は、特に次のように記述されているので、さらに明確化を使用できます:L(θ)= P(θ; X = x)、つまり確率と同等
レッドカルクス

ご回答有難うございます。@locsterが行ったコメントに対応していただけますか?
ビベックスブラマニアン

2
数学者ではない私にとって、これは宗教的な数学のように読めます。異なる信念が、出来事の起こる可能性の異なる価値をもたらします。1つが単に間違っていて、他の学校/信念が正しいのではなく、異なる信念が何であり、なぜそれらすべてが理にかなっているのかを理解しやすくするために、それを策定できますか?(イベントが発生する可能性を計算する1つの正しい方法があると仮定)
Zelphir Kaltstahl

56

上記のすばらしい技術的な答えをすべて考えて、言葉に戻してみましょう。確率は(結果の)予想を定量化し、尤度は(モデルで)信頼を定量化します。

誰かが「収益性の高いギャンブルゲーム」に挑戦しているとします。次に、確率は、期待される利益と損失のプロファイル(平均、モード、中央値、分散、情報比率、バリューアットリスク、ギャンブラー破滅など)を計算するのに役立ちます。対照的に、尤度は、そもそもこれらの確率を信頼するかどうかを定量化するのに役立ちます。または「ネズミの匂い」かどうか。


ちなみに、上記の誰かが統計の宗教について言及したので、尤度比はベイジアン世界と頻度の高いものの不可欠な部分であると信じています:ベイジアン世界では、ベイズの公式は単に事後を生成する可能性と事前に結合します。


この答えは私のためにそれを要約します。可能性は確率ではないことを読んだとき、私はそれが何を意味するかを考えなければなりませんでしたが、次のケースが私に起こりました。連続して4つの頭があるので、コインが公正である可能性はどのくらいですか?ここでは確率については何も言えませんが、「信頼」という言葉は適切なようです。コインを信頼できると思いますか?
-dnuttle

当初、これは歴史的に意図された尤度の目的でしたが、今日の尤度はすべてのベイジアン計算であり、確率が信念と妥当性を融合できることが知られています。
gaborous

50

頭を着陸させる確率がp、尾を着陸させる確率が(1p)コインがあるとします。ましょうx=1ヘッドを示し、x=0尾を示しています。次のようにfを定義します

f(x,p)=px(1p)1x

f(x,2/3)指定されたxの確率であり、p=2/3f(1,p)の可能性であるp所与x=1。基本的に、尤度と確率は、密度のどのパラメーターが変数と見なされるかを示します


上記で使用した理論上の定義を補完します!
フランクMeulenaar

は、k回の試行でn個の頭を持つ確率を与えることがわかります。あなたのp x1 p 1 xは、そのk番目のルートx = n / kのように見えます。どういう意味ですか?Cknpn(1p)knnkpx(1p)1xkx=n/k
リトルエイリアン

40

公正なコイン(パラメーター値)がある場合、頭に浮かぶ確率は0.5です。コインを100回裏返し、52回頭に上がった場合、公平である可能性が高くなります(可能性の数値はさまざまな形をとる可能性があります)。


3
これとジプシーの答えが一番上にあるはずです!乾いた数学的厳密さ以上の直観と明快さ、もっと軽de的なことは言うまでもない。
ネマンジャラドイコビッチ

24

は、2つの観点から見ることができます。P(x|θ)

  • 関数として、θを既知/観測値として処理します。xθ場合、ランダム変数でないP X | θ (と呼ばれるパラメータ化の)確率Xモデルパラメータ所与θ時にはとして書き込まれ、P X θ 、またはPのθX 。場合θはベイズ統計のように、ランダムな変数であり、その後、P X | θ θP(x|θ)xθP(x;θ)Pθ(x)θP(x|θ) aは条件として定義される確率は、P(xθ)/P(θ)
  • 関数として、観測されたxを扱います。θxあなたが特定の割り当てを見つけるしようとすると例えば、θをするためにθ最大にPをX | θ 、その後、P X | θがと呼ばれる最尤θ与えられたデータのx、時にはとして書かれた、L θ | x 。したがって、尤度という用語は、確率P θ^θP(x|θ)P(x|θ^)θxL(θ^|x)さまざまな値を θに割り当てた結果のデータ x(たとえば、良い解を得るために θの探索空間を横断するとき)。したがって、多くの場合、目的関数として使用されますが、ベイジアンモデル比較のように2つのモデルを比較するためのパフォーマンス指標としても使用されます。P(x|θ)xθθ

多くの場合、この式はまだ両方の引数の関数であるため、むしろ強調の問題です。


2番目の場合、私は人々が通常P(θ| x)を書くと思った。
yuqian

もともと直感的には、それらは両方とも同じ意味の言葉であり、視点や自然言語の定式化が異なると思っていたので、「何?私はずっと正しかった!」しかし、そうだとすれば、なぜそれらを区別することがそれほど重要なのでしょうか?英語は母国語ではないので、一見したところ両方の用語で一語だけで育ちました(または、用語を区別する必要のある場所で問題が発生したことはありませんか?)。2つの英語の用語を知ったのは、たった今です。これらのことについての理解を疑い始めます。
ゼルフィアカルツスタール16

3
あなたの答えは非常にわかりやすく、理解しやすいようです。どうしてこれほど多くの賛成票がなかったのだろうか。
ジュリアン

4
|(X Pがあることに注意してください)された条件付きならば確率は唯一のθは確率変数である場合、θはパラメータであり、それは単にによってパラメータxの確率ですθθθθθ
ミルチャミロネンコ

私はこれがすべての中で最高の答えだと思う
アーロン

4

私に関する限り、最も重要な違いは、尤度は()確率ではないということです。θ

推定問題では、Xが与えられ、尤度 θではなくXの分布を表します。つまり、P X | θ のD θは可能性がのPDFファイルではないので、無意味であるθそれが特徴づけるんが、θをある程度まで。P(X|θ)θP(X|θ)dθθθ


1
@Lenar Hoytからの答えが指摘しているように、シータが確率変数である場合(可能性がある場合)、尤度は確率です。したがって、本当の答えは、尤度は確率になる可能性があるが、そうでないこともあるようです。
マイクワイズ

チャンスはそれがちょうどそう、「ランダム」ではないことをしている間@MikeWiseは、私が...、シータは常に「ランダム」変数と見なすことができると思います
Response777

4

テレビシリーズ「num3ers」のパイロットを知っていますか。FBIは、被害者をランダムに選んだと思われる連続犯罪者の本拠地を見つけようとしますか?

p(x|θ)xθxθpθ(x)=p(x|θ)xθ

xθ

θθp(x|θ)xlx(θ)=p(x|θ)θxxθ^クグロフの。

lx(θ)θpθ(x)xp(x|θ)xθ

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.