上の単純ベイズ分類器についてのWikipediaのページ、この行があります:
(1を超える確率分布は問題あり。釣鐘曲線の下の面積は1です。)
値でも問題ありませんか?すべての確率値は範囲で表現されると思いました。さらに、そのような値を持つことが可能であるとすると、ページに示されている例ではその値はどのように取得されますか?
p
、確率密度に小文字を使用し、確率に大文字P
を使用しています
上の単純ベイズ分類器についてのWikipediaのページ、この行があります:
(1を超える確率分布は問題あり。釣鐘曲線の下の面積は1です。)
値でも問題ありませんか?すべての確率値は範囲で表現されると思いました。さらに、そのような値を持つことが可能であるとすると、ページに示されている例ではその値はどのように取得されますか?
p
、確率密度に小文字を使用し、確率に大文字P
を使用しています
回答:
このWikiページは、この数字を確率として参照することで言語を乱用しています。そうではないのは正しいことです。実際には1フィートあたりの確率です。具体的には、1.5789(6フィートの高さ)の値は、5.99から6.01フィートの間の高さの確率が次の単位なしの値に近いことを意味します。
ご存じのように、この値は 1を超えてはなりません。(高さの小さな範囲(この例では0.02)は確率装置の重要な部分です。これは高さの「微分」です。これをと略し。)何かの単位あたりの確率は単位体積あたりの質量など、他の密度と同様に密度と呼ばれます。
善意の確率密度は、無限の値であっても、任意の大きな値を持つことができます。
この例は、ガンマ分布(形状パラメーターおよびスケール)の確率密度関数を示しています。ほとんどの密度は未満であるため、すべての確率分布に必要な合計面積をにするには、曲線をより高く上昇させる必要があります。
この密度(パラメーターベータ分布の場合)はおよびで無限になります。総面積はまだ有限です(そして等しい)!
この例では、男性の身長が平均5.855フィート、分散3.50e-2平方フィートの正規分布を持っていると推定することで、1.5789 /フィートの値が得られます。(これは前の表にあります。)その分散の平方根は、標準偏差0.18717フィートです。平均からのSDの数として6フィートを再表現します。
標準偏差による除算は、関係を生成します
定義により、正規確率密度は
(実際、私はごまかしました:ExcelにNORMDIST(6、5.855、0.18717、FALSE)を計算するように単純に依頼しました。しかし、確かに式に対してそれを本当に確認しました。)本質的な微分チェシャ猫の笑顔のように、式からは数値のみが残ります。読者は、確率を得るために、数値に高さの小さな差を掛ける必要があることを理解する必要があります。
これは、変数が離散的である確率質量関数と変数が連続的である確率密度関数の違いを理解していないことによるよくある間違いです。確率分布とはをご覧ください:
連続確率関数は、連続間隔での無限数のポイントに対して定義され、単一のポイントでの確率は常にゼロです。確率は、単一ポイントではなく、間隔にわたって測定されます。つまり、2つの異なるポイント間の曲線の下の領域が、その間隔の確率を定義します。これは、確率関数の高さが実際には1より大きくなる可能性があることを意味します。積分が1に等しくなければならない特性は、すべての確率の合計が1に等しくなければならない離散分布の特性と同等です。
区間にわたる連続的な均一分布は、この質問の簡単な例を提供すると思います。連続的な均一分布では、各点の密度は各点で同じです(均一分布)。さらに、長方形の下の領域は1でなければならないので(通常の曲線の下の領域が1でなければならないのと同じように、ベースおよび領域長方形は高さ。
したがって、間隔の均一密度の値はであり、間隔では、...
ウィキペディアの記事がこのスレッドの最初の投稿に続いて編集されたかどうかはわかりませんが、「ここで1より大きい値でも構いません。高さは確率ではなく確率密度です。少なくともこの直接的なコンテキストでは、Pは確率に使用され、pは確率密度に使用されます。はい、記事は確率を意味するためにいくつかの場所でpを使用し、確率密度として他の場所でpを使用するため、非常にずさんです。
元の質問「1を超える確率分布値で問題ないか」に戻ります。いいえ、しかし、私はそれを完了しました(以下の最後の段落を参照)。
確率> 1を解釈する方法は次のとおりです。まず、スポーツでよく耳にし、時にはhttps://www.youtube.com/watch?v=br_vSdAOHQQで仕事をしているので、人々は150%の努力をすることができます。何かが起こると確信している場合、それは1の確率です。1.5の確率は、イベントが発生する150%の確信があると解釈できます-150%の努力をするようなものです。
また、確率が1を超えることができる場合は、確率を0未満にすることができます。負の確率は次のように解釈できます。0.001の確率は、イベントが発生する可能性がほとんどないことを意味します。確率= 0は「ノーウェイ」を意味します。-1.2などの負の確率は、「冗談でしょう」に対応します。
私が30年前に学校を出たばかりの不機嫌だったとき、私は航空の音の壁を破る、つまり、確率で統一の壁を破るよりも驚くべき出来事を目撃しました。博士号を持つアナリスト 物理学で2年間フルタイム(おそらく150%を与える)でオブジェクトXを検出する確率を計算するためのモデルを開発し、その終わりに彼のモデルと分析は、米国に密接に関係する複数の科学者とエンジニアによるピアレビューを正常に完了しました政府。オブジェクトXが何であるかは説明しませんが、オブジェクトX、およびオブジェクトXを検出する確率は、米国政府にとって非常に興味深いものです。モデルには、 = Prob(イベントyが発生する)の式が含まれていました。 そして、他のいくつかの用語がすべて組み合わされて最終式がProbになりました(オブジェクトXが検出されました)。確かに、Prob(オブジェクトXが検出された)の計算値は[0,1]の範囲内であり、コルモゴロフの伝統の確率では「伝統的」でした。 元の形式のは常に[0,1]にあり、標準のFortranまたは任意の科学計算機で利用可能な「園芸品種」の超越関数が含まれていました。ただし、アナリストと神にしか知られていない理由のために(おそらく、彼は物理学のクラスや本でそれを見たことがあるが、それが機能する少数のケースではなく、それが機能する多くのケースが示されたことを知らなかったため)この男の名前と科学的/数学的な判断は、たまたまディラックのものではありませんでした)、(そして、残りの項を無視します)、これ以降と呼ばれ。Probの最終式に挿入されたのは、この2項テイラー展開です(オブジェクトXが検出されます)。私が彼に指摘するまで、彼がていたのは、がすべてのパラメーターの基本ケース値を使用して約1.2に等しいことた。確かに、は可能約1.8まで進みます。そして、それが統一の障壁が確率で破られた方法です。しかし、暗闇の会議室で電池式のクレジットカードサイズのカシオ関数電卓で簡単な計算を行っただけで、彼はこの先駆的な偉業を成し遂げたことに気付きませんでした(とは言えませんでした)ソーラー電卓)。それはチャック・イェーガーが飛行機で日曜日のスピンに出かけ、数ヶ月後に彼が音の壁を破ったことを知らされるようなものです。