確率のエラーバーには意味がありますか?


25

人々はしばしば、ある出来事が起こる可能性が50-60%あると言います。確率の割り当てについて明示的なエラーバーを表示する人もいます。これらのステートメントには意味がありますか、それとも本質的に知らない何かに対して特定の番号を選択する不快感の言語的な癖ですか?


1
計算学習理論のおそらくほぼ正しいフレームワークはそれを行いません。通常、確率で保持する分類器の誤り率に限界があります1δか?もしそれが無意味な概念だったなら、CoLTの人々(非常に賢い)がそれを見つけられなかったことを疑います!
Dikran Marsupial

5
@DikranMarsupial PAC学習のエラーは、確率自体ではなく(この質問で尋ねられます)、データにあります。つまり、確率で答えが真の値のの距離内にあることを証明できる場合、アルゴリズムの出力を「ほぼ正しい」と呼びます。ε1δε
離散トカゲ

@Discretelizardですが、分類設定では、それはエラー率の限界ではありませんか(これはエラーの確率です)?CoLTを見てから久しぶりです!
ディクラン・マースピアル

1
@DikranMarsupial PAC学習の一般的な設定では、「近似」部分は「尤度」ではなく、エラーの「大きさ」を測定します。PACの範囲の動機は、たとえば予想されるリスクよりも詳細な分析を取得することです。PACが意味をなすためには、クラス間で定義された「距離」(または損失関数)が必要ですが、分類設定のこの変更はないと思います。(バイナリ分類のより特殊なケースでは、エラーを作成する方法は1つしかないため、その場合、近似部分は意味をなしません)
離散トカゲ

回答:


36

既知の確率について話している場合は意味がありません。たとえば、公正なコインでは、頭を投げる確率は定義上0.5です。ただし、教科書の例について話さない限り、正確な確率は決して知られておらず、おおよそ知っているだけです。

別の話は、データから確率を推定する場合です。たとえば、購入した12563チケットのうち13枚の当選チケットを観察したため、このデータから確率を13/12563と推定します。これはサンプルから推定したものであるため、サンプルが異なると異なる値を観測できるため、不確かです。不確実性の推定値は、確率に関するものではなく、推定値に関するものです。

別の例は、確率が固定されていないが、他の要因に依存している場合です。自動車事故で死亡する確率について話しているとしましょう。「グローバル」な確率、つまり、自動車事故に直接および間接的につながるすべての要因を取り除いた単一の値を考慮することができます。一方、リスク因子を与えられた人口の間で確率がどのように変化するかを考慮することができます。

確率自体が確率変数と見なされる例がさらに多くあるため、修正されるのではなく変化する可能性があります。


1
確率推定の計算がロジスティック回帰のようなものによって行われた場合、これらの「エラーバー」が予測間隔を指すと仮定するのも自然ではないでしょうか?(私は明らかに、あなたが提起最初のポイントへの明確化として、主に+1を求めています)
usεr11852は回復モニック言う

1
実際のケースに応じて、@usεr11852信頼区間、予測区間、最高密度領域など。多くのシナリオで「変化する」確率があり、それらはさまざまな方法で変化するため、私は非常に幅広い回答をしました。また、シナリオごとに異なる解釈をすることもできます。
ティム

1
「既知の」確率でさえ、非常に小さなエラーバーの省略形になります。コインフリップはおそらく50.00001%から49.99999%であり、50.00000%を除く十分に小さいエラーバーを取得するのに十分な試行があることを示すことができます。非対称コインの場合、オッズが正確に均等であることを示唆する物理法則はありませんが、エラーバーは誰にとっても気にするほど小さすぎます。
原子力王

5
@NuclearWangこれは、OPが「フェアコイン」というフレーズを使用することで説明されます。定義により、公正なコインのP(HEADS)は0.5です。公正なコインは数学的構造です。この点を強調するために、「物理法則による」を「定義による」に置き換える編集をお勧めします。
De NovoはGoFundMonica

2
@DeNovo同じことは物理的なコインにも当てはまりますstat.columbia.edu/~gelman/research/published/diceRev2.pdf、はい、私はこの議論を始めないために「公平」と言いました
ティム

23

xkcdの最も適切な図

ここに画像の説明を入力してください

関連するキャプション付き:

...効果サイズ1.68(95%CI:1.56(95%CI:1.52(95%CI:1.504(95%CI:1.494(95%CI:1.488(95%CI:1.485(95%CI:1.482 (95%CI:1.481(95%CI:1.4799(95%CI:1.4791(95%CI:1.4784 ...


これは、確率のエラーバーが冗長であることを意味しますか?
BalinKingOfMoria

12
冗談ですが、これは、誤差バーの精度が不確実であり、不確実性の評価自体が無限の回帰で不確実であることを意味します。
西安

7
だからこそ、私は統計のエラーを評価するという根本的な難しさ(そして美しい挑戦)に関連し、深く結びついていると考えています。
西安

14
不確実性自体は確率分布の幅の尺度であるため、この図はメタ不確実性を示しています。これは確率の不確実性に関連している可能性がありますが、投稿ではこれを説明していません。実際、XKCDコミックでは、エラーの伝播(false)に関係があると示唆されていますが、質問にはありません。
gerrit

6

私は2つの解釈を知っています。最初のティムで言った:我々は観察したX外の成功をY我々は試験は我々がプロセスの確率を推定することができるIIDたと考えているそうだとすれば、裁判X/Y、いくつかのエラーバーで例えばオーダーの1/Y

2つ目は、「高次の確率」または生成プロセスに関する不確実性を伴います。たとえば、職人のギャンブラーによって製造されたコインを手に持っていて、0.5確率で60%の頭のコインを作り、0.5確率で40%の頭のコインを作ったとします。私の最善の推測は、コインが頭に浮かぶ50%の確率ですが、大きなエラーバーがあります。「真の」確率は40%または60%です。

つまり、実験を10億回実行し、成功の割合X/Y(実際には限界割合)を取得することを想像できます。少なくともベイジアンの観点からは、たとえばその数の周りに95%の信頼区間を与えることは理にかなっています。上記の例では、現在の知識を与え、これは[0.4,0.6]。本物のコインのために、多分それはある[0.47,0.53]または何か。詳細については、以下を参照してください。

高次の確率が必要か、もしそうなら、それらは何を意味するのか?ユダヤ真珠。UAI1987。https : //arxiv.org/abs/1304.2716


4

すべての測定値は不確かです。

したがって、確率の測定も不確実です。

確率の測定に関するこの不確実性は、不確実性バーで視覚的に表すことができます。不確実性バーはしばしばエラーバーと呼ばれることに注意してください。これは不正確であるか、少なくとも誤解を招きます。エラーではなく不確実性を示しているためです(エラーは測定値と未知の真実の差であるため、エラーは不明です。不確実性は、測定)。

関連トピックはメタ不確実性です。不確実性は事後確率分布関数の幅を表し、タイプAの不確実性(繰​​り返し測定により推定される不確実性)の場合、不確実性には不確実性が避けられません。metrologistsは、測定を繰り返し、一つはによって結果の標準偏差を掛けなければならない不確実性は、Nの標準偏差によって推定された場合に計量練習おもむくが、この場合は(IIRC、不確実性を拡大することを私に言ってきたNN2)、これは本質的にメタ不確実性です。


3

確率のエラーバーはどのように発生しますか?prob(A|Θ=θ,I)を割り当てることができると仮定します。場合I意味Θ=θ0、次いでprob(Θ=θ|I)=δθθ0

prob(A|I)=θprob(A|Θ=θ,I)δθθ0=prob(A|Θ=θ0,I)

ここでΘIから推定できない 場合、prob(Θ=θ|I)不確実性はprob(A|I)不確実性につながると考えがちです。しかし、そうではありません。これは、AΘ=θ結合確率を暗示しているだけであり、Θが辺縁化された場合、A最終確率が得られます:

prob(A,Θ=θ|I)=prob(A|Θ=θ,I)prob(Θ=θ|I)prob(A|I)=θprob(A|Θ=θ,I)prob(Θ=θ|I)

したがって、エラーバーを確率に追加することは、迷惑パラメーターに不確実性を追加することに似ており、確率を変更できますが、不確実にすることはできません。


1

確率の確率を持ちたい場合が非常によくあります。たとえば、食品の安全性に取り組み、生存分析モデルを使用して、食品の調製手順(調理)とインキュベーション時間/温度(cfを参照)の関数として、ボツリヌス菌胞子が発芽する(したがって致命的な毒素を生成する)確率を推定したとします)。食品生産者は、そのモデルを使用して安全な「使用期限」を設定し、消費者のボツリヌス中毒のリスクが適切に小さくなるようにすることができます。ただし、モデルは有限のトレーニングサンプルに適合しているため、発芽の確率がたとえば0.001未満である使用期限を選択するのではなく、(モデリングの仮定を考慮して)早い日付を選択することができます。発芽の確率が0.001未満であることを95%確信できます。これは、ベイジアン設定ではかなり自然なことのようです。


0

TL; DR - いずれオフ推測特定の推測からは単一の確率を低減することができます。ただし、それは単なる些細なケースです。確率構造は、単一の確率を超える文脈上の関連性がある場合に意味をなします。


ランダムコインがヘッズに着く確率は50%です。

それが公正なコインであるかどうかは関係ありません。少なくとも、私には。コインには、知識のあるオブザーバーがより多くの情報に基づいた予測を行うために使用できるバイアスがあるかもしれませんが、50%の確率を推測する必要があります。

私の確率表は次のとおりです

HeadsTails50%50%.
しかし、コインのオッズが50%であると誰かに伝えた場合、2回のコインフリップで何が起こるかについて決定する必要がありますか?さらなる情報が不足しているため、デフォルトでは、コインフリップは独立したイベントであると推測し、
First flipSecondflipHeadsTailsHeads25%25%Tails25%25%,
Same sidetwiceHeadsand Tails50%50%.

PHeads,

HeadsTailsPHeads1PHeads.
First flipSecondflipHeadsTailsHeadsPHeads2PHeads(1PHeads)TailsPHeads(1PHeads)(1PHeads)2,
Same sidetwiceHeadsand Tails12PHeads(1PHeads)2PHeads(1PHeads).
PHeads,50%,

それは同じことですよね?

完全に公平なコインの特別な場合を除き、2頭または2尾を獲得するオッズは常に1頭ずつ獲得するよりも大きいことがわかります。そのため、確率自体が不確実性を捕らえると仮定して、テーブルを縮小すると、予測は拡張されたときに不合理になります。

つまり、「真の」コインフリップはありません。非常に異なる結果と明らかなバイアスを生み出す可能性のある、あらゆる種類の異なる反転手法を使用できます。だから、一貫した価値があるという考えPHeads、その前提に基づいて引数を構築するときにエラーにつながる傾向があります。

50%",probably about 50%".

そして、私が言いたいことはおおよそです:

50%.


人々はしばしば、ある出来事が起こる可能性が50-60%あると言います。

それらと一緒に座って、すべてのデータ、モデルなどを作成した場合、より多くの数、または理想的には、より強力に予測能力を獲得するより良いモデルを生成できる可能性があります。

PHeads=50%


0

私はエラーバーだけが重要であると主張しますが、与えられた例では、全体はおそらくほとんど無意味です。
例は、ある程度の確実性の上限と下限が確率の範囲である信頼区間として解釈するのに役立ちます。この提案された答えは、その解釈を扱います。大部分のソース-https://www.amazon.com/How-Measure-Anything-Intangibles-Business-ebook/dp/B00INUYS2U


この例では、一定の信頼レベルに対して、答えが60%を超える可能性は低く、同様に50%を下回る可能性は低いとしています。これは非常に便利な数値のセットであるため、「ビニング」に似ており、55%の盗品が+/- 5%の範囲にさらにスワップされます。おなじみのラウンド番号はすぐに疑われます。
信頼区間に到達する1つの方法は、選択した信頼レベル(たとえば90%)を決定することです。この値は推定値よりも低くても高くてもかまいませんが、可能性は10%しかありません。 「正しい」答えは、私たちの間隔の外にあります。したがって、「この上限よりも適切な答えが大きくなる可能性は1/20しかありません」などの上限を推定し、下限についても同様にします。これは、測定の1つの形式である「キャリブレーションされた推定」または他の形式の測定を通じて実行できます。
とにかく、A)最初から私たちの不確実性に関連する不確実性があることを認め、B)物に手を投げつけ、それを混乱と呼ぶのを避け、上下5%で単にタックすることです。利点は、選択した程度に数学的に述べることのできる程度まで、数学的に意味のある結果をもたらすことができることです。「これらの2つの境界の間に正しい答えが存在する確率は90%です...」これは、適切に形成された信頼区間(CI)であり、さらなる計算で使用できます。厳密なアプローチ
であることに加えて、信頼性を高めることで、予測と結果を比較し、推定方法を改善するために見つけたものに基づいて行動することで、推定に到達するために使用する方法を調整できることです。何も完璧にすることはできませんが、多くのことを90%効果的にすることができます。
90%CIは、OPで指定された例にフィールドの10%が含まれ、90%が省略されているという事実とは関係がないことに注意してください。
翼幅とはボーイング747-100の90%CIへの?さて、私はそれが300フィート以下であることを95%確信しており、それが200フィート以上であることも等しく確信しています。だから私の頭の上から、200の90%CIを与えます-235フィート。
「中央」の推定値がないことに注意してください。CIは、推測にファッジファクターを加えたものではありません。これが、エラーバーが特定の推定値よりも重要であると私が言う理由です。


とはいえ、間隔の推定値(上記のすべて)は、適切に計算されたエラーのある点の推定値よりも必ずしも良いとは限りません(この時点では思い出せないことです。頻繁に間違って行われたことだけを思い出します)。範囲として表された多くの推定値、およびラウンド数を含むほとんどの範囲が危険であると言っているのは、間隔またはポイント+エラーの推定値ではなく、ポイント+ファッジであるということです。


一つの適切な使用ポイント+エラーの:

「マシンはカップに液体を満たし、カップの内容が250 gの液体になるように調整することになっています。マシンはすべてのカップに正確に250.0 gを満たせないため、個々のカップに追加される内容には多少のばらつきがあります。この変動は、2.5 gの標準偏差σで、250 gの所望の平均の周りに正規分布していると想定されます。機械が適切に較正されているかどうかを判断するには、n = 25のサンプルカップの液体がランダムに選択され、カップの重量が測定されます。結果として測定される液体の質量は、X1、...、X25、Xからのランダムサンプルです。」

キーポイント:この例では、平均値と誤差の両方が推定/測定ではなく、指定/推定されます。

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.