xkcd jelly bean comicについて説明してください:何が​​面白いのでしょうか?


60

私は、彼らが実行さ20回の合計試験のうち一度、ことがわかり、ので、誤った結果が(有意である、20回の試験のうちの1つの間にそれを想定0.05 = 1 / 20)。p<0.050.05=1/20

xkcdジェリービーンコミック-"Significant"

  • タイトル:重要
  • ホバーテキスト:「だから、ええと、私たちは再び緑の研究を行ったが、リンクは得られなかった。おそらく「-」グリーンジェリービーン/ニキビのリンクに関する研究の混乱。

xkcd comic 882-「重要」


8
95%の信頼度は、実験の平均5%(20回のうち1回)で反対の結論が得られることを意味します。これがまさにここで起こったことです。つまり、オレンジジェリービーンを使用して同じ実験を1000回行った場合、そのうちの50個が肯定的な結果をもたらします。:)
サッシュケロ14

19
誰が面白いと言ったの?
whuber

3
面白さ>0面白さ<0p<.05


3
@Glen_b、お気に入りのデータ分析漫画スレッドは適切なCWですが、これが必要な理由はわかりません。「なぜおかしい」とは別に、質問は漫画の問題の統計的なポイントの理解を求めますが、これには答えがあり、トピックではなくCWではないはずです(&
GUNG -モニカ元に戻し

回答:


69

ユーモアは非常に個人的なものです-一部の人々はそれを面白いと感じるでしょうが、それは誰にとっても面白くないかもしれません-そして、たとえ何かがおもしろいのかを説明しようとしても、たとえ根底にあるポイントを説明しても、おかしなことを伝えられないことがよくあります。実際、すべてのxkcdが実際に面白いとさえ意図されているわけではありません。しかし、多くの人は、挑発的であると考えられる方法で重要なポイントを挙げており、少なくとも時にはそれをしている間、彼らは面白いです。(私は、部分的にそれは疑わしい、あるいは疑わしい結果が(メディアサーカスに変身する方法の認識だと思う。私は個人的には面白い発見が、私はそれは難しい明確に正確に、私にはそれが面白い作るもの、説明することを見つけるにこの博士号コミックも参照してください)、そしておそらく一部の研究が実際に行われる方法の一部の認識-通常は意識的ではない場合)

しかし、それはあなたの変な骨をくすぐるかどうかにかかわらず、その点を理解することができます。

n1n

コミックでは、ランドールが20のテストを描いたので、これは間違いなく彼のポイントです(何も起こっていない場合でも重要なものを取得することを期待しています)。架空の新聞記事は、「偶然の可能性はわずか5%!」という小見出しの問題を強調しています。(論文で終わった1つのテストが行​​われた唯一のテストであった場合、それは事実かもしれません。)


もちろん、個々の研究者がはるかに合理的に振る舞うかもしれないという微妙な問題もありますが、誤検出のramp延する宣伝の問題は依然として発生します。これらの研究者はそれぞれ1%レベルで5つのテストのみを行うため、そのような偽の結果を発見する全体的なチャンスは約5%であるとしましょう。

ここまでは順調ですね。しかし、今では20のそのような研究グループがあり、それぞれが試してみるべき理由があると思う色のランダムなサブセットをテストしていると想像してください。または100の研究グループ...今コミックのような見出しの可能性は何ですか?

もっと広く言えば、コミックは出版バイアスをより一般的に参照している可能性があります。重要な結果のみがトランペットされた場合、緑色のジェリービーンズには何も見つからなかった数十のグループについては聞いていません。

実際、これこの記事で述べられている主要なポイントの1つであり、ここ数か月でニュースに掲載されています(たとえば、2005年の記事であっても)。

その記事へ回答は、複製の必要性を強調しています。公開された研究の複製が複数ある場合、「にきびにリンクされたグリーンジェリービーンズ」の結果は成立しない可能性が非常に高いことに注意してください。

(実際、漫画のホバーテキストは同じポイントを巧妙に示しています。)


12

公開の決定に対する仮説テストの効果は、50年以上前の1959年のJASA論文の公開決定と、有意性のテストから得られた推論への影響の可能性-またはVice Versa(ペイウォールについてはごめんなさい)で説明されています。

論文の概要この論文は、科学論文の発表された結果がすべての研究の結果の代表的なサンプルではないという証拠を指摘しています。著者は、4つの主要な心理学ジャーナルに掲載された論文をレビューしました。レビューされた論文の97%は、主要な科学的仮説について統計的に有意な結果を報告しました。

著者は、この観察の可能な説明を進めています。重要でない結果をもたらす研究は公開されていません。他の研究者には知られていないこのような研究は、最終的に偶然に重大な結果(タイプ1エラー)が発生して公開されるまで、独立して繰り返される場合があります。これにより、公開された科学文献には、統計的有意性テストのタイプ1エラーに起因する誤った結果の過剰表現が含まれる可能性への扉が開かれます。

この一般的な観察はその後検証され、その後数年のうちに再発見されました。私は1959年のJASAの論文が仮説を前進させた最初のものであったと信じています。その論文の著者は私の博士課程のスーパーバイザーでした。35年後に彼の1959年の論文を更新し、同じ結論に達しました。出版決定の再検討:統計的テストの結果が出版決定とその逆に及ぼす影響。 American Statistician、49巻、No 1、1995年2月


確かに-私は論文の概要を含めるために上記の返信を編集しました。
ウィルフローゼンバウム


-2

人々が見落としているのは、グリーンゼリービーンの場合の実際のp値は.05ではなく、約.64であるということです。ふり(名目)p値のみが.05です。実際のp値とふりp値には違いがあります。すべてのヌルが真である場合でも、20分の1が公称レベルに達する確率は、.05ではなく、.64です。一方、比較の可能性を見てエビデンスを評価すると、エラー統計(p値が存在する)以外の最も人気のあるビューは、Hのエビデンスがあると言います。それは、P(x;効果なし)<P(x; H)であるためです。左側は<.05ですが、右側はかなり高くなっています。緑のゼリー豆がにきびを引き起こした場合、観察された関連性を見つける可能性が高いでしょう。尤度だけでは、実際のデータが取得されることを条件とするため、エラーの確率を検出できません。緑色のゼリー豆とにきびのこの1つのテストがあった場合よりも評価に違いはありません。したがって、この漫画はp値をからかっているとよく見られますが、それが面白いのは、単なる尤度ではなく、全体的なエラー確率(非ふりp値がそうであるように)を考慮する必要がある理由を示しています。ベイジアン推論も結果に基づいており、エラー確率を無視します。ベイジアンにとって、Hの証拠を見つけないようにする唯一の方法は、Hで低い事前分布を持つことです。しかし、狩猟手順が使用されるため、主題が何であれ、事前分布に依存せずにp値を調整しますテストする仮説を見つけます。狩られたHが信じられたとしても まだお粗末なテストです。Errorstatistics.com


2
この投稿が何を言おうとしているのかを正確に伝えることは非常に困難です。明確化によって残りの意味が明らかになることを期待して、その一部に焦点を当てましょう。「全体的なエラー確率」とはどういう意味ですか?
whuber

2
@whuberこの投稿は多重比較の問題に言及していると思います。
マット14
弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.