統計的背景がない人に統計的有意性をどのように説明しますか？

11

背景：
統計の初心者であるクライアント（ある種の弁護士）のデータ分析を実行する必要がありました。「統計的有意性」という用語の意味を尋ねられ、私は実際にそれを説明しようとしましたが、失敗したことを説明するのは得意ではないので;）

statistical-significance inference communication

— Daniel Ryback
ソース

15

違いは偶然の結果として起こります。

統計的に有意であると私たちが信じるとき、その差は偶然の出来事として合理的に説明できるよりも大きいと信じています。

— チャールズ
ソース

私はチャンスの使用が好きですが、有意性テストが一般的にどのように使用されるかという点では、それは非常に誤解を招くと思います。たとえば、サンプルサイズが大きいということは、「チャンス」のベースラインの違いにより、ほとんどの場合、有意性が得られることを意味します。これらの結果は、偶然に合理的に説明されているにもかかわらず、「統計的に有意」と呼ぶことができることはかなり広く受け入れられています。

— フラスコ

@Flask：これらのベースラインの違いは、偶然によるものですか？

— Scortchi-モニカを復活

@Scortchiランダム化が実行された場合、違いは偶然による可能性があります。こちらをご覧ください。それが実行されたとしても、何かが後でバイアスを導入するかもしれません。こちらをご覧ください。無作為化が行われていない場合、それは偶然、調査官の偏見、またはいくつかの理由による可能性があります。

— フラスコ

1

違いのテストにのみ適用されることを除いて、有用な回答です。

— rolando2 2013

2

+1これは、p値、確率、分布、帰無仮説などのアルカナを回避し、ほとんどの弁護士が対処することに当てはまる方法で適切な方法で理解できるため、優れた答えです。包括的でない可能性があることは重要ではありません。詳細とバリエーションは後で処理できます。これを改善するように迫られた場合、私が行う主な変更は、統計的有意性に関する信念がデータに基づいていることを強調することです。つまり、この説明を神学的な信念と区別します。

— whuber

3

注：この回答で強調したいのは、統計的有意性は有用なツールですが、真実とも異なるということです。

52枚のカードのパックを取ります。私のクライアントが無実なら、それは通常のカードのパック、13ハートです。私のクライアントが嘘をついている場合、それは固定パックであり、52枚すべてのカードがハートです。

最初のカードを引いて、それはハートです。ああ、有罪だ！まあ、明らかに常識はそうではないことを教えてくれます。たとえ彼が無実だったとしても、これが起こる可能性は4分の1でした。1枚のカードを見ただけでは統計的有意性はありません。

そこで、2枚目のカードを引きます。別の心。うーん...間違いなく有罪だ！まあ、残りの51枚のカードにはまだ12のハートがあったので、不可能ではありません。計算（13/52 * 12/51 = 0.0588）は、これが無実であっても、時間の約6％が発生することを示しています。ほとんどの科学者にとって、これはまだカウントされません。

3枚目のカード、もう一つのハートを引きます！3行連続。これが発生する可能性は（13/52 * 12/51 * 11/50 = 0.01294）であるため、偶然に発生する可能性がある時間は1％強です。

多くの科学では、カットオフポイントとして5％が使用されています。したがって、これら3枚のカード以外に証拠がない場合は、彼が有罪であるという統計的に有意な結果が得られます。

重要な点は、あなたが見ることが許されるカードが多いほど、彼の罪悪感に対するあなたの自信がよくなるということです。これは、統計的有意性が高くなると言い換えることもできます。

注：14枚のカードを見ることが許可されていない限り、彼の罪悪感の証拠はありません。通常のカードのパックでは、理論的には13枚のハートを連続で引くことができますが、14枚は不可能です。[ペダントは別として、カードの数字が見えないものとしましょう。すべてのカードは4つの可能なスーツの1つであり、それだけです。]

注：ハート以外のカードを引いた瞬間に、彼の無実の証拠があります。これは、通常またはすべてのハートのパックが2つしかなかったためです。実際の生活はより複雑であり、数学もより複雑になります。

ちなみに、クライアントがカードプレーヤーでない場合は、モノポリーを試してください。しかし、誰かが疑わしいと思うたびにダブルシックスを振るなら。統計は、私たちがどれほど疑わしいかについて正確な数を置くことを可能にします。

— ダレンクック
ソース

3

私自身のアドバイスは、以下のことについて話すことではありません：

p値、
テスト統計、
偶然だけで物事が発生する可能性。

弁護士についてあまり気にしないでください。これは、大学の統計学のクラスで少なくとも1学期を過ごした教育を受けた人であり、彼と一緒に少しは付きません。それは私が一緒に働いたほとんどすべての非科学者にとって同じ物語です- 統計的有意性はつきません。それはあまりにも不自然な概念です。

証拠の観点から統計的有意性を説明することをお勧めします。古典的な統計学者は、0から1のスケールで証拠をエンコードしています。値が小さいほど証拠が多くなり、0.05が従来のように線が引かれます。

— ベン・オゴレク
ソース

sigのアイデア。非科学者に固執することができます。不自然と見なされることが多いのは、技術的な定義です。証拠に関しては、もちろんこれは証拠に関するものです。問題は、sigに関する決定に至るために統計的に証拠をどのように扱うかです。

— rolando2 2013

私はあなたの楽観主義が好きですが、統計的有意性がすべて証拠であることは典型的な人には明らかだと思いません。データセットが十分に大きくなり、計算されたすべての数値がなんらかの方法で「有効」になったときに、フリップでのある種の切り替えと見なされます。一般の人が証拠がどのように定量化されるかを知ることが重要であることを主張しているので、おそらくそもそも本当だとは信じていなかったという仮説のもとで計算された確率について話す準備をしてください。

— Ben Ogorek 2013

ああ、でも証拠について話すと、ベイジアンの土地に入ります。

— Arthur B.

1

ベイジアンが「証拠」（概念）を持っているとは思わないが、彼らは確かにそれを形式化している。小さなp値は何かの証拠であると私は主張します。

— Ben Ogorek 2013

1

「統計的に有意」とは、何かがランダムに発生した可能性があるが、そうではないことを意味します。代わりに、何らかの原因がある可能性がはるかに高くなります。説明は非常に抽象的であるため、クライアントに関連する例を使用して、これをより具体的にする必要があります。

たとえば、弁護士のアンがビルよりも多くのケースで平均して勝った場合、これはランダムに発生した可能性があります。ただし、統計的に有意な数のケースでアンが勝った場合、アンがビルよりも多くのケースで勝利した理由を説明するのに役立つ可能性がある可能性が高くなります。原因はわかりません。おそらく、アンはより優れた弁護士であるか、ビルはより困難なケースを意図的に選択しています。

— ジョナサン
ソース

0

シンプルで簡潔にしてください。

p値は、nullがtrueであると仮定して観察した結果と同じかそれ以上の結果を得る確率として定義されます。p値が十分に小さい場合、nullは真ではない可能性があります。「十分に小さい」（アルファ）と見なすもののカットオフを任意に選択し、アルファを下回るすべてのp値について、nullを拒否します。

それが私の紹介統計クラスに説明する方法です。

— TrynnaDoStat
ソース

しかし、もっともらしい帰無仮説を選ぶ方法がない場合（つまり、2つのグループの人々がまったく同じではないが、mean1 = mean2より優れたものを予測するための十分な情報がない場合）はどうでしょうか。制限に言及せずに統計的有意性を説明すると害を及ぼす可能性があります。

— フラスコ

0

私が試してみます。

まず、平均データとデータの変動性に基づいてp値を計算します。変数が大きいほど、小さなp値を取得する可能性が低くなります。一方、たとえば、2つのグループを比較している場合、それらの平均の差が大きいほど、p値は小さくなります。

また、データの変動性は、より多くのデータを保持することで多少相殺することができます。2つの平均の差が同じで変動量が同じである2つのデータセットのイメージング。この場合、サンプルサイズが大きいセットのp値は小さくなります。

テストパーツは、p値がある数値よりも小さいかどうかを確認しています。通常、人々は.05を使用しますが、これは恣意的な社会的慣習です。多くの人は、任意の数を使用しても意味がないと考えていますが、歴史的な理由から非常に一般的です。

また、有意差検定で2つのグループ間に差があると言ったからといって、なぜその差があるのかがわかるとは限らないことにも注意してください。一方、有意差がないことがテストで示された場合は、変動が大きすぎて、p値を低くするのに十分なデータがなかったことが原因である可能性がありますが、実際の差がないことを意味するわけではありません。

編集：

要約すると、p値が低いほど、予測に対する証拠が多くなります。

予測結果との差異->ダウンp値

より多くのデータ->ダウンp値

変動性の増加-> p値の上昇

p値の減少は、予測が誤っているというより多くの証拠を意味します。歴史上のすべての予測は、小数点以下第2位まで誤って示されています。

— フラスコ
ソース

0

統計的有意性は、特定の仮説を受け入れるか拒否するかを正当化するために使用される概念です。一連のデータが与えられると、アナリストは統計を計算し、さまざまな変数間のさまざまな関係の大きさを決定できます。

統計の仕事は、計算された統計または変数間で観察された関係が真のステートメントとして解釈できると結論付けるのに十分な証拠がデータに含まれているかどうか、またはサンプルデータで観察された結果が単に偶然によるものかどうかを判断することです。これは、帰無仮説が真の場合に特定の特性を示すサンプル統計を決定することによって行われますが、帰無仮説が偽の場合には行われません。関連する標本統計が帰無仮説の下で期待される特性を示すように見えるほど、帰無仮説が正しいという統計的証拠が強くなります。同様に、標本統計が帰無仮説の下で期待される特性を示すように見えないほど、帰無仮説が正しいという統計的証拠は弱くなります。

標本統計が帰無仮説の下で期待される特徴を示す量は程度の問題ですが、帰無仮説が受け入れられるか拒否されると結論付けるためには、任意のカットオフが必要です。そのため、カットオフ値が選択されます。サンプル統計がカットオフ値内または片側にある場合、帰無仮説の下で期待される特性に一致すると言われるため、結果は特定のカットオフ値（たとえば、5％アルファ）に対して統計的に有意であると見なすことができます。レベル）。関連するサンプル統計がカットオフ値の反対側にある場合、帰無仮説で予想される特性に適合しないと言われるため、結果は所定のカットオフ値に対して統計的に有意であるとは見なされません。

— tjnel
ソース

しかし、結果が適用されるはずの事前に決定された明確な母集団がどれほど頻繁に存在するか。通常は、調査された正確な母集団（ユニークなサンプル）を超えて結果を適用するための議論が行われます。この主題の一意性/重要性がどの程度重要であるかは、多くの状況で不明です。例外は、品質管理を製造することができますが、重要性のテストはそれよりもはるかに広く使用されています。私自身の教育から省略された手順の制限を強調することだけを意味します。

— フラスコ

@Flaskは良い点です。私は自分の回答を編集して、より一般的なものにしてみました。

— tjnel 2013