フィッシャーはこの引用で何を意味しますか?


14

私はこの有名な引用を随所に見ていますが、強調された部分を毎回理解するのに失敗しています。

習慣が慣例であるため、有意性が1%以上の場合、仮説を暫定的に「拒否」する人は、そのような決定の1%未満と間違います。仮説が正しいとき、彼はこれらのケースのわずか1%で間違えられ、それが間違っているとき、彼は拒絶で決して間違われません。[...]しかし、計算はとてつもなくアカデミックです。実際、科学者は毎年一定の重要性レベルを持たず、あらゆる状況で仮説を拒否します。彼はむしろ、彼の証拠と彼の考えに照らして、それぞれの特定の事件に心を向けています。テストを適用するために選択されたケースが明らかに高度に選択されたセットであり、選択条件が単一のワーカーであっても指定できないことを忘れてはなりません。また、使用された議論では、特定の試験で示された実際の重要性のレベルを、まるで彼の生涯の習慣であるかのように選択することは明らかに違法であるとは言えません。

(統計手法と科学的推論、1956、p。42-45)

具体的には、わかりません

  1. テストを適用するためにケースが「高度に選択」されているのはなぜですか?エリア内の人々の平均身長が165cm未満かどうか疑問に思って、テストを実施することにします。私が知る限り、標準的な手順は、領域からランダムなサンプルを取り出し、その高さを測定することです。これはどのように高度に選択できますか?
  2. ケースが高度に選択されていると仮定しますが、これは有意水準の選択にどのように関連していますか?もう一度上記の例を考えてみましょう。サンプリング方法(フィッシャーが選択の条件と呼んでいるものと思われるもの)が歪んでおり、背の高い人を何らかの形で好む場合、研究全体が台無しになり、有意水準の主観的な決定はそれを保存できません。
  3. 実際、「特定の試験で示された実際の有意水準」が何を指しているのかさえ、私には分かりません。それはその実験のp値、有名な0.05のような(in)有名な値、または何か他のものですか?

回答:


15

フィッシャーが大胆な引用で言っていることの私の言い換えです。どの仮説をテストするかを選択することに多くのことが費やされることを忘れてはならないので、一人の人の決定であっても、すべてを指定することはできません。また、上記の理由により、特定の試験の有意水準を生涯習慣として常に同じ方法で決定できないことも忘れてはなりません。

  1. 科学者の仮説は、研究者のバイアスと知識の現在の状態のために、他の多くの競合する仮説に対してテストする価値があると選択されています。仮説「高度に選択」されている、いない試料。仮説は、我々がテストを適用する例です。

  2. 仮説の選択プロセスは、有意水準に影響します。仮説を確信しているなら、それは自分を満足させるために有意水準をより厳しくするべきではありません。確信が持てない場合、証明の負担が大きくなります。薬物試験では、タイプIのエラーがタイプIIよりも悪いなど、他の要因も影響します。

  3. 彼が「示される」と言うとき、彼は単に「選ばれた」を意味すると思います。はい、p値がより極端な場合に仮説を棄却するプリセット値です。


10

フィッシャーが言及しているケースは、観察ではなくテストです。つまり、テストする仮説を選択します。ランダムな仮説をテストするだけでなく、観察、文献、科学理論などに基づいています。

あなたがいる場合やったテストのランダムな仮説を、そして(あなたの引用の最初の文で)あなたは間違っている回数は1%になります(または選択されているどのような値)。たとえば、次のような仮説をテストした場合

  • 人の社会保障番号のパリティは、そのIQに関連しています

  • 金髪の人は黒髪の人よりフリスビーを投げる

  • Cross Validatedで回答を得るまでの時間は、名の音節の数に関連しています。

そして、それらの束全体を1%でテストしましたが、約1%の確率でnullを拒否し、間違って拒否していました。(もちろん、私は上記のナンセンスなことをしていなければ)。

髪の色とフリスビーの投げ方に関する記事を見たことがありましたが、違いが見つかりました!それで、私はこのようなことを「フリスビー研究」と呼びます。

しかし、引用から私が一番好きな部分はこれです:

実際、科学研究者は毎年一定の重要性レベルを持たず、あらゆる状況で仮説を拒否します。彼はむしろ、彼の証拠と彼の考えに照らして、それぞれの特定の事件に心を向けています。

彼は墓の中で回転しているに違いありません。


4
これは良い答えですが、「フリスビーの研究」を悪いことだと思うのをためらっています。方法論が適切に採用されている限り(効果の大きさなどを考慮に入れて)、結果はもっともらしいと思います。つまり、髪の色はフリスビーの投げとは関係ないと考えられていますが、地球は数百年前まで宇宙の中心にあると認められていました!物事を間違えたことで人々を批判することはできますが、質問をしたことを誰のせいにするべきではありません。とはいえ、一部の仮説は他の仮説よりも有用性が低いことに同意しますが、それでも正しい場合があります
ナルゾク

また、タイプIエラーの可能性もあります。
ピーターフロム-モニカの復職

1
関連:xkcd.com/882
jkdev

2

引用の背景を確認しようとすると、わずかに異なる引用を持つ本のバージョンに行きました(どちらのバージョンかわからない)

https://archive.org/details/in.ernet.dli.2015.134555/page/n47

科学研究における重要なテストの一致性を説明するために行われた試みは、それらに基づいて可能なステートメントの仮説的な頻度を参照することにより、正しいか間違っているため、そのようなテストの本質的な性質を見逃しているようです。習慣が慣習の問題として、有意性が1%レベル以上である場合、仮説を暫定的に「拒否」する人は、そのような決定の1%以下と間違いを犯します。仮説が正しいとき、彼はこれらのケースのわずか1%で誤解され、それが間違っているとき、彼は決して拒絶で誤解されることはありません。したがって、この不等式を作成できます。しかし、計算はばかげてアカデミックです。実際、科学者は毎年一定のレベルの重要性を持たず、あらゆる状況において、彼は仮説を拒否します。彼はむしろ、彼の証拠と彼の考えに照らして、それぞれの特定のケースに心を向けています。さらに、計算は仮説のみに基づいており、証拠に照らして、多くの場合、まったく真実ではないと考えられているため、そのようなフレーズが何らかの意味を持つと仮定した場合の誤った決定の実際の確率は、重要度のレベルを指定する頻度よりもはるかに少ない。仮説を拒否する実際の人間にとっても、当然のことながら、彼が仮説を誤って受け入れるように導かれる可能性があるという無関心の問題です。そのようなフレーズに何らかの意味があると仮定した場合の誤った決定の実際の確率は、有意性のレベルを指定する頻度よりもはるかに低い可能性があります。仮説を拒否する実際の人間にとっても、当然のことながら、彼が仮説を誤って受け入れるように導かれる可能性があるという無関心の問題です。そのようなフレーズに何らかの意味があると仮定した場合の誤った決定の実際の確率は、有意性のレベルを指定する頻度よりもはるかに低い可能性があります。仮説を拒否する実際の人間にとっても、当然のことながら、彼が仮説を誤って受け入れるように導かれる可能性があるという無関心の問題です。

これは、厳格な議論として、拒絶の可能性の数学表現、タイプIエラーを使用することに対する批判のようです。これらの表現は、多くの場合、関連性のあるものの良い表現ではなく、厳密でもありません。

  1. テストを適用するためにケースが「高度に選択」されているのはなぜですか?

    これは文に関連しているようです

    さらに、計算は仮説にのみ基づいており、証拠に照らして、多くの場合、まったく真実であるとは考えられていません

    私たちはテストされている仮説に対して無関心ではなく、テストされている仮説が真実であると考えられないことがよくあります。

  2. これは有意水準の選択とどのように関連していますか?

    これは

    そのため、そのようなフレーズに何らかの意味があると仮定した場合の、誤った決定の実際の確率は、重要度のレベルを指定する頻度よりもはるかに低くなる可能性があります

    p値は、帰無仮説真である場合に間違いを犯す頻度です。ただし、実際にミスをする頻度は異なります(低い)。

  3. 「特定の試験で示された実際の有意性レベル」とは何ですか

    この部分は、ある種のp値ハッキングに言及していると思います。観測されたp値と一致するために観測が行われた後、有意水準であるアルファを変更し、これが最初からカットオフ値であるふりをします。

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.