教科書にないオプションの停止規則


16

停止規則は、P値と決定に関連するエラー率との関係に影響します。シモンズ等による最近の論文。2011年には、研究者の自由度という用語が、再現不可能であることが判明した心理学の文献の多くのレポートの責任を負うと考えられる行動の集合を記述するために作られました。

これらの動作のうち、オプションの停止規則または宣言されていない中間分析が現在関心のあるものです。エラー率への影響を生徒に説明しますが、生徒が使用する教科書には記載されていないようです。使用する!)。私の大学のメインの書店には、バイオサイエンス、ビジネス、エンジニアリングなど、さまざまな分野の入門レベルの学生を対象とした14の統計教科書があります。停止ルール」。

オプションの停止ルールの問題を説明する入門レベルの統計テキストがありますか?

シモンズ、JP、ネルソン、LD、およびサイモンソン、U。(2011)。偽陽性心理学:データ収集と分析の非公開の柔軟性により、あらゆるものを重要なものとして提示できます。心理学、22(11)、1359–1366。doi:10.1177 / 0956797611417632


1
頻度の高い統計を捨てて、ITやベイジアンの手法を使用すれば、問題は解決しませんか?(または、データセットのサイズに応じて、純粋な機械学習ですら)それは軽快ではありません。フィッシャーとNPの互換性のないマッシュアップは、「正しく」行われた場合でも、問題以外の何も引き起こしません。将来的には、これ以上のフリークエンティストはいなくなるでしょう。
1

1
はい、周波数の原則に準拠する方法を使用しなければ問題はなくなります。しかし、このような未来はこの世界では到来しないかもしれません。それは何ですか?
マイケルルー

2
@Michael:ほぼ間違いなく(ITなど)、「情報理論」の略です。
カーディナル

関連トピックに関する:errorstatistics.com/2013/04/06/...
神父

2
異なる理論的フレームワークを使用する@thedudeは、他の問題を引き起こします。ここでの問題は、あなたがすべて数学を世界の単なる説明以外のものとして扱っていることです。頻繁な統計は世界を説明する非常に便利な方法の1つであり、ベイジアンは別の方法です。どちらも真実のオラクルを提供しません。
13

回答:


2

分布と効果の大きさを知らない限り、停止ルールを設定することはできません-先験的にはわかりません。

また、はい、エフェクトサイズに焦点を当てる必要があります-そして、p値のみを考慮することは決して正しいとは見なされていません。確かに、エフェクトサイズではなくp値またはF値を示すテーブルやグラフを表示すべきではありません。

従来の統計的仮説推論テストには問題があります(コーエンはその頭字語に値すると言いますが、フィッシャーとピアソンは、今日彼らの激しい反対の名前で行われていることをすべて見たら、墓でひっくり返るでしょう)。

Nを決定するには、ターゲットの有意性と検出力のしきい値を既に決定しているだけでなく、分布に関する多くの仮定を作成する必要があります。特に、確立する効果のサイズも決定する必要があります。これは出発点であるべきであるという点で、哀れみは正しかった-どんな効果の最小効果が費用効果的だろうか!

「新しい統計」では、関連する標準偏差または分散(分布を理解する必要があるため)および標準偏差または信頼区間(後者は既にある)とともに、効果サイズ(必要に応じてペアの差として)を表示することを推奨しています。 p値をロックし、方向を予測するのか、それとも各ウェイベットを予測するのかについての決定)。しかし、科学的予測で指定された符号の最小効果を設定すると、これが明確になります-ただし、科学的な事前のデフォルトは試行錯誤を行い、違いを探すだけです。ただし、この方法を使用する場合は、正常性に関する仮定を再度行います。

別のアプローチは、ボックスプロットをノンパラメトリックアプローチとして使用することですが、ウィスカーや外れ値に関する規則は大きく異なり、それでも分布仮定に基づいています。

停止の問題は実際、個々の研究者が設定する問題でもNを設定しない問題でもありませんが、数千人の研究者からなるコミュニティ全体があり、1000は従来の0.05レベルの1 /アルファをはるかに超えています。答えは現在、要約分析(平均、stddev、stderr-または対応する「ノンパラメトリックバージョン-箱ひげ図のように中央値など」)を提供して、メタ分析を促進し、すべての実験の結果を組み合わせて表示することを提案しています特定のアルファレベルに到達したかどうか。

密接に関連するのは、多重テストの問題です。これは、困難を伴うだけでなく、保存力という名目で実験が単純化しすぎている一方で、結果を分析するために過度に複雑な方法論が提案されています。

私たちが何をしているのかまだほとんどわからないので、私はまだこれを決定的に扱っている教科書の章があるとは思わない...

今のところ、最善のアプローチはおそらく、問題に最も適切な従来の統計を、要約統計の表示と組み合わせて使用​​し続けることです。効果と標準誤差、およびNが最も重要です。信頼区間の使用は、基本的に対応するT検定と同等ですが、新しい結果を公開されたものとより意味のあるものと比較すること、再現性を促進するエトス、再現された実験とメタ分析の公開を許可します。

情報理論的アプローチまたはベイジアンアプローチの観点では、異なるツールを使用し、異なる仮定を行いますが、すべての答えをまだ持っておらず、最終的には同じ問題、またはより悪い問題に直面しています。回答し、相対的な仮定または不在の事前確率を証明するだけです。

最後の機械学習にも重要性を考慮する必要がある結果があります-多くの場合CIまたはT-Testで、多くの場合グラフで、単に比較するのではなくペアリングし、分布が一致しない場合は適切に補正されたバージョンを使用します また、ブートストラップと相互検証、およびバイアスと分散に関する論争もあります。最悪なことに、多くのツールボックスの1つですべてのアルゴリズムを徹底的にパラメーター化することにより、無数の代替テストを可能にするために考え抜かれてアーカイブされたデータセットに適用するだけで、無数の代替モデルを生成およびテストする傾向があります。最悪の場合、評価のために、正確な方法を使用するか、さらに悪いことにFメジャーを使用する-偶然正しい方法ではなく、まだ暗い時代です。

私はこれらの問題に関する多数の論文を読みましたが、完全に説得力のあるものを見つけることができませんでした。ただし、ほとんどの研究者が「標準「古い、または新しい。パワー、複数のテスト、サイジングと早期停止、標準誤差と信頼区間の解釈など、これらはほんの一部の問題です。

私を撃shootしてください-私は間違っていると証明されたいです!私の見解では、たくさんの風呂水がありますが、まだ赤ちゃんを見つけていません!この段階では、極端な見方や有名ブランドのアプローチはいずれも答えとして有望ではありません。


それはあなたを撃matterすることの問題ではありません、私はこれらの問題の解決策があるとは思いません。私たちは世界のパターンを認識する人間であり、収束する妥当性をもって解決しなければなりません。神を証明する彼の貧弱な試みが存在した後、デカルトは収束する妥当性にバントしました。そこにあることもあれば、そうでないこともありますが、ほとんどの場合、私たちは無限に小さい認知計算の力に立ち向かっています。
13

1

オプションの「停止ルール」は、最適な停止に関する技術用語ではないと思います。ただし、イントロレベルの心理統計学の教科書では、このトピックに関する詳細な議論を見つけることはできないと思います。

これに対する冷笑的な理論的根拠は、すべての社会科学の学生が弱い数学スキルを持っているということです。より良い答え、私見は、単純なt-テストはほとんどの社会科学実験に適切ではないということです。効果の強さを見て、それがグループ間の違いを解決するかどうかを判断する必要があります。前者は後者が可能であることを示すことができますが、それができることはそれだけです。

福祉支出、州の規制、および都市化の測定値はすべて、宗教的行動の測定値と統計的に有意な関係があります。ただし、p値を指定するだけで、全か無かの因果関係でテストを構成しています。以下を参照してください。

ここに画像の説明を入力してください

福祉支出都市化の両方の結果は統計的に有意なp値を持っていますが、福祉支出ははるかに強く相関しています。その福祉支出は、都市化がp値のp値を達成することさえできない他の宗教性の尺度(非宗教的な割合宗教の快適さ)との強い関係を示しており、都市化は一般的な宗教的信念に影響を与えないことを示唆しています。ただし、福祉支出でさえアイルランドやフィリピンを説明しおらず、他の効果が福祉支出の効果よりも比較的強いことを示していることに注意してください。< .10

「停止規則」に依存すると、特に心理学のサンプルサイズが小さい場合、誤検知が発生する可能性があります。分野としての心理学は、この種の統計的陰謀によって本当に抑制されています。しかし、私たちの信仰をすべて任意のp値に置くことも非常に愚かです。実験を行う前に、すべてのサンプルサイズと仮説ステートメントをジャーナルに送信したとしても、アカデミアが統計的有意性を求めてまとめてトローリングしているため、誤検出が発生します。

行うべき正しいことは、データマイニングを停止することではなく、行うべき正しい結果は、その効果に関連して結果を記述することです。理論は、予測の正確さだけでなく、それらの予測の有用性によっても判断されます。どんなに優れた研究方法論であっても、風邪の症状を1%改善する薬は、カプセルに詰めるだけの価値はありません。

更新明確にするために、私は社会科学者をより高い水準に保つべきであることに完全に同意します。教育を改善し、社会科学者により良いツールを提供し、有意水準を3-シグマに上げる必要があります。私は、表されていない点を強調しようとしています。心理学研究の大部分は、効果の大きさが非常に小さいため、価値がありません。

しかし、Amazon Turkを使用すると、10件の並行研究を適切に補正し、3シグマ以上の信頼レベルを非常に安価に維持できます。しかし、効果の強さが小さい場合、外部の有効性に対する重大な脅威があります。操作の効果は、ニュースストーリー、質問の順序、または...による可能性があります。

エッセイを書く時間はありませんが、社会科学の質の問題は安っぽい統計的手法をはるかに超えています。


私はここで社会学(通常は非実験的研究)と臨床試験のいくつかの混同があることを理解しています。ただし、最初の文は意味がありません。ルールを停止することは、臨床試験の研究の大きな領域です。この理由は、連続してテストされる複数の相関仮説が事前に指定された分析計画の一部であるということです。ただし、OPの質問のリンクは、悪い数学の問題ではなく、悪い科学の1つです。複数の統計テストを実施して適切な分析を「感じて」、重要性が見つかった時点で停止することは、どのように削減しても悪い科学です。
AdamO

@AdamO同意します!私がこれを書いたとき、私はデータマイニング手法を使おうとする学部生で、教授や統計学者から得た最初の反応は素朴で、すべてを正しく行っていることを確認するために行ったときでした。皮肉なことに、社会科学ラボの標準的な運用手順は、何か面白いものが見つかるまでパイロット研究を実行することです。私は同じことをやって、実際にそれを補うためにしようとしていた:P
Indolering

0

あなたが引用する記事は、停止規則については言及しておらず、目下の問題とはほとんど関係がないようです。それらの唯一の非常にわずかな関係は、科学的なものではなく、統計的な概念である複数のテストの関係です。

臨床試験の文献では、暦年、または個人年の登録、アルファレベルの設定に基づいて、研究が「見える」条件に関する明示的な情報で停止規則が厳密になっていることがわかります。 「効果的な」治療と「有害な」治療の効果にも限界があります。確かに、私たちは行わ科学の一例として、このような研究の厳格な行動に目を向ける必要があります。FDAは、事前に指定されたもの以外の有効性の重要な発見に続いて、これらの発見を検証するために2回目の試験を実施しなければならないとさえ言えます。これは非常に大きな問題であるため、Thomas Flemmingはすべての臨床研究が完全に独立した2番目の確認試験検証され、個別のエンティティによって実施されました。生命と医療を考慮した場合の偽陽性エラーの問題は非常に悪いです。

一見無害な監視で、他の科学分野は研究において悪い倫理を永続させてきました。実際、社会科学は人々が受ける治療に影響を与えず、理論と観察の相互作用の理解を高めるだけの抽象概念概念モデルを扱います。ただし、社会科学の消費者は、一般の人も科学者も、矛盾する結果をしばしば提示されます:チョコレートはあなたに良い、チョコレートはあなたに悪い(チョコレートはあなたに良い、ところで、砂糖と脂肪チョコレートはあなたにとって悪いです、セックスはあなたにとって良いです、結婚はあなたを悲しませます/結婚はあなたを幸せにします。この分野は悪い科学で逃げています。私も、政策と連邦政府の支援に関する強い勧告に結びついた強い因果関係の言語に不満があり、まったく正当化されていないにもかかわらず、公表された分析に取り組んで罪を犯しています。

Simmonsの記事は、研究者が社会研究で行う「ショートカット」の種類を明示するのに開示がどのように役立つかを効果的に説明しています。シモンズは、非倫理的な科学者の「調査結果を狙う」典型的な方法で、データdrがどのように偽陽性エラー率を劇的に増加させるかの例を表1に示します。表2の調査結果の要約は、複数の分析が行われた可能性の理解を大幅に改善するのに役立つ記事の頻繁に省略される側面を説明しています。

要約すると、停止ルールは事前に指定された仮説でのみ適切です。これらは倫理的に健全であり、統計的手法が必要です。Simmonsの記事は、多くの研究がそれを認めさえしないことを認めており、それは倫理的には不健全であるが、統計的言語はなぜそれが正確に間違っているのかを説得力がある。


引用された論文が目前の問題とほとんど関係がないとあなたが言う理由がわかりません。これには、オプションの停止に関する「サンプルサイズの柔軟性の詳細」という見出しセクションが含まれています。もう一度見てください。
マイケルルー

@MichaelLewは答えを要約します:ルールを停止することは、臨床試験、募集、およびフォローアップに関係しますが、単一の事前に指定された仮説をテストすることは、FDAデバイスおよび治療薬の研究で受け入れられる慣行です。Simmonsの論文は、社会医学の研究および学術における研究倫理、基準、およびPハッキングに取り組んでいます。あなたは関係をどのように見るかをより正確に説明できますか?おそらく、投稿を編集して用語を定義し、他の文献への参照を提供することができます。具体的には、臨床試験の外部には存在しない「停止規則」に関するものです。
AdamO

また、「他の科学分野は研究において悪い倫理を永続させてきた」というあなたの性格付けが公正または有益だとは思いません。私の最初の質問のポイントは、パートタイム統計ユーザーが未宣言の中間分析から生じる潜在的な問題に気付く理由さえないように見えることです。無知を非倫理的と呼ぶのは不公平です。
マイケルルー

@MichaelLew「中間分析」として何を定義していますか?
AdamO

アダム、「臨床試験以外では停止規則は存在しない」と言っているのは正しいとは思いません。それらは臨床試験の外でしばしば言及されることはないかもしれませんが(私の最初の質問を参照)、すべての実験に存在します。固定サンプルサイズの試用でも、「サンプルサイズが達成されるまで継続する」という停止ルールがあります。
マイケルルー
弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.