学術論文に掲載されている統計


44

私は、統計が教科書の外で「現実世界」でどのように使用されているかを見るという特定の目的で、多くの進化的/生態学的な学術論文を読みました。私は通常、論文の統計を福音として取り上げ、統計の学習に役立つように論文を使用します。結局のところ、論文を書くのに何年もかかり、厳格な査読を経たなら、統計は確かに堅実になるでしょうか?しかし、過去数日間、私は自分の仮定に疑問を呈し、学術論文で発表された統計分析がどのくらいの頻度で疑われるのか疑問に思っていました。特に、生態学や進化などの分野の人々は、統計の学習に費やす時間を減らし、自分の分野の学習により多くの時間を費やすことが期待されます。

学術論文で疑わしい統計を見つける頻度はどれくらいですか?



18
レビューアは、多くの場合、論文を書いている人よりも統計についてあまり詳しくない人であるため、貧弱な統計を公開するのは簡単です。
Behacad 14

9
論文を出版することは、最後ではなく科学界での受け入れに向けた最初のステップです。ほとんどの出版された論文は、いくつかの分野で重大な欠陥を持っているでしょう、統計の使用も例外ではありません。
ディクランマースピアル14

3
論文は「書くのに何年もかかる」というあなたの仮定は、基準を外れています。データの収集には時間がかかる場合がありますが、データの分析と書き込みは通常、数年ではなく数週間です。
デビッドリチャービー

2
多くの心理学と医学の論文の統計は、少なくとも疑わしく、明白な間違いであるか、あるいは非常に頻繁ではないことがよく知られています。p値とNHSTの貧しい人の使用法は、問題の顕著な例です。このノートを参照してください
クォーツ14

回答:


38

結局のところ、論文を書くのに何年もかかり、厳格な査読を経たなら、統計は確かに堅実になるでしょうか?

さまざまな分野(政治学、経済学、心理学、医学、生物学、金融、保険数理科学、会計、光学、天文学、その他多くの多くの分野)に統計を適用しようとする論文を読んだ私の経験は、統計分析は、優れた、よくできたものからひどいナンセンスまで、スペクトル上のどこでも可能です。私が言及したすべての分野で優れた分析を見てきましたが、ほとんどすべての分野でかなり不十分な分析をしました。

一部のジャーナルは一般的にかなり優れており、一部は目隠しでダーツを弾くようなものです。それらのほとんどはターゲットからそれほど遠くない位置に置くことができますが、壁、床、天井にはいくつかあります。そして多分猫。

私は犯人に名前を付けるつもりはありませんが、統計の誤った使用に基づいて学問的なキャリアを見てきました(つまり、同じ間違いや誤解が10年以上にわたって紙で繰り返された)。

それで、私のアドバイスは読者に注意させてください。編集者や査読者が何をしているのかを知っているとは信じないでください。時間が経つにつれて、どの著者が一般に頼りにして衝撃を与えすぎないか、そしてどの著者が特に慎重に扱われるべきかについての良い感覚を得るかもしれません。一部のジャーナルは、通常、統計の基準が非常に高いと感じるかもしれません。

しかし、一般的に優れた著者であっても間違いを犯したり、レフリーや編集者が通常見つけるエラーを見つけられないことがあります。一般的に良いジャーナルは、ハウラーを発行できます。

[時には、本当に悪い論文が賞や賞を獲得することさえあるでしょう...これは、賞を判断する人々の質についてもあまり語っていません。]

私が見た「悪い」統計の割合を推測したくはありません(さまざまな装いで、質問、研究の設計、データ収集、データ管理、...分析と結論)、しかし、それは私が快適に感じるのに十分小さいほどではありません。

例を挙げることはできますが、これを行うのに適切なフォーラムだとは思いません。(そのための良いフォーラムあればいいのですが、実際には、再び非常に急速に高度に「政治化」され、すぐにその目的を果たすことができなくなるでしょう。)

PLOS ONEを探し回るのにしばらく時間を費やしましたが、特定の論文を指すことはしませんでした。私が気づいたこと:論文の大部分が統計を持っているようで、おそらく半分以上が仮説検定を持っているようです。主な危険は多くのテストで、それぞれに0.05のような高いようです(偶然に非常に小さな効果がかなり現れることがわかっている限り、これは自動的には問題になりません)。低いパワーを与える傾向がある、低い個々の有意水準。私はまた、約半ダースの異なるテストのケースを見ましたα明らかに同じ質問の解決に適用されたようです。これは、一般的に悪い考えだと思います。全体として、数十の論文で標準はかなり良好でしたが、過去に私は絶対に恐ろしい論文を見ました。

[おそらく、間接的に1つの例にふけることができます。この質問は、かなり疑わしいことをしている人について尋ねます。私が見た最悪のものとは程遠い。]

一方で、私はまた、分析を受け入れさせるために、あらゆる種類の不必要なフープを飛び越えざるを得ないケースを(さらに頻繁に)見ています。レビュアー、エディター、スーパーバイザー、または特定の地域の暗黙の文化によって物事を行う「正しい」方法があるため、完全に合理的なことは受け入れられません。


2
オープンアクセスジャーナルの数が増えていることを考えると、「警告
Scortchi-モニカの復職

1
@scortchi私は英語で書くだけで問題を完全に回避することにしました。それは改善です。
Glen_b 14

10
特定の犯人に名前を付けずに、faculty.vassar.edu / abbaird / about / publications / pdfs /…に言及する価値があると思います。彼らの分野における統計の誤用についてのポイントを証明するために、彼らは広く使用されている統計プロトコルを使用して、死んだサケのfMRIスキャンの結果を分析しました。彼らは「統計的に有意な」脳活動を発見しました。statisticsdonewrong.comも興味深い読み物です。
James_pic 14

1
@ James_pic、statisticsdonewrongリンクのコメントを+1するために参加する必要がありました。基本レートの誤りの議論は特に興味深い。
ダンブライアント14

1
@KennyPeanuts:どちらも-ちょうどこの頃、多くのことを指摘lectoresがさえ、間接的ではありませんemptores
Scortchi -復活モニカ

16

私はここで答える正しい方法についての@Glen_bの姿勢を尊重します(そして確かにそれを損なうつもりはありません)が、私の家の近くにある特に面白い例を指すことを抵抗することはできません。物事を政治化し、この質問の目的を害する危険があるので、Wagenmakers、Wetzels、Boorsboom、およびVan Der Maas (2011)をお勧めします。これは、認知科学ベータSE(認知科学が受信者の遠い意図性と脳機能をどのように説明するのか)の関連記事でこれを引用しました。しかし、Wagenmakersと同僚の記事は、実際の「ハウラー」について直接コメントしています。それはJPSP(心理学の最大のジャーナルの 1つ)に掲載されました) 数年前。彼らはまた、より一般的にベイジアン分析を支持し、次のことを主張します:

問題のある主張を懐疑的な聴衆に納得させるためには、厳密な確認研究を実施し、リベラルではなく保守的な統計テストで結果を分析する必要があります。

私はおそらく、これが聖歌隊への説教として正確に出会ったわけではないことを伝える必要はないでしょう。FWIW、同様に反論もあります(常にベイジアンとフリークエンティストの間にはあるようです; Bem、Utts、&Johnson、2011))、しかし、私はそれが議論を正確にチェックメイトしなかったと感じてます。

科学コミュニティとしての心理学は、最近、これをはじめとする注目に値する方法論的な欠点のせいで、ちょっとしたレプリケーションキックにあります。他のコメントはここで一度として知られていたものに似たようなケースを指す社会神経科学におけるブードゥー教の相関(方法ですつまり政治的に正しくないがところで用紙が改題されたため、?VUL、ハリス、Winkielman、&Pashler、2009)。それも反論を呼び起こしました。これは、非常に議論の余地のある慣行についての議論をチェックすることができます。

悪い行動(擬似)統計の(もっとdepersonalized)を犠牲にしても、より多くのエデュテインメントについては、「(確かに)別でCV政治的に正しくないタイトルをここに私たちの現在の8番目は、最もupvoted質問を参照してください一般的な統計的な罪とは何か?」そのOPを@MikeLawrenceは、彼のインスピレーションを心理学と統計学の並行研究に帰します。それは私の個人的なお気に入りの1つであり、その答えは自分でそこにある無数の落とし穴を避けるのに非常に役立ちます。


個人的な面では、ここ5か月の大半をここで過ごしました。これは主に、特定のデータ分析の質問について堅実な統計を取得するのが驚くほど難しいためです。率直に言って、ピアレビューは、特に複雑な質問と多くの認識論的合併症を伴う若い科学の研究の統計的精査の観点から、あまり厳密ではないことが多い。したがって、私は自分の仕事の方法を磨くために個人的な責任を負う必要があると感じました。

論文の研究発表している間、私は統計的精査に対する個人の責任がどれほど重要であるかの感覚を得ました。私の母校の2人の例外的な心理学者は、私の相関関係の解釈において最も基本的な罪の1つを犯していると断言しました。私はその上に自分自身を考えて、すでにそれについて数回、学部生に講義していました、しかし、私はまだそこに行って、それについて呼ばれました(早く、天に感謝します)。私が調査し、複製している研究がそこに行ったので、私はそこに行きました!したがって、論文にいくつかのセクションを追加することになりました 準実験的な縦断的研究から因果関係を仮定し(断面相関からも)、他の研究者を時期尚早に無視したことで、他の研究者を呼びました。

私の論文は私の委員会によって修正されることなく受け入れられました。委員会には別の例外的な精神測定学者と、もうすぐSPSP(JPSPを発行する)の大統領が含まれます。それ以来、完全に優れたレビュー担当者による外部レビュープロセスに合格したにもかかわらず、独自の方法でいくつかのウサギの穴を突くことができました。SEM、IRT、ノンパラメトリック分析などのリッカート評価の予測モデリングにより適した方法でそれらをプラグインしようとして、統計の奥深くに落ちました(次元削減後の回帰テストを参照))。代わりにそのまま発行することのできる論文に何年も費やすことを自発的に選択しています...私は、誠実に進める前に、シミュレーション研究を行うことさえ残っていると思います。

しかし、これはオプションであることを強調します。多分、キャリア初期の仕事の記録で品質よりも量を重視する出版または滅亡の文化の中で、熱心すぎて高価な贅沢です。私の分野では、連続データのパラメトリックモデルを仮定データの分布に適用することは、統計的有意性の誤った解釈や誤った表現と同じようによくあります(p値の確立されたビューの調整を参照)。(短期的に)それで完全に逃げることができました...そして、それ以上にうまくやることはそれほど難しくありません。私はそれを感謝するために、Rプログラムにいくつかの近年の驚くべき進歩があると思います!時代が変わることを期待しています。


参考資料
Bem、DJ、Utts、J。、およびJohnson、WO(2011)。心理学者は、データの分析方法を変えなければなりませんか?Journal of Personality and Social Psychology、101(4)、716–719。http://deanradin.com/evidence/Bem2011.pdfから取得。
Vul、E.、Harris、C.、Winkielman、P。、およびPashler、H.(2009)。感情、人格、および社会的認知のfMRI研究における不可解なほど高い相関。心理学の展望、4(3)、274–290。http://www.edvul.com/pdf/VulHarrisWinkielmanPashler-PPS-2009.pdfから取得。
Wagenmakers、EJ、Wetzels、R.、Borsboom、D。、およびVan der Maas、H。(2011)。心理学者がデータの分析方法を変更する必要がある理由:psiの場合。Journal of Personality and Social Psychology、100、426–432。http://mpdc.mae.cornell.edu/Courses/MAE714/Papers/Bem6.pdfから取得。



1
@Scortchi:参照に感謝し、アメーバ:コンテキストに感謝します。私は、Witzum et al。の主張を見ていない。そのマッケイら。アブストラクトでsc笑しますが、彼らは確かに他の多くの重大な欠陥を指摘しています。いい物。「実際のデータは科学者の仮説が正しい場合でも科学者の期待を混乱させるかもしれないが、実験が彼らの期待に体系的に偏っている科学者は失望することが少ない(Rosenthal、1976)。それは、準実験に基づいた因果推論について私を呼び出した男の一人です...本当に素晴らしい心理学者です。しかし、Bemにもいくらかの信念があります。
ニックスタウナー

2
+1すばらしい投稿。「統計的精査に対する個人の責任はどれほど重要か」-称賛に値する。最終的に、これは、統計を適用したい研究分野ですでに仕事を終わらせようとしている人にとっては厄介であるのと同じくらい厄介なことです。
Glen_b 14

1
@NickStauner:マッケイ他 要約では、Witzum et al。「創世記のヘブライ語のテキストは、テキストが書かれてから数千年まで起こらなかった出来事をエンコードしている」と主張する。トーラーの執筆からリストの最後のラビの生年月日までの間にせいぜい2千年をわずかに過ぎているので、おそらくわずかに誇張されていますが、十分な要約です。(Witztumらの論文は、創世記の最近の著者の証拠として見ることができると思いますが、私が知っている限りでは誰も行っていません。)
Scortchi-Reinstate Monica

1
ええ、私はウィッツムらを理解できなかったと思います。彼らがその主張をしていることを認識するのに十分です。かつて私は著者の鈍い文章に感謝することができたと思います...最も顕著な主張はパターンが偶然によるものではなく、偶然によるものではないということですので、額面でもう少し興味深いと思います彼らの意見では。マッケイらのようにあなたの解釈が行き過ぎていなかったように、もっと興味深い解釈を招いたかもしれません。それは言う...少なくともマッケイらまで。方法論的な理由でそれらを撃shotし、解釈する価値のあるものは何も残しませんでした。
ニックスタウナー14

5

大学で、いくつかの最終年度の社会科学の学生からさまざまな機会に尋ねられたことを思い出します(そのうちの1人は1番目になりました)。少数のデータポイントがあったプロジェクトの平均を計算する方法。(だから、彼らはソフトウェアを使うことに問題はなく、計算機を使って数学をどうやってやるのかという概念だけでした。)

彼らが望んでいた平均のタイプを尋ねると、彼らはただ私に空白の外観を与えます。

しかし、彼らは皆、報告書に統計を入れる必要があると感じていました。それが行われたので、統計が何を意味するのか考えずに、統計のある101の論文をすべて読んだと思います。

3年間にわたって彼らに教えた研究者は、学生に理解を広めるのに十分な統計の正確さを気にしなかったことは明らかです。

(私は当時、コンピューターサイエンスの学生でした。コメントとしては少し長いので、これを回答として投稿しています。)


生徒たちは、サルの他の樽、IMOです。さらなる証拠がなければ、教師の理解不足をすぐに非難しません...しかし、教師が非難すべきだとあなたが言うのと同じくらい明確であれば、私も驚かないでしょう。
ニックスタウナー14

@NickStauner、私は先生が統計を十分に気にしていないと非難しています。もし彼らが気にかけるなら、統計のいくらかの理解を必要とするそれぞれの試験紙に少なくとも一つの質問があるでしょう、「統計で嘘をつく方法」のレベルで。社会科学の学生が計算の方法を知っていても構いませんが、誤解しないようにすべきです。
イアンリングローズ14

彼ら知っておくべきであることに同意したが、彼らがその質問を正しくするという保証はない!
ニックスタウナー14

@NickStauner、はい、しかし、あなたは測定値だけを取得しますので、試験に入れない限り、統計について何も理解していない学生を取得することはありません。
イアンリングローズ14

繰り返しになりますが、私は教師に生徒の成果に対するクレジットを少なくする傾向があります。たくさんの学生(大丈夫、多分「たっぷり」ではないかもしれませんが、何人か)は自分自身のために十分に気をつけ、何人かはすでに多くの資料を知ってクラスに来ます。あなたのコメントを絶対に解釈しても許してください。生徒に学習の動機付けを強いることはしばしば必要な悪であり、テストは反復的な学習/講義よりも学習するのに良い方法であることに同意します。
ニックスタウナー14

0

ひどく不完全なリストとして、私は1)物理学論文で最も頻繁に正しい統計を見つけ、2)統計論文が続き、3)医学論文で最も悲惨です。この理由は簡単で、各フィールドのプロトタイプモデルに課せられた要件の完全性に関係しています。

物理学の論文では、方程式と適用された統計は、バランスの取れたユニットに注意を払う必要があり、因果関係が最も頻繁に発生し、物理的な標準に対してテストされます。

統計では、1)単位と因果関係は無視されることがあり、仮定はヒューリスティックであることがあり、物理的テストは無視されることが多すぎますが、通常、等式(または不等式)、つまり論理は誘導経路に沿って保存されます。非物理的な仮定。

医学では、通常、単位は無視され、方程式と仮定は通常、経験則であり、通常はテストされておらず、頻繁に偽りです。

当然のことながら、統計力学のような分野は、経済学よりもテスト可能な仮定を持っている可能性が高く、それはそれらの分野の将来の著者の才能を反映していません。これは、行われていることのどれだけが実際にテスト可能であるか、および各フィールドで過去にどれだけのテストが行​​われたかにより関連しています。


-7

ゼロの帰無仮説を反証する論文は、価値のない統計(私が見たものの大部分)を使用しています。このプロセスでは、エフェクトサイズによってまだ提供されていない情報は提供できません。さらに、重要な結果が実際に研究者によって理論化された原因によるものであるかどうかについては何もわかりません。これには、交絡の証拠を得るためにデータを慎重に調査する必要があります。ほとんどの場合、存在する場合、この証拠の最強は「外れ値」として破棄されます。

私は進化/生態学にあまり精通していませんが、精神医学の研究の場合、統計的理解のレベルを「非常に混乱」し、「科学的進歩に対する障害」と呼びます。人々は彼らの理論によって予測された何かに反論することになっているのであって、それの反対(ゼロ差/効果)ではない。

このトピックに関して何千もの論文が書かれています。NHSTハイブリッドの論争を調べてください。

編集:そして、null null仮説有意性検定の科学的価値は最大で0であることを意味します。この人は頭に釘を打ちます:

http://www.johnmyleswhite.com/notebook/2012/05/18/criticism-4-of-nhst-no-mechanism-for-produce-substantive-cumulative-knowledge/

また、ポール・ミール。1967. 心理学と物理学における理論テスト:方法論的なパラドックス

編集3:

誰かがいない思考を必要とstrawman NHSTの有用性を支持して引数を持っている場合は、「温暖化の速度が同じであるという仮説を棄却が、温暖化の速度は同じでないことを暗示するために、これを取ってはいけない」合理的ですステートメント、あなたのコメントを歓迎します。

編集4:

フィッシャーは次の引用で何を意味しましたか?「モデル/理論Aがデータと互換性がない場合、Aは偽と言うことができますが、Aが真であるかどうかについて何も考えない」と考えたことを示唆していますか?

「科学研究者にとっての統計的検定の関心は、それによって観測と矛盾すると判断される仮説を拒否することにおける科学研究者の使用に完全に依存することは確かです。」

...

したがって、データによって矛盾する限り、重要性のテストが正確に使用されると仮説を拒否または無効にできると一般に理解されている場合、重要性テストが考慮される明確さを大幅に追加します; しかし、彼らは確かに真実としてそれらを確立することはできません

統計的テストに関するカールピアソンとRAフィッシャー:1935年の自然からの交流

彼は人々がストローマンではなく、もっともらしい仮説を無効にしようとするだけだと彼は思ったのでしょうか?それとも私は間違っていますか?


7
「このプロセスでは、エフェクトサイズによってまだ提供されていない情報は提供できません。」これは正しくありません。p値は、この効果サイズが帰無仮説の下でどの程度異常であるかについての情報を提供するため、効果サイズのキャリブレーションの要素を提供します。私を誤解しないでください、ベイズ因子はより有用だと思いますが、p値は価値のない統計であると言うのは誇張です。
ディクランマースピアル14

3
「私(および他の人)が気付くすべてのパターンは言及する価値があると思います」これはブログでの気候の議論で生じる問題です。そして、それは議論に信号対雑音比をまったく役に立たないので、ブログに投稿する前にアイデアを乗り越えるためのハードルはありません!統計が非常に貧弱な場合が多い科学分野の1つです。
ディクランマースピアル14

2
リヴィッド、「ストローマン」H0で適切なNHSTを実行することが科学的トピックの議論に有益である具体的な例を挙げました。それは正しくないと、あなたの見解を示している明確な反例を提供- NHSTsは、彼らがそうであるように不備として、ないにもかかわらず、科学と統計に有用な機能を実行します。これで、私の反例が正しいことを実証できれば、それは問題の解決に向けて何らかの道を行くかもしれません。
ディクランマースピアル14

2
@ Livid、NHSTは科学的にも統計的にも、社会的には望ましくない機能を実行します(最適ではありませんが)、arbitrary意的な障​​害を設定することはありません。 H0を拒否するという誤りは、H1が真であることを意味するものではありません。そのため、正確ではありません。
ディクランマースピアル14

3
ポイントがありません。ハードルが低い場合、うまく交渉できれば誰も驚かない。ただし、ハードルが低いが、それでも乗り越えられない場合は、何かわかります。繰り返し述べたように、nullを拒否してもH1が真であることを意味するわけではないため、H0を拒否しても一時停止があることを意味するわけではなく、一時停止が発生した理由はわかりません。しかし、H0を拒否できるというハードルを乗り越えられない場合は、H1を事実としてアサートするための証拠が不十分である可能性があります(この場合はこれが起こっています)。
ディクランマースピアル14
弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.