40,000の神経科学論文は間違っているかもしれません

エコノミストでこの記事を見て、一見壊滅的な [1]「40,000件の公開された[fMRI]研究のようなもの」に疑問を投げかけました。彼らによると、エラーは「誤った統計的仮定」によるものです。私はこの論文を読んで、部分的に多重比較修正の問題があることを確認しましたが、私はfMRIの専門家ではなく、従うのが難しいと感じています。

著者が話している誤った仮定は何ですか？なぜこれらの仮定がなされているのですか？これらの仮定を立てる方法は何ですか？

封筒の計算の裏には、40,000 fMRIの論文が10億ドル以上の資金（学生の卒業生の給与、運営費など）があると書かれています。

[1] Eklund et al。、Cluster failure：fMRIによる空間範囲の推論が偽陽性率を増大させた理由、PNAS 2016

— Rグレッグステイシー
ソース

死んだサケのfMRIに関する論文も参照してください。Wired.com/2009/09/fmrisalmon

— モニカの復活

偽陽性を完全に制限することができるため、特に神経病理学の研究では非常に良いラインですが、トレードオフでは偽陰性の発生率が非常に高くなります。

— Firebug

この2つには少し違いがあります。サーモンの論文は、誰もがすでに行っていたはずの多重比較の修正の重要性についてのいい話です。対照的に、PNASの問題は「正しいこと」をしようとしていた人々を噛みますが、修正自体は少し不安定でした。

— マットクラウス

これは、よくある研究の流れの中でこのタイプの分析を行う際に、多重比較の修正と重要な仮定の核心になるため、尋ねるべき大きな質問だと思います。ただし、テキスト内の唯一の質問は、「emよりも知識のある人がコメントしたいですか？」です。これはやや広範かつ非特異的です。ヘルプセンターの範囲内で特定の統計上の問題に焦点を当てることができれば、このフォーラムにより適しています。

— モニカの復元

ありがとう。質問をより具体的にするために編集しました。さらに編集する必要がある場合は教えてください。

— Rグレッグ・ステイシー

40000の図

ニュースは本当にセンセーショナルなものですが、この論文は非常に根拠があります。私の研究室で何日も議論が激しさを増し、研究者が自分の仕事を内省するという本当に必要な批評がすべて寄せられました。「クラスター障害：空間範囲のfMRI推論が偽陽性率を増大させた理由」論文の著者の1人であるトーマス・ニコルズによる次の解説を読むことをお勧めします（長い引用についてはごめんなさい）。

しかし、残念なことに、40,000という数字があります。fMRI規律の重要性に言及しようとする際に、調査結果が影響する研究の数としてfMRI文献全体の推定値を使用しました。私たちの防御では、一般的なクラスターサイズ推論（P = 0.01 CDTで重度、P = 0.001でバイアス）の問題を発見しました。しかし、影響声明の数字は、人気のマスコミによって取り上げられ、小さなツイッターストームを送りました。したがって、「私たちの仕事は何件の記事に影響するのか？」を少なくとも大まかに見積もることは私の義務だと感じています。私は計量書誌学者ではなく、これは実際に大まかな準備が整った演習ですが、問題の大きさの程度の感覚が得られることを願っています。

分析コード（Matlab内）を以下に示しますが、ここにスキニーがあります：いくつかの妥当な確率的計算に基づいていますが、おそらく脆弱な文献のサンプルに基づいて、複数のテストの修正を伴うクラスターサイズ推論を使用する約15,000の論文を推定します; これらのうち、約3,500はP = 0.01のCDTを使用します。3,500は、文献全体の約9％、またはおそらくより有用なのは、元のデータを含む論文の11％です。（もちろん、これらの15,000または3,500の一部はノンパラメトリック推論を使用する可能性がありますが、fMRIでは残念ながらまれです。これとは対照的に、FSLの構造VBM / DTI分析のデフォルト推論ツールです）。

率直に言って、この数値はもっと高いと思いましたが、複数のテストの修正を一切使用しなかった研究の大部分を認識していませんでした。（あなたが修正していない場合は訂正意味を膨らませていることはできません！）。これらの計算は、13,000の論文が複数のテスト修正を使用しなかったことを示唆しています。もちろん、これらのいくつかは、関心領域またはサブボリューム分析を使用している可能性がありますが、まったく多重性を持たないわずかなもの（すなわち、臨床試験スタイルの結果）です。私たちの論文はこのグループに関する直接的なものではありませんが、民間の多重テスト補正P <0.001＆k> 10を使用した出版物については、このアプローチは家族ごとの誤り率が50％をはるかに超えることを示しています。

では、3,500件の論文が「間違っている」と言っているのでしょうか。場合によります。CDT P = 0.01の結果ではP値が膨らんだことが示唆されますが、各調査を検討する必要があります。効果が本当に強い場合は、P値に偏りがあるかどうかは問題ではなく、科学的推論は変わりません。しかし、効果が本当に弱い場合、結果は実際にノイズと一致する可能性があります。そして、特に初期の文献で一般的な、補正のない13,000の論文についてはどうですか？いいえ、手に負えないように捨てるべきではありませんが、それらの作品、特に改善された方法論的基準を備えた新しい参考文献と比較する場合には、特にja熱した目が必要です。

彼は最後にこの表も含めています。

        AFNI     BV    FSL    SPM   OTHERS
        ____     __    ___    ___   ______

>.01      9       5     9       8    4     
.01       9       4    44      20    3     
.005     24       6     1      48    3     
.001     13      20    11     206    5     
<.001     2       5     3      16    2

基本的に、SPM（統計パラメトリックマッピング、Matlabのツールボックス）は、fMRI神経科学研究で最も広く使用されているツールです。このペーパーを確認すると、SPMのクラスターにP = 0.001（標準）のCDTを使用すると、ほぼ予想される家族単位のエラー率が得られます。

著者は、論文の文言のために正誤表を埋めました。

Eklund et al。、Cluster Failure：Spatial ExtentのfMRI推論が偽陽性率を増大させた理由について、私たちの論文の広範な誤解を考慮して、PNAS編集部に正誤表を提出しました。

Eklund et al。の正誤表、クラスター障害：空間範囲のfMRI推論が偽陽性率を増大させた理由。Eklund、Anders; ニコルズ、トーマスE; ハンス・ナッツソン

2つの文の表現が不十分であり、結果を誇張していると誤解される可能性があります。

Significanceステートメントの最後の文は、「これらの結果は多くのfMRI研究の妥当性に疑問を投げかけ、弱く有意な神経画像の結果の解釈に大きな影響を与える可能性があります。」

「fMRIの未来」という見出しの後の最初の文は、「嘆かわしいアーカイブとデータ共有の慣行のために、問題のある分析をやり直す可能性は低い」と読んでいたはずです。

これらは、私たちの研究が40,000の出版物すべてに影響を与えたことを誤って暗示していた2つの文を置き換えます（影響を受ける可能性のある文献の推定については、クラスター推論の計量書誌学を参照してください）。

最初に正誤表を却下した後、事実ではなく解釈を修正しているという理由で、PNASは上記で提出したとおりに公開することに同意しました。

いわゆるバグについて

いくつかのニュースは、研究の無効性の原因としてバグにも言及しています。実際、AFNIツールの1つは推論を過小修正していたため、プレプリントがarXivに投稿された後に解決されました。

機能的ニューロイメージングで使用される統計的推論

$\approx 5\%$

使用して一般化線形モデル（GLM）あなたは、実験のパラダイムのデザインと相関しているボクセル信号時系列識別（標準的な血行動態応答関数畳み込ま通常ブールの時系列が、バリエーションが存在します）。

したがって、このGLMは、各ボクセル時系列がタスクにどれだけ似ているかを示しました。ここで、通常は患者とコントロールという2つのグループの個人があるとします。グループ間でGLMスコアを比較することで、グループの状態が脳の「活性化」パターンをどのように調節するかを示すことができます。

グループ間のボクセル単位の比較は実行可能ですが、機器固有のポイント拡散機能とスムージング前処理ステップにより、ボクセルがすべての情報を個別に運ぶとは考えられません。グループ間のボクセルの違いは、実際には、隣接するボクセルに広がるはずです。

したがって、クラスターごとの比較が実行されます。つまり、クラスターを形成するグループ間の違いのみが考慮されます。このクラスター範囲のしきい値は、 fMRIの研究で最も一般的な多重比較補正手法です。問題はここにあります。

SPMとFSLは、FWE補正ボクセルワイズおよびクラスターワイズ推論のガウスランダムフィールド理論（RFT）に依存しています。ただし、クラスター単位のRFT推論は、2つの追加の前提条件に依存します。最初の仮定は、fMRI信号の空間的な滑らかさが脳全体で一定であることであり、2番目の仮定は、空間的自己相関関数が特定の形状（指数の2乗）を持っていることです（30）

SPMでは、少なくとも公称FWEレートとクラスター定義しきい値（CDT）を設定する必要があります。基本的に、SPMはタスクに高度に相関するボクセルを検出し、CDTでしきい値処理した後、隣接するボクセルをクラスターに集約します。これらのクラスターサイズは、FWERセット[ 1 ]が与えられると、ランダムフィールド理論（RFT）から予想されるクラスター範囲と比較されます。

ランダムフィールド理論では、アクティビティマップが滑らかであり、ランダムフィールドに対する適切な格子近似である必要があります。これは、ボリュームに適用されるスムージングの量に関連しています。平滑化は、中央極限定理による平滑化によりデータがよりガウスになるように、残差が正規分布するという仮定にも影響します。

著者は、[ 1 ]で、ランダム置換テスト（RPT）から取得したクラスター範囲のしきい値と比較すると、RFTから予想されるクラスターサイズが本当に小さいことを示しました。

$\alpha = 0.05$

@amoebaは、コメントで次の2つの非常に適切な質問を提起しました。

（1）Eklund et al。PNASの論文では、すべてのテストの「公称5％レベル」について説明しています（たとえば、図1の黒い水平線を参照）。ただし、同じ図のCDTはさまざまであり、たとえば0.01と0.001です。CDTしきい値は、名目上のタイプIエラー率とどのように関係しますか？私はそれで混乱しています。（2）Karl Fristonの返信http://arxiv.org/abs/1606.08199を見ましたか？私はそれを読みましたが、彼らが何を言っているのかよく分かりません。彼らがエクルンドらに同意することを正しく見ますか？しかし、これは「よく知られている」問題だと言うのですか？

（1）良い質問です。実際に参考文献を確認しましたが、今より明確にすることができるかどうか見てみましょう。クラスターごとの推論は、プライマリしきい値（任意のCDT）が適用された後に形成されるクラスターの範囲に基づいています。二次分析クラスタ当たりのボクセルの数にしきい値が適用されます。このしきい値は、理論（RFTなど）から推定できるヌルクラスター範囲の予想される分布に基づいており、公称FWERを設定します。適切なリファレンスは[ 2 ]です。

（2）この参照をありがとう、以前はそれを見なかった。Flandin＆FristonはEklundらを主張します。RFT推論の裏付けは、（CDTと平滑化に関する）仮定を尊重することで結果が偏らないことを基本的に示したためです。この観点から、新しい結果は、文献のさまざまな慣行がRFTの仮定を破壊するため、推論を偏らせる傾向があることを示しています。

多重比較について

また、神経科学の多くの研究は、文献の10％から40％の範囲の推定値の多重比較を修正していないこともよく知られています。しかし、これらはその主張によって説明されておらず、誰もがこれらの論文が脆弱な妥当性を持ち、場合によっては巨大な偽陽性率を持っていることを知っています。

70％を超えるFWER

著者はまた、70％を超えるFWERを生成する手順を報告しました。この「フォーク」手順は、CDTを適用して非常に重要なクラスターのみを保持し、次に任意に選択した別のクラスター範囲しきい値（ボクセル数）を適用することで構成されます。これは「セット推論」と呼ばれることもあり、統計的根拠が弱く、おそらく最も信頼性の低い結果を生成します。

過去の報告

同じ著者は、個々の分析におけるSPM [ 1 ]の有効性に関する問題について既に報告していました。この分野には他にも引用された作品があります。

奇妙なことに、シミュレートされたデータに基づいたグループレベルおよび個人レベルの分析に関するいくつかのレポートは、実際にはRFTのしきい値は保守的であると結論付けました。最近の処理能力の進歩により、RPTは実際のデータに対してはるかに簡単に実行できるようになり、RFTとの大きな相違が示されました。

更新：2017年10月18日

「クラスター障害」に関する解説が昨年6月に浮上しました[ 3 ]。ミューラーら Eklund et alで示された結果は、彼らの研究で使用された特定のイメージング前処理技術によるものである可能性があると主張しています。基本的に、彼らはスムージングの前に機能的な画像をより高い解像度にリサンプリングしました（おそらくすべての研究者によって行われるわけではありませんが、これはほとんどのfMRI分析ソフトウェアの日常的な手順です）。彼らはまた、Flandin＆Fristonがそうしなかったことにも注目しています。私はバンクーバーで開催された人間脳マッピング機構（OHBM）年次総会で同じ月にエクルンドの話を実際に見ることができましたが、この問題に関するコメントを覚えていませんが、それは質問にとって重要なようです。

[1] Eklund、A.、Andersson、M.、Josephson、C.、Johannesson、M.、＆Knutsson、H.（2012）。SPMを使用したパラメトリックfMRI分析では、有効な結果が得られますか？—1484のレストデータセットの実証的研究。NeuroImage、61（3）、565-578。

[2] ウー、CW、クリシュナン、A。、およびウェイガー、TD（2014）。fMRI分析におけるクラスター範囲ベースのしきい値設定：落とし穴と推奨事項。Neuroimage、91、412-419。

[3] Mueller、K.、Lepsien、J.、Möller、HE、およびLohmann、G.（2017）。解説：クラスター障害：空間範囲のfMRI推論が偽陽性率を増大させた理由。人間の神経科学のフロンティア、11。

— ファイアバグ
ソース

@Qroid最初の部分では、はい、仮定は成り立ちません（そして、それがおそらくノンパラメトリック置換テストの良好なパフォーマンスの原因です）。クラスターはボクセルのクラスター、つまり同じ効果を示す隣接するボクセルです。クラスターを定義するp値（クラスター定義のしきい値）があります。

— Firebug

この答えは主に40000か他の数に焦点を当てていますが、ここで多くの人々にとって主な議論をまとめることができればもっと面白いと思います（クラスターとは何ですか？仮説検定の空間相関の問題は何ですか？本当にこれを前に考えますか？など）

— アメーバは、Reinstate Monica

再度、感謝します。ウー等を簡単に見てから。2014年、Eklund et al。それをPNASに組み込み、その結果、人気のあるマスコミやブログの周りでこのような大騒ぎを引き起こしました。Were n't Woo et al。多かれ少なかれ同じことを言っている？これは、「ハイライト」ブロブの中にあります。「リベラルなプライマリしきい値を使用すると、別の落とし穴が誤検出を増やします」。

— アメーバは、モニカーを復活させる

そうですか。私の理解では、科学的には今のところ実際には何も起きていないということです。（それにもかかわらず、一部の研究者はこのような危険なほどリベラルなCDTを使い続けました。）Eklund et al。2016年は、「知名度の高い」ジャーナルに掲載されてラッキーになりました。-誰もが今、それが啓示であるかのようにそれについて話している。

— アメーバは、

@amoeba神経科学コミュニティには、応用心理学で起こったことのような統計的取り締まりが必要です（p値を禁止するほど劇的ではないかもしれません）。統計的有意性を主張する多くの論文には統計的厳密性はなく、人々は「結果を表示する」ツールとパラメーターを使用します。

— Firebug