4
ジャーナルScienceはForking Pathes Analysisの庭を支持していますか?
適応データ分析の考え方は、データの詳細を学習するにつれて、データ分析の計画を変更することです。探索的データ分析(EDA)の場合、これは一般に良いアイデアです(データに予期しないパターンを探すことが多い)が、確認研究では、これは非常に欠陥のある分析方法として広く受け入れられています(すべての場合を除く)手順が明確に定義され、高度に適切に計画されています)。 そうは言っても、適応データ分析は通常、統計学者をがっかりさせるほど多くの研究者が実際に分析を行う数です。そのため、統計的に有効な方法でこれを行うことができれば、統計的実践に革命をもたらすでしょう。 次のScienceの記事は、そのような方法を見つけたと主張しています(私はペイウォールをおizeびしますが、大学にいる場合はアクセスできる可能性が高い):Dwork et al、2015、The reusable holdout:Preserving Validity in Adaptive Data Analysis。 個人的には、私はScienceに掲載された統計記事について常に懐疑的でしたが、これも例外ではありません。実際、補足資料を含めて記事を2回読んだ後、著者が自分の方法が過剰適合を防ぐと主張する理由を(まったく)理解できません。 私の理解では、彼らは再利用するホールドアウトデータセットを持っているということです。彼らは、ホールドアウトデータセットの確認分析の出力を「ファジング」することで主張しているようで、過剰適合は防止されます(トレーニングデータの計算された統計が十分に遠い場合、ファジングは単にノイズを追加しているように見えることに注意する価値があります)ホールドアウトデータの計算された統計から)。私の知る限り、これが過剰適合を防ぐ本当の理由はありません。 著者が提案していることを間違えていますか?私が見落としている微妙な効果はありますか?それとも、科学 はこれまで最悪の統計的実践を支持していたのでしょうか?