ジャーナルScienceはForking Pathes Analysisの庭を支持していますか?


29

適応データ分析の考え方は、データの詳細を学習するにつれて、データ分析の計画を変更することです。探索的データ分析(EDA)の場合、これは一般に良いアイデアです(データに予期しないパターンを探すことが多い)が、確認研究では、これは非常に欠陥のある分析方法として広く受け入れられています(すべての場合を除く)手順が明確に定義され、高度に適切に計画されています)。

そうは言っても、適応データ分析通常、統計学者をがっかりさせるほど多くの研究者が実際に分析を行う数です。そのため、統計的に有効な方法でこれを行うことができれば、統計的実践に革命をもたらすでしょう。

次のScienceの記事は、そのような方法を見つけたと主張しています(私はペイウォールをおizeびしますが、大学にいる場合はアクセスできる可能性が高い):Dwork et al、2015、The reusable holdout:Preserving Validity in Adaptive Data Analysis

個人的には、私はScienceに掲載された統計記事について常に懐疑的でしたが、これも例外ではありません。実際、補足資料を含めて記事を2回読んだ後、著者が自分の方法が過剰適合を防ぐと主張する理由を(まったく)理解できません。

私の理解では、彼らは再利用するホールドアウトデータセットを持っているということです。彼らは、ホールドアウトデータセットの確認分析の出力を「ファジング」することで主張しているようで、過剰適合は防止されます(トレーニングデータの計算された統計が十分に遠い場合、ファジングは単にノイズを追加しているように見えることに注意する価値があります)ホールドアウトデータの計算された統計から)。私の知る限り、これが過剰適合を防ぐ本当の理由はありません。

著者が提案していることを間違えていますか?私が見落としている微妙な効果はありますか?それとも、科学 はこれまで最悪の統計的実践を支持していたのでしょうか?


2
Scienceにアクセスできない人は、Paywalledの論文にアクセスする方法について、この最近のScienceのニュース記事を参照してください。
アメーバは、モニカを

1
これはおそらくプレプリントですか:arxiv.org/pdf/1411.2664.pdf
ティム

1
@Tim:Scienceの記事には、投稿したプレプリントが引用されています。また、ラプラシアンノイズの追加セクションは、公開されている記事の方法と非常によく似ていますが、同一ではないようです。
クリフAB

1
@CliffABので、彼らはおそらく異なるプライバシーを使用してそれらを異なるようにした;)
ティム

4
このトピックは、実際には先月のICMLのチュートリアルです。「厳格なデータDr:適応データ分析のための理論とツール」グーグルの仲間。icml.cc/2016/?page_id=97
horaceT

回答:


7

これを高レベルで説明している著者によるブログ投稿があります。

その投稿の早い段階から引用するには:

変数の数を減らしてタスクを簡素化するために、最初に有望な変数、たとえば、応答変数(収縮期血圧)と正の相関を持つ変数を選択します。次に、選択した変数に線形回帰モデルを適合させます。モデルの適合度を測定するために、お気に入りの統計教科書から標準のF検定を作成し、結果のp値を報告します。

Freedmanは、報告されたp値が非常に誤解を招くことを示しました-応答変数とデータポイントの間に相関がなく、データが完全にランダムであったとしても、有意なp値を観察する可能性があります!バイアスは、データに基づいて適応的に変数のサブセットを選択したという事実に起因しますが、この事実を説明することはありません。選択した変数の可能なサブセットは膨大です。データを覗き込むことで、あるテストを他のテストよりも選択したという事実だけでも、F検定の根底にある仮定を無効にする選択バイアスが生じます。

フリードマンのパラドックスには重要な教訓があります。標準手順の有意水準は、実行または省略を選択できる膨大な数の分析を捕捉しません。この理由から、適応性は、適応性を「分岐経路の庭」と適切に呼ぶゲルマンとローケンによって議論されたように、研究結果がしばしば誤っている理由の主要な説明の1つです。

彼らのテクニックがこの問題にどのように対処しているかはまったくわかりません。ですから、あなたの質問に対する答えとして、彼らは分岐の道の庭に取り組んでおらず、その意味で彼らの技術は人々を誤った安心感に誘惑するでしょう。「クロスバリデーションを使用した」と言うのと大して変わらないのは、多くの人が入れ子にされていないCVを使用しているということです。

ブログの投稿の大半は、Kaggleスタイルのコンテストの参加者がテストセットの勾配を登らないようにするためのより良い答えとして、彼らのテクニックを指し示しているように思えます。これは便利ですが、分岐パスに直接対処しません。大量のデータを引き継ぐWolframとGoogleの新科学の風味を持っているように感じます。その物語には複雑な記録があり、私は常に自動化された魔法に懐疑的です。


3

ここでは、この差別的なプライバシー手法を単純化しすぎていると確信していますが、このアイデアは高いレベルで意味をなします。

良い結果を吐き出すアルゴリズムを取得したとき(すごい、テストセットの精度が本当に向上しました)、すぐに結論にジャンプしたくありません。改善が以前のアルゴリズムよりも大幅に大きい場合にのみ受け入れます。それがノイズを追加する理由です。

編集:このブログには、ノイズ加算器の有効性をデモするための良い説明とRコードがあり ます。http://www.win-vector.com/blog/2015/10/a-simpler-explanation-of-differential-privacy/


しかし、それは「推定された効果のみを受け入れる」ということに対する改善ではありません...これは過剰適合を防止しません(わずかに減衰しますが)。興味深いことに、独自のプロットでは、オーバーフィッティングの証拠を見ることができます(新鮮なデータよりもホールドアウトデータで報告されるエラーが体系的に低くなっています)。>τ
クリフAB

1
@CliffAB私は、これが単なるしきい値よりも優れている理由と同じしつこい気持ちを持っています。しかし、彼らは証拠を持っています!
horaceT

...ただし、彼らの例は過剰適合を防止するという主張と矛盾しており、「推定効果のみを受け入れる」から結果が期待されるものと一致することを除きます。>τ
クリフAB

@CliffAB詳細を教えてもらえますか?どこ?それは興味をそそる可能性....
horaceT

以前のリンク(icml.cc/2016/?page_id=97)のスライドを使用すると、スライド72および73で、「Thresholdout」メソッドを使用している場合でも、すべてのシミュレーションでホールドアウトの精度が新鮮なデータよりも高くなります。 「標準的なホールドアウト」(実際には有効な統計手順ではなく、実際には「検証データセットの標準的な乱用」)よりも優れています。参考までに、プロットはスライドに表示され、サイエンスペーパーのプロットと同じになります(アクセスできない場合に備えて)。
クリフAB

3

ノイズを追加すると過剰適合を防ぐことができるという主張は、ここで実際に水を保持します。なぜなら、彼らが実際に行っていることは、ホールドアウトの再利用方法を制限しているからです。彼らの方法は、実際に2つのことを行います。それは、ホールドアウトについて尋ねることができる質問の数を制限し、各回答のどれだけがホールドアウトデータについて明らかにするかを制限します。

kknn/k

Dwork et alの論文は、敵対的な質問であっても、約有効なサンプルサイズを提供する方法を提供します。n/kk

彼らの方法の核心は、1970年代後半に遡るアルゴリズムの安定性と過剰適合の関係です(Devroye and Wagner 1978)。大体、それは言う

AXq=A(X)AXPqxqP

A()f(A())fqAA

現在、さまざまなノイズ付加手順が過適合をどのように制御するかを分析する論文がかなりあります。比較的読みやすいのは、RussoとZou(https://arxiv.org/abs/1511.05219)です。Dworkらの初期の研究に関する最近のフォローアップ論文。見ておくと役に立つかもしれません。(免責事項:このトピックに関する2つの論文がありますが、最新の論文では、適応仮説検定への接続について説明しています:https : //arxiv.org/abs/1604.03924。)

すべてが役立つことを願っています。


0

2番目の文に反対します。データ分析の完全な計画を前もって決定する必要があるという考えは、既存の科学的仮説を確認しようとしている状況でも不当です。それどころか、適切なデータ分析を行うには、取得された実際のデータに注意を払う必要があります。そうでないと考える研究者は、一般に、有意性検定がデータ分析の始まりと終わりであり、記述統計、プロット、推定、予測、モデル選択などの役割をほとんど、またはまったく持たないことを信じる研究者です。事前に修正1の分析計画は、従来における方法ので、より理にかなってP-値を計算するには、サンプルサイズと実施するテストがデータを見る前に決定されている必要があります。この要件はアナリストを束縛するため、有意性テストを使用しない多くの正当な理由の1つです。

アナリストがデータを見た後に何をすべきかを選択できるようにすると、過剰適合が可能になることに反対するかもしれません。ただし、優れたアナリストは、実施したすべての分析を表示し、データのどの情報が分析上の意思決定に使用されたかを明示し、相互検証などの方法を適切に使用します。たとえば、取得した値の分布に基づいて変数を再コーディングすることは一般的には問題ありませんが、一部の分析では、従属変数に最も近い観測された関連性を持つ100のうち3つの予測子を選択すると、関連性の推定値が正になります平均への回帰の原理により、偏っています。予測コンテキストで変数を選択する場合は、交差検証フォールド内で変数を選択するか、トレーニングデータのみを使用する必要があります。


2
あなたが提案していることの多くは、探索的データ分析(EDA)の領域に適合していると思います。そのために、適応データ分析法を推奨しました。また、EDAは過小評価されており、より多くのクレジットを与えるべきだと思います。しかし、これらはすべて、当面の質問とは直交しています。つまり、「これらの著者は、統計的有効な方法でモデル選択のために検証データを繰り返し再利用することを本当に許可したのですか?」あなたの最後の文章は、私と同じように、あなたがそのような発見に懐疑的であることを示唆しています。
崖AB

例えば、推定は本質的に探索的であるとは思わない。ワニの最大長は12フィートでなければならないという科学的仮説があり、これを確認するためにワニの最大長を推定しようとする場合、確認分析を行っています。
-Kodiologist

2
+1、既存の3回のダウン票にもかかわらず。私はそれが非常に物議を醸すことを完全に承知しているにもかかわらず、この答え(あなたの2番目の文)の要点に同意します。一般に、探索的分析と確認的分析の違いは過大評価されていると思います。現実の分析はしばしばその中間にあります。そうは言っても、Dwork等に関するOPの質問に答えた(または答えようとした)とは思わない。紙。
アメーバは、モニカを復活

@amoeba「Dworkらの論文に関するOPの質問に答えた(または答えようとしたことすらないと思う)—本当です。質問の前提。
-Kodiologist

2
@amoebaのコメントへの+1。これは質問に対する素晴らしいコメントでしたが、それは答えではありません。
S. Kolassa -復活モニカ
弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.