データをテストセットとトレーニングセットに分割することは、純粋に「統計」の問題ですか?


11

私は機械学習/データサイエンスを勉強している物理学の学生なので、この質問が対立を開始することを意味しません:)ただし、物理学部のプログラムの大部分は、ラボ/実験を行うことであり、これは大量のデータを意味します処理と統計分析。しかし、物理学者がデータを処理する方法と、私のデータサイエンス/統計学習ブックがデータを処理する方法との間には、はっきりとした違いがあることに気づきました。

主な違いは、物理実験から得られたデータに回帰を実行しようとすると、回帰アルゴリズムがWHOLEデータセットに適用され、トレーニングセットとテストセットに分割されることがまったくないことです。物理の世界では、R ^ 2または何らかのタイプの疑似R ^ 2が、データセット全体に基づいてモデルに対して計算されます。統計の世界では、データはほとんどの場合80-20、70-30などに分割され、モデルはテストデータセットに対して評価されます。

このデータ分割を決して行わないいくつかの主要な物理実験(ATLAS、BICEP2など)もあるので、物理学者/実験家が統計を行う方法とデータ科学者が行う方法との間に、なぜそんなに頑固な違いがあるのだろうと思います。統計を行います。


1
(+1)非常に良い質問(適切に答える時間がない)。コメント:物理学には「実際の実験」という贅沢があります。一般に制御された/実験室の状態、ほとんどが明確に定義された結果/変数および想定される再現性。通常の公衆衛生/計量経済学/調査統計プロジェクト(いくつかの明らかなサブフィールドを言及するため)は、それを取得しません。交絡、季節性(時間依存)、および一般的に概念のドリフトが統計で蔓延しているため、この「データの分割」は、まったくばかげた結果を防ぐ明白な方法の1つです。さらに、すべての推定量が同等に効率的に作成されるわけではありません。:)
usεr11852

3
スタンフォード大学の統計学教授であるDavid Donohoによる最近のディスカッションペーパーで、関連するディスカッションと背景が豊富に見つかるはずです。 "従来の統計とは対照的です。
ゴードンスミス2017

1
これは「統計がない場合の予測」であり、「統計」の小さなサブセットであり、機械学習の大きなサブセットであると思います。
Laconic 2017

統計家もデータを分割しません(p <.05)
rep_ho

@rep_hoいくつか-おそらく多く-サンプル外の予測が重要である状況に関与している統計学者はそうします(そして一部は長い間行ってきました)。クロスバリデーションやリーブワンアウト統計などのアイデアは、古くからあります。統計学者は、やむを得ない場合を除いて、1度だけ分割する傾向はありません。それはあなたが話している統計学者に依存するかもしれません
Glen_b -Reinstate Monica

回答:


6

すべての統計的手順がトレーニング/テストデータに分割されるわけではなく、「クロス検証」とも呼ばれます(手順全体にはそれより少し多いだけですが)。

むしろ、これはサンプル外誤差を推定するために特に使用される手法です。つまり、モデルは新しいデータセットを使用して新しい結果をどの程度適切に予測しますか?これは、たとえば、データセット内のサンプル数に比べて非常に多数の予測子がある場合に非常に重要な問題になります。このような場合、サンプル内エラーは大きいがサンプル外エラーはひどいモデル(「オーバーフィッティング」と呼ばれます)を構築するのは本当に簡単です。多数の予測子と多数のサンプルの両方がある場合、交差検証は、新しいデータを予測するときにモデルがどのように動作するかを評価するために必要なツールです。また、競合する予測モデルを選択する際の重要なツールです。

別の注記では、予測モデルを構築しようとする場合、ほとんどの場合交差検定が使用されます。一般に、いくつかの治療の効果を推定しようとする場合、モデルにはあま​​り役に立ちません。たとえば、材料AとBの引張強さの分布を比較している場合(「処理」は材料タイプです)、相互検証は必要ありません。治療効果の推定値がサンプルから一般化することを期待していますが、ほとんどの問題では、古典的統計理論がこれ(つまり、推定値の「標準誤差」)に対して交差検定よりも正確に答えることができます。残念ながら、古典的な統計手法1標準誤差の場合、過剰適合の場合は保持されません。その場合、交差検証は多くの場合、はるかに優れています。

一方、10万回の観測に基づいて機械学習モデルに投入した10,000個の測定変数に基づいて材料が壊れる時期を予測しようとすると、相互検証なしで優れたモデルを構築するのに多くの問題が発生します。

多くの物理実験が行われていると思いますが、一般的には効果の推定に興味があります。これらの場合、交差検証の必要性はほとんどありません。

1有益な事前分布を使用するベイズ法は、過剰適合に対処する古典的な統計手法であると主張することができます。しかし、それは別の議論です。

補足:相互検証は統計文献に最初に登場し、統計学者と呼ばれる人々によって確実に使用されていますが、それは機械学習コミュニティーで必須の必須ツールになっています。統計モデルの多くは、クロスバリデーションを使用せずにうまく動作しますが、「予測モデルを機械学習」とみなされ、ほぼすべてのモデルには、必要がクロスバリデーションを、彼らはしばしばクロスせずに行うことはほとんど不可能であるチューニングパラメータの選択を必要とします-検証。


np

@usεr11852:はい、しかし、交差検証なしで妥当な正則化ペナルティを選択することはほぼ不可能です(ペナルティをベイジアン事前分布として考える以外は、しかしそれはブラックボックスモデルでは難しい!)。そして、AとBを比較して結果をサンプルから除外したいのですが、これは通常、モデルの調整を必要とする問題ではなく(予測のように)、比較的少ない数のパラメーターで、古典的な統計理論はこれを処理できます相互検証を使用しません。
クリフAB

これは循環論法であり、正則化は相互検証を使用しますが、相互検証は正則化のために行われます。そもそも私はそれに反対して少しコメントしたのはそのためです。統計的推論/因果関係は、この非モデルチューニングアプローチから遠ざかると思います(たとえば、2016 Johansson et al。「学習事実の推論のための表現の学習」-このような厄介な美しい論文を参照してください)。最後に、基本的な物理学の研究が提示されると、難しい問題もML(例:Higgs Boson Machine Learning Challenge)のアプローチに依存する可能性があります。
usεr11852

@usεr11852正則化は交差検定を「使用」しませんが、正則化の調整パラメーターは交差検定を使用して選択されます。たとえば、参照glmentcv.glmnet素敵なコンパクトな機能で全体の手順のために。
クリフAB

1
また、物理学の研究ではMLアプローチも交差検証も使用できないと主張したことはありません。クロス検証は通常、予測モデルの複雑なモデル/調整パラメーターを選択するために特に使用され、多くの古典的な物理実験ではクロス検証は不要であることを説明しました。そのため、物理学者がそのデータを使用して行うことは、統計学者がそのデータを使用して行うことと必ずしも矛盾していません。これは、OPの質問の核心だったと私は思います。
クリフAB

3

(分析的)化学者である私は、両方のアプローチに直面します。性能指数の分析的計算(主に一変量回帰の場合)と、予測性能指数の直接測定です。
私への列車/テスト分割は、予測品質を測定する検証実験の「弟」です。


長い答え:

私たちが行う典型的な実験は、たとえば、学部の物理化学で一変量回帰を使用します。関心のあるプロパティは、モデルパラメータ、たとえば反応速度を測定するときの時定数ですが、予測(たとえば、関心のある値を予測/測定するための単変量線形キャリブレーション)である場合もあります。
これらの状況は、過適合しないという点で非常に害のないものです。通常、すべてのパラメーターが推定された後、快適な自由度が残され、古典的な信頼または予測区間の計算と古典的な誤差で(教育のように)学生を訓練するために使用されます伝播-それらはこれらの状況のた​​めに開発されました。そして、状況が完全に教科書のようなものではない場合でも(たとえば、データに構造があります。たとえば、速度論では、データは、反応の実行間の分散+実行における測定間の分散によってより適切に記述されると思います。単純な1分散のみのアプローチ)、私は通常、有用な結果を得るのに十分な数の実験を実行できます。

pnn<pnnndf、古典的なアプローチは機能しません。しかし、私はほとんど予測を行っているので、モデルの予測能力を測定する非常に直接的な可能性は常にあります。私は予測を行い、それらを参照値と比較します。

このアプローチは実際には非常に強力です(ただし、実験的な労力が増えるためコストがかかります)。これにより、トレーニング/キャリブレーションデータでカバーされなかった条件についても予測品質を調査できます。たとえば、外挿によって予測品質がどのように低下​​するかを測定できます(外挿には、たとえばトレーニングデータが取得されてから1か月後に行われた測定も含まれます)、重要であると予想される交絡要因に対して堅牢性をプローブできます。つまり、 、他のシステムの動作を研究するのと同じように、モデルの動作を研究できます。特定の点を調査したり、摂動してシステムの応答の変化を調べたりします。

予測品質が重要であるほど(そしてオーバーフィットのリスクが高いほど)、分析的に導出された数値ではなく、予測品質の直接測定を好む傾向があります。(もちろん、これらすべての交絡因子をトレーニング実験の設計に含めることもできます)。医療診断などの一部の領域では、モデルが実際の患者に「解き放たれる」前に適切な検証研究を実行する必要があります。

トレイン/テストの分割(ホールドアウト*、クロス検証、ブートストラップ外など)は、この1つのステップが簡単になります。追加の実験を保存し、外挿しません(トレーニングデータの非常に同じ分布の未知の独立したケースを予測するために一般化するだけです)。私はこれを検証ではなく検証として説明します(検証はここでの用語に深く含まれています)。性能指数の精度に対する要求が高すぎない場合、これは多くの場合、実用的な方法です(概念実証シナリオでは、正確に知る必要がない場合があります)。

* トレインとテストにランダムに分割する1つを、予測の質を測定するために適切に設計されたスタディと混同しないでください。


2
検証と検証の違いを指摘するための+1。
予測者
弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.