従来の統計では、ホールドアウト法（トレーニングとテストにデータを分割する）が使用されないのはなぜですか？

12

私の教室でのデータマイニングの経験では、モデルのパフォーマンスを評価する方法として、ホールドアウトメソッドが導入されました。ただし、線形モデルで最初のクラスを取ったとき、これはモデルの検証または評価の手段として導入されませんでした。私のオンライン調査でも、交差点は示されていません。ホールドアウト法が古典統計で使用されないのはなぜですか？

— ティククエスト
ソース

22

より生産的な質問は、「なぜ私が学んだ古典的な統計に使用されなかったのか」ということでしょう。

教えられたレベルに応じて、コースの内容（および利用可能な時間）は、さまざまな要因の組み合わせに起因する可能性があります。重要なトピックは、後の主題でカバーされるかもしれないという希望を持って、何らかの理由で他の教材を教えなければならないため、しばしば残されます。

少なくともある意味では、この概念はさまざまな人々によって長い間使用されてきました。一部の地域では他の地域よりも一般的でした。統計の多くの用途には、主要なコンポーネントとして（または場合によってはまったく）予測またはモデル選択がありません。その場合、予測が主な場合よりもホールドアウトサンプルの使用はそれほど重要ではありません。おそらく、いくつかの関連するアプリケーションの初期段階で、それよりも広範囲に使用されるべきだったはずですが、それは未知のものと同じものではありません。

予測に焦点を当てた領域を見ると、モデルの推定に使用しなかったデータを予測することによるモデル評価の概念は確かにありました（普遍的ではありません）。たとえば、1980年代に行っていた時系列モデリングで確かにそれを行っていました。たとえば、最新データのサンプル外の予測パフォーマンスが特に重要でした。

少なくとも一部のデータを除外するという概念は、回帰（削除された残差、PRESS、ジャックナイフなど）および異常値分析などで使用されました。

これらのアイデアデータの一部は、まだかなり早い時期に戻っています。Stone（1974）[1]は、1950年代および60年代のクロス検証（タイトルに単語が含まれる）に関する論文を指します。おそらくあなたの意図により近い、彼はサイモン（1971）の用語「構築サンプル」と「検証サンプル」の使用について言及していますが、「ラーソン（1931） -回帰研究」。

クロス検証や予測などに基づく統計の使用などのトピックは、たとえば70年代および80年代の統計文献でかなり頻繁に使用されるようになりましたが、基本的なアイデアの多くはかなり長い間存在していましたその後。

[1]：Stone、M.、（1974）
「統計的予測の交差検証選択と評価」、
Journal of the Royal Statistical Society。シリーズB（方法論）、Vol。36、No。2.、pp。111-147

— Glen_b -Reinstate Monica
ソース

記録のためだけに、M。ストーンは私ではなく、アダムとイブを経由する可能性がある場合を除いて、私と関係がありません。

— マークL.ストーン

11

Glen_bの答えを補完するために、古典的な統計では、データの最適な使用、最適なテスト、最適な推定量、十分性などに重点が置かれていることが多く、その理論的枠組みでは、情報の一部を使用しないことを正当化することは困難です！その伝統の一部は、ホールドアウトが実際に難しい小さなサンプルの状況に重点を置いています。

フィッシャーは、例えば、主に遺伝学と農業実験で働き、これらの分野では少数の観察がルールでした。そのため、彼は主に小さなデータセットでこのような問題にさらされていました。

— kjetil b halvorsen
ソース

6

多分古典統計学と機械学習の中間にある応用分野、ケモメトリックス、すなわち化学分析の統計から答えます。ホールドアウトが一般的な機械学習クラスほど重要ではない2つの異なるシナリオを追加します。

シナリオ1：

ここで重要な点の1つは、トレーニングとテストのサンプルサイズが小さいことに根本的な違いがあることを認識することです。

トレーニングでは、通常、ケースの数の比率：モデルの複雑さ（パラメーターの数）が重要です（自由度）
テストでは、テストケースの絶対数が重要です。
（テスト手順の品質は、モデルとは独立している必要があります。これは、独立したテストケースでの検証によりブラックボックスとして扱われます）

$\gg$

現在、「古典的な」線形モデルに関する統計講義では、しばしば単変量モデルが非常に強調されています。単変量線形モデルの場合、トレーニングサンプルサイズは小さくない可能性があります。通常、トレーニングサンプルサイズはモデルの複雑さと比較して判断され、線形モデルにはオフセットと勾配の2つのパラメーターしかありません。分析化学では、単変量線形キャリブレーションには少なくとも10個のキャリブレーションサンプルが必要であるという規範があります。これにより、モデルの不安定性が確実に問題とならない状況が確保されるため、ホールドアウトは不要です。

しかし、機械学習では、化学分析の最新のマルチチャンネル検出器（質量分析などの10の「チャンネル」）の場合と同様に、モデルの安定性（分散）が重要な問題です。したがって、ホールドアウトまたはより良いリサンプリングが必要です。

シナリオ2：

まったく異なる状況では、より簡単な（残差）プラスより高度なパフォーマンス測定の組み合わせを優先して、ホールドアウトがスキップされる場合があります。ホールドアウト（ランダム）脇の一部設定の意味であること注データセットをし、訓練からこれを除外しているではない独立したテストを実現することができるものと同等。分析化学では、たとえば、ホールドアウトでは測定できない経時的な性能低下（機器ドリフト）の測定や、実際の産業環境でのセンサーの性能の確立（センサーキャリブレーションなど）キャリブレーションサンプルでラボで行われました）。/stats//a/104750/4598も参照してください独立テストとホールドアウトの詳細については。

— cbeleitesはMonicaをサポートしています
ソース

上記、シナリオ1では、（バイアス<<分散）と言うつもりでしたか？正してください！

— kjetil bハルヴォルセン

1

@kjetilbhalvorsenいいえ、彼女はその段落（十分に複雑ではないモデル）の不足に言及しているからです。

— マーククレセン

@kjetilbhalvorsen; Marc Claesenは正しいです。これは、問題が不十分であることを確信できる状況のためであることを強調しました。

— cbeleitesはモニカをサポートします

OK。

— 要件