統計的学習では、暗黙的または明示的に、トレーニングセットD = { X、y }は、同じ結合分布P(X、X、)から独立して描画されるN個の入力/応答タプル(X i、y i)で構成されると常に仮定しますy )と
および特定の学習アルゴリズムを介して取得しようとしている関係。数学的には、このiidの仮定は次のように記述します。
私たちは皆、この仮定が実際にはめったに満たされないことに同意できると思います。この関連するSEの質問と@Glen_bと@Lucaの賢明なコメントを見てください。
したがって、私の質問は次のとおりです。
実際にiidの仮定はどこで重要になりますか?
[状況]
特定のモデル(線形回帰法など)をトレーニングするためにこのような厳しい仮定が必要でない多くの状況を考えることができるか、少なくとも1つがiid仮定を回避してロバストな結果を得ることができるため、これを求めています。実際、結果は通常同じままであり、変化するのはむしろ描画できる推論です(たとえば、線形回帰における不均一分散性および自己相関整合HAC推定量:考えは古き良きOLS回帰重みを再利用するが、ガウスマルコフ仮定の違反を説明するためのOLS推定器の有限サンプル動作)。
私の推測では、ことがあるIID仮定は、特定の学習アルゴリズムを訓練することはできないことが要求されるのではなく、このような相互検証などの技術が実際にうまく一般化のモデルの性能の信頼性の高い測定を推測するために使用することができることを保証する、これ統計学習で1日の終わりに関心があるのは、データから実際に学習できることを示しているためです。直観的には、依存データでクロス検証を使用すると楽観的にバイアスがかかる可能性があることを本当に理解できます(この興味深い例で説明/説明されているように)。
したがって、私にとってiidは特定のモデルのトレーニングとは関係なく、そのモデルの一般化可能性に関係するすべてのものです。これは、Huan Xuらが見つけた論文と一致しているようです。ここで、「マルコフ標本のロバスト性と一般化可能性」を参照してください。
あなたはそれに同意しますか?
[例]
これは議論を助けることができる場合は、間でスマートな選択を行うためにLASSOアルゴリズムを使用することの問題を検討与えられていますNの学習サンプル(X I、Y I)と∀ 私は= 1 、。。。、N X iが = [ X I 1、。。。、X i P ] さらに次のことを仮定できます。
- 入力は、従ってIID仮定の違反をもたらす依存している(各特徴のために、例えば、J = 1 、。。、Pは、我々が観察N、したがって時間的自己相関を導入し、ポイント時系列)
- 条件付き応答は独立しています。
- 我々は持っている。
その場合、(完全なデータセットで)交差検証アプローチを使用してLASSOのペナリゼーション係数を決定することを計画している場合、iid仮定の違反が問題を引き起こす可能性があります+ネストされた交差検証を使用してこの学習戦略の一般化エラーを感じてください(有用である場合を除き、LASSOの固有の長所/短所に関する議論は無視できます)。