トレーニングデータとテストデータの分布の違い


7

機械学習の基本的な前提は、トレーニングデータとテストデータが同じ母集団から抽出され、したがって同じ分布に従うことです。しかし、実際には、これはほとんどありません。共変量シフトはこの問題に対処します。誰かがこれに関する以下の疑問をクリアできますか?

2つの分布が統計的に異なるかどうかをどのように確認しますか?カーネル密度推定(KDE)を使用して、確率分布を推定して違いを伝えることはできますか?特定のカテゴリの画像が100枚あるとします。テスト画像の数は50で、トレーニング画像の数を5から50に5のステップで変更しています。KDEで推定した後、5つのトレーニング画像と50のテスト画像を使用すると、確率分布が異なると言えますか?


1
ないクロスポスト(行ってくださいstats.stackexchange.com/questions/173968/...
Dawny33

@ Dawny33:この質問は相互検証よりもこのサイトに関連しているようです。それが私がここに投稿した理由です。
Daniel Wonglee、2015

これは2つの理由から難しいものです。KDEを使用して画像を分布に変換できる場合は、2つのサンプルのKolmogorov–Smirnov検定を適用するように指示します。しかし、画像の2次元の性質により、これは困難になります。また、KSでうまく回復できない画像にはタイリング効果があります。したがって、画像処理をお勧めします。ハウスドルフ距離こちらの投稿ご覧ください
AN6U5 2015

回答:


1

2つの確率分布の違いを測定する良い方法は、Kullbak-Lieblerです。ディストリビューションが1つに統合されていることを考慮する必要があります。また、対称ではないため、距離ではないことを考慮する必要があります。KL(A、B)がKL(B、A)と等しくない


0

大規模なデータセットを使用している場合。トレーニングとテストセットの配布はそれほど異なっていない場合があります。理論的には、「多数の法則」は、分布が同じままであることを保証します。データのセットが小さい場合、これはおそらく配布を管理するのに適したポイントです。Hoapによると、ヒューマノイド「Kullbak-Liebler」を使用して、2つのセットの分布の違いを見つけることができます。


1
距離がしきい値を超えていることを認めれば、層別化は小さなセットを処理するための実行可能なツールになる可能性があることを付け加えます。
pincopallino 2016年
弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.