機械学習の基本的な前提は、トレーニングデータとテストデータが同じ母集団から抽出され、したがって同じ分布に従うことです。しかし、実際には、これはほとんどありません。共変量シフトはこの問題に対処します。誰かがこれに関する以下の疑問をクリアできますか?
2つの分布が統計的に異なるかどうかをどのように確認しますか?カーネル密度推定(KDE)を使用して、確率分布を推定して違いを伝えることはできますか?特定のカテゴリの画像が100枚あるとします。テスト画像の数は50で、トレーニング画像の数を5から50に5のステップで変更しています。KDEで推定した後、5つのトレーニング画像と50のテスト画像を使用すると、確率分布が異なると言えますか?
1
ないクロスポスト(行ってくださいstats.stackexchange.com/questions/173968/...)
—
Dawny33
@ Dawny33:この質問は相互検証よりもこのサイトに関連しているようです。それが私がここに投稿した理由です。
—
Daniel Wonglee、2015
これは2つの理由から難しいものです。KDEを使用して画像を分布に変換できる場合は、2つのサンプルのKolmogorov–Smirnov検定を適用するように指示します。しかし、画像の2次元の性質により、これは困難になります。また、KSでうまく回復できない画像にはタイリング効果があります。したがって、画像処理をお勧めします。ハウスドルフ距離。こちらの投稿もご覧ください。
—
AN6U5 2015