トレーニングデータとテストデータ間の共変量シフトを検出するための標準的なアプローチはありますか?これは、数百の画像を含むデータベースに共変量シフトが存在するという仮定を検証するのに役立ちます。
トレーニングデータとテストデータ間の共変量シフトを検出するための標準的なアプローチはありますか?これは、数百の画像を含むデータベースに共変量シフトが存在するという仮定を検証するのに役立ちます。
回答:
非ランダム性と共分散シフトを検出するためのカルバックライブラーダイバージェンスモデル、ヴァルトウォルフォウィッツ検定などの方法があります。
共分散テストをすばやく分析するための簡単なテストは、機械学習モデルを構築することです。このモデルでは、トレーニングデータと本番データを入力してモデルを繰り返しテストします。
場合によっては、モデルはトレーニングデータセットと本番データセットの違いを明らかにできるため、共分散シフトの兆候である可能性があります。
運動画像ベースの脳とコンピューターのインターフェースのための共変量シフト検出による適応学習 http://link.springer.com/article/10.1007/s00500-015-1937-5
非定常環境での共変量シフトを検出するためのEWMAモデルベースのシフト検出方法(http://www.sciencedirect.com/science/article/pii/S0031320314002878)
検討している可能性のあるイメージのプロパティについての手がかりはあまりありませんが、測定したいのはトレーニングセットとテストセットの分布の違いだと思われます。開始するのに役立つ場所は、2つの分布の差の尺度であるカルバックライブラーダイバージェンスです。
共変量シフトの問題は、最終的には異なる基礎となる数学的構造を持つデータセットになります。これで、マニホールドラーニングは高次元データの低次元表現を推定し、それによって基礎となる構造を明らかにします。多くの場合、多様体学習手法は予測ではありません-したがって、標準のPCAとは異なり、より強力です。
マニホールド学習手法(例:IsoMap、MDSなど)を使用して、トレーニングデータセットとテストデータセットの「(非)類似性」を視覚化(および可能であれば、定量化)しました。