コンピュータービジョンの分野から来て、私はRANSAC(ランダムサンプルコンセンサス)メソッドを使用して、多くの外れ値を持つデータにモデルを適合させてきました。
ただし、統計学者によって使用されるのを見たことはなく、「統計的に健全な」方法とは見なされていないとの印象を受けていました。どうしてこんなことに?本質的にランダムであるため、分析が難しくなりますが、ブートストラップ方法も同様です。
または、単に学術的なサイロが互いに話し合っていない場合ですか?
コンピュータービジョンの分野から来て、私はRANSAC(ランダムサンプルコンセンサス)メソッドを使用して、多くの外れ値を持つデータにモデルを適合させてきました。
ただし、統計学者によって使用されるのを見たことはなく、「統計的に健全な」方法とは見なされていないとの印象を受けていました。どうしてこんなことに?本質的にランダムであるため、分析が難しくなりますが、ブートストラップ方法も同様です。
または、単に学術的なサイロが互いに話し合っていない場合ですか?
回答:
ここで重要なのは、RANSACのデータの大部分を破棄することだと思います。
ほとんどの統計アプリケーションでは、分布によっては裾が重い場合があり、したがって、サンプル数が少ないと統計的推定が歪む可能性があります。堅牢な推定器は、データの重み付けを変えることでこれを解決します。一方、RANSACは外れ値に対応する試みを行いません。これは、非正規分布だけでなく、データポイントが真に属さない場合のために構築されています。
私たちにとって、それはロバスト回帰の一例にすぎません-統計学者にも使用されていると思いますが、いくつかのより良い既知の代替手段があるため、それほど広くはないかもしれません。
データを正当化せずにRANSACで破棄しますが、モデルの適合度を高めることに基づいています。適合性を高めるためにデータを破棄することは、重要なデータを失う可能性があるため、通常は避けられます。正当化せずに外れ値を削除することは常に問題です。
もちろん、それを正当化することは可能です。たとえば、データが特定のパターンに従う必要があることがわかっているが、測定値の誤差のためにデータがパターンから逸脱している場合。