堅牢なPCA(Candes et al 2009またはNetrepalli et al 2014 によって開発された)は多変量異常値検出の一般的な方法ですが、マハラノビス距離は、共分散行列の堅牢で正規化された推定値が与えられると、異常値検出にも使用できます。私は、あるメソッドを他のメソッドよりも使用することの(不利な)利点に興味があります。
私の直感では、2つの最大の違いは次のとおりであることがわかります。データセットが(統計的な意味で)「小さい」場合、ロバストPCAは低いランクの共分散を提供し、代わりにロバストな共分散行列推定は完全なLedoit-Wolf正則化によるランク共分散。これはどのように異常値の検出に影響しますか?
興味深い質問ですが、特定のユースケースなしではどのように答えが動機づけられるのかわかりません。あなたは持っていますか「ひどく破損した観測を」?一般にノイズの多いデータはありますか?RPCAの実装の多くは、基本的にロバストな共分散推定手法であり(JolliffeのPrinc。Component Analysis、Ed。2nd Ch。10を参照)、PCは共分散の正規化推定から推定されます。したがって、あなたが言及する2つのアプローチとの違いは明確ではありません。一般に、自動異常値検出は、特定のアプリケーションのコンテキスト内で成功します。
—
usεr11852が復活モニック言う
「ノイズの多いデータ」の問題は、外れ値の検出ではありません。外れ値の検出の問題は、ユースケースなしでこれら2つの方法の一般的な比較を可能にするために、それ自体で十分に制限的であると思います。これは方法論に関する質問です。
—
ムスタファSエイサー
少なすぎるスペースで言いすぎたのかもしれませんが、ごめんなさい。私が注目したいのは、あなたが言及した2つのアプローチが明確ではないということです。投影追跡アプローチ(RPCAと呼ばれるもの)と堅牢な共分散推定アプローチ(マハラノビス距離と呼ばれるもの)の比較にもっと焦点を当てることを検討する必要があります。堅牢な共分散推定自体は、RPCA実装に完全に有効な方法論です(例:google "PCA M-Estimation")。RPCAの文脈では何とか言及していない重み付けPCAアプローチの存在についても言及しないでください。
—
usεr11852が復活モニック言う
謝罪の必要はありません:)特に小さなデータセットでは、2つの方法は非常に異なります。それらが異なる方法の1つは、私の質問の最後に記載されています。(ロバストな)PCAは投影問題と見なすことができますが、共分散推定問題として解釈することもできるため、アプリケーションとパフォーマンスよりもパラメーター推定方法の違いはおそらく少ないでしょう。
—
ムスタファSエイサー