外れ値検出のための堅牢なPCAと堅牢なマハラノビス距離


17

堅牢なPCA(Candes et al 2009またはNetrepalli et al 2014 によって開発された)は多変量異常値検出の一般的な方法ですが、マハラノビス距離は、共分散行列の堅牢で正規化された推定値が与えられると、異常値検出にも使用できます。私は、あるメソッドを他のメソッドよりも使用することの(不利な)利点に興味があります。

私の直感では、2つの最大の違いは次のとおりであることがわかります。データセットが(統計的な意味で)「小さい」場合、ロバストPCAは低いランクの共分散を提供し、代わりにロバストな共分散行列推定は完全なLedoit-Wolf正則化によるランク共分散。これはどのように異常値の検出に影響しますか?


興味深い質問ですが、特定のユースケースなしではどのように答えが動機づけられるのかわかりません。あなたは持っていますか「ひどく破損した観測を」?一般にノイズの多いデータはありますか?RPCAの実装の多くは、基本的にロバストな共分散推定手法であり(JolliffeのPrinc。Component Analysis、Ed。2nd Ch。10を参照)、PCは共分散の正規化推定から推定されます。したがって、あなたが言及する2つのアプローチとの違いは明確ではありません。一般に、自動異常値検出は、特定のアプリケーションのコンテキスト内で成功します。
usεr11852が復活モニック言う

1
「ノイズの多いデータ」の問題は、外れ値の検出ではありません。外れ値の検出の問題は、ユースケースなしでこれら2つの方法の一般的な比較を可能にするために、それ自体で十分に制限的であると思います。これは方法論に関する質問です。
ムスタファSエイサー

少なすぎるスペースで言いすぎたのかもしれませんが、ごめんなさい。私が注目したいのは、あなたが言及した2つのアプローチが明確ではないということです。投影追跡アプローチ(RPCAと呼ばれるもの)と堅牢な共分散推定アプローチ(マハラノビス距離と呼ばれるもの)の比較にもっと焦点を当てることを検討する必要があります。堅牢な共分散推定自体は、RPCA実装に完全に有効な方法論です(例:google "PCA M-Estimation")。RPCAの文脈では何とか言及していない重み付けPCAアプローチの存在についても言及しないでください。
usεr11852が復活モニック言う

謝罪の必要はありません:)特に小さなデータセットでは、2つの方法は非常に異なります。それらが異なる方法の1つは、私の質問の最後に記載されています。(ロバストな)PCAは投影問題と見なすことができますが、共分散推定問題として解釈することもできるため、アプリケーションとパフォーマンスよりもパラメーター推定方法の違いはおそらく少ないでしょう。
ムスタファSエイサー

@ MustafaSEisa /いい質問です!それは方法論的な根拠で答えられると思います。実際、それは私のピートの一つです。暫定的な回答をできるだけ早く試みます。その間; より一般的な用語でそれに取り組むための実りある方法は、不変性の入れ子になっているが不平等なグループを持つモデルを使用した結果を調べることだと思います。私はここでやや異なる文脈でやろうとしているように。
user603

回答:


7

このペーパーでは、この分野のいくつかの方法を比較します。これらは、「PCP」(主成分分析)とリンクしたロバストPCAアプローチと、M推定子としてロバストな共分散推定のためにリンクした一連のメソッドを指します。

彼らは主張する

PCPは、破損したデータポイント(つまり、外れ値)ではなく、均一に破損したデータの座標用に設計されているため、この種のデータではPCPとの比較はやや不公平です。

場合によっては、PCP(別名堅牢なPCA)が異常値検出に失敗する可能性があることを示します。

また、3種類の「部分空間回復の敵」、つまり異なる種類の外れ値、およびそれぞれの種類に対処するのに適した種類の方法についても説明します。ここで説明した3種類の「敵」と独自の外れ値を比較すると、アプローチを選択するのに役立つ場合があります。


このデビッドをありがとう、私は論文を見ていきます。ただし、座標(ペデスタルの場合など)のペナルティではなく、データム(データ行列の行)に回転不変のペナルティを課す堅牢なPCAのバージョンがあります。考え?
ムスタファSエイサー

あなたの質問を理解したかどうかわかりません。質問で説明した2つのアプローチを、別の堅牢なPCAアプローチと比較するようにお願いしますか?
デビッドJ.ハリス

11

あなたの答えが「いいえ」である場合、それはまったく問題ありません。
ムスタファSエイサ

ああなるほど。それはマハラノビス距離の特殊なケースでしょうか?
デビッドJ.ハリス
弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.