Local Outlier Factor(LOF)検出分析のk値の選択


9

一連の3次元データがあり、局所異常値因子分析を使用して、最もユニークまたは奇妙な値を特定しようとしています。LOF分析で使用するk値をどのように決定しますか?私はk値が何を決定するかを理解しているので、異なるkを使用してわずかに異なる結果が表示されても驚くことはありませんが、他の値よりも1つの値に向かわせるデータセットの特性があるかどうかはわかりません。ありがとう!

回答:


10

これを将来私の質問に遭遇した人のためにここに投稿します-ローカル外れ値アルゴリズム、「LOF:密度ベースのローカル外れ値の特定」(Breunig et al)を説明した元の論文は、k値を選択する方法を推奨しています。注意として、LOFアルゴリズムは各ポイントの密度をその最近傍の密度と比較します。この論文の著者は、最小kと最大kを選択し、各ポイントについて、その範囲内の各kで最大LOF値をとることを推奨しています。彼らは境界を選択するためのいくつかのガイドラインを提供します。kkkk

k<10min(k)=10kk=1512pppNN

NNk<Nk>N

k


一つだけ理解したい。任意のデータセットについて、k = 20を選択して各ポイントのLOFを生成し、すべてのポイントをそのLOFの降順で表示するとします。これで、データを分析するときに、データが外れ値であると考えるまでの範囲を選択できます(ドメインの知識に従って)。これは役立つと思いますか?私は今の私と同じように、kの値について心配する必要はありません。また、ドメイン知識を使用して、LOFランキングに従って外れ値を分析しています。おかげで、
Swapnil Bhure 2018
弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.