ダミー機能(およびその他の離散/カテゴリ機能)による異常検出


18

tl; dr

  • discrete異常検出を実行するときにデータを処理する推奨方法は何ですか?
  • categorical異常検出を実行するときにデータを処理する推奨方法は何ですか?
  • この答えは、離散データを使用して結果をフィルタリングすることを示唆しています。
  • おそらく、カテゴリの値を観測の割合で置き換えますか?

イントロ

ここに初めて投稿するので、フォーマットや正しい定義の使用のいずれかが技術的に正しくないと思われる場合は、代わりに何を使用すべきかを知りたいと思います。

今後。

私は最近、Andrew NgによるMachine Learningクラスに参加しています

異常検出については、データセット内の特定の特徴/変数に対する正規/ガウス分布パラメーターが何であるかを判断し、それからトレーニング例/観測値の選択されたセットの確率を判断するように教えられました特定のガウス分布、および特徴の確率の積を取得します。xi

方法

問題のアクティビティを説明すると思われる機能/変数を選択します: \ {x_1、x_2、\ dots、x_i \}xi

{x1,x2,,xi}

各フィーチャのガウスのパラメーターを近似します。 \ mu_j = \ frac {1} {m} \ sum_ {i = 1} ^ m x_j ^ {(i)}

μj=1mi=1mxj(i)
σ2=1mi=1m(xj(i)μj)2

各トレーニングの例x

p(x)=j=1n p(xj;μj,σj2)

次に、与えられた異常としてフラグ(y=1)、

y={1p(x)<ϵ0p(x)ϵ

これにより、例でさらに検査が必要かどうかを判断する方法がわかります。

私の質問

これは連続的な変数/機能には適しているようですが、個別のデータには対応していません。

ダミー変数、たとえば、性別フラグ機能[IsMale]は、値可能性があると呼ばれますか?ダミーの特徴を考慮するには、代わりに二項分布を使用してを計算しますか?0,1p(x)

車の色などのカテゴリデータはどうですか?色を、などの数値にマッピングすることもできますが、そのようなカテゴリの特徴の分布は均一に近い場合があります(つまり、色のいずれかに等しくなる可能性が高い)。発生する数値マッピング(つまり、値など)は順序ではありませんが、色の正規分布ではない頻度の非正規分布を変換しようとするのは理にかなっています(順序ではないことも問題になりますか? ?)?たとえば、私にとっては、データが連続的でも序数的でもないため、変換を行うことは意味がありません。したがって、おそらく離散分布を見つけるのが最善でしょうred1,blue2red1log() ガウスに合うようにデータを「拷問」するのではなく、機能に合う?

質問:(更新日:2015-11-24)

  • 二項変数は二項確率分布でモデル化され、計算の別の要因になりますか?p(x)
  • カテゴリ変数は、ガウス分布ではなく離散確率分布でモデル化し、計算の別の要因になる必要がありますか?p(x)
  • ここで私がさらに研究/学習できることを求めていることを考慮に入れる別の方法はありますか?
  • discrete異常検出を実行するときにデータを処理する推奨方法は何ですか?
  • categorical異常検出を実行するときにデータを処理する推奨方法は何ですか?

編集:2017-05-03

  • この答えは、離散データを使用して結果をフィルタリングすることを示唆しています。
  • おそらく、カテゴリの値を観測の割合で置き換えますか?

<免責事項>私は、危険な状況を十分に把握している人です。</ disclaimer>だから危険になりましょう。...ガウシアンは不連続データを処理する方法ではないという私の直感に同意します。連続データの場合、数値行の1つの値は、整数行の数値やバイナリ変数とは異なる他のすべての値とは異なる種類の関係にあります。二項分布は、バイナリ変数を記述します。多項分布は多項変数を記述します。これらはすべて指数関数的な家族ではありませんか?
EngrStudent-モニカの復活


ディスカッションに追加される可能性のある別のトピック:トピック:カテゴリーの外れ値?
エイドリアントリー

@iValueValue 4番目の式のとは何ですか?それは?pp(x;μ,σ2)=1σ2πe(xμ)22σ2
アレッサンドロジャコプソン14

@uvts_cvs yesガウス分布の確率密度関数が使用されます。
エイドリアントリー14

回答:


4

一般に、離散*およびカテゴリ機能の両方について、この方法は外れ値分析に特に適していません。カテゴリカル予測子に関連するマグニチュードはないので、以下を使用しています。

  • グローバルデータで観察されているカテゴリの頻度
  • データの部分空間内で観察されているカテゴリの頻度

Gaussianメソッドが必要とするため、これらの品質はどちらも単独で分析することはできません。代わりに、カテゴリの特徴をコンテキスト化し、データの相関性を考慮する方法が必要です。

AggarwalによるOutlier Analysisに基づいた、カテゴリ属性データと混合属性データの手法を次に示します。

  • すべての観測値にわたって(データ型に関係なく)正の半正定行列を構築する類似度関数を定義できる場合、類似度行列計算し、その対角化、非ゼロの固有ベクトルを使用します埋め込む特徴を計算します。各行(観測)について、重心からの距離を計算します。これは外れ値スコアであり、単変量法を使用して外れ値を決定できます。SS=Qkλk2QkTQkE=QkλkE
  • 純粋にカテゴリカルな特徴がある場合は、混合モデルを生のカテゴリカルデータに適合させます。異常ポイントの生成確率は最も低くなります。
  • カテゴリー予測子にワンホットエンコーディングを使用し、オプションで潜在変数分析 **不明な連続マッピングを使用した順序変数に使用
    • 非ワンホット機能を標準化し(ワンホット機能はすでに暗黙的に標準化されています)、主成分分析を実行します。上位主成分(または固有ベクトルを固有値で重み付けするソフトPCAアプローチ)を使用して次元削減を実行し、典型的な連続外れ値分析法(混合モデルまたはガウス法など)を実行します。
    • 角度ベースの分析を実行します。各観測値について、すべてのポイントペア間のコサインの類似性を計算します。これらの類似性の最小分散(「角度ベースの外れ値係数」として知られる)を持つ観測値は、最も可能性の高い外れ値です。何が異常であるかを決定するために、ABOFの経験的分布の最終分析が必要になる場合があります。
    • 外れ値にラベルを付けた場合:予測モデルを工学データに適合させます(ロジスティック回帰、SVMなど)。

*離散フィーチャは、おおよそガウス手法で処理できます。適切な条件下では、特徴は正規分布(npq> 3の二項確率変数など)で近似できます。そうでない場合は、上記の順序として処理します。

**これは、「カテゴリの値を観測の確率で置き換える」というアイデアに似ています


混合モデルを生のカテゴリーデータにどのように適合させますか?だけですか?そして、それは複数のカテゴリ機能に対して機能しますか?K=1
赤羽

@Akababaたとえば、EMアルゴリズムを使用して、多項パラメーターのMLEを計算できます。多項RVの独立性を仮定すると、このアプローチは任意のカテゴリカル予測子セットに一般化されます。例ここで
khol

0

Andrew Ngクラスの数学は、「非離散」データを処理するのとまったく同じように、「離散」データを処理します。私たちがしなければならないことは、経験的に正規分布パラメーターを推定することであり、離散データに対して完全に行うことができます。

考えてみると、機械学習は常に離散データを常に処理します。データポイントの数は無限ではなく、コンピューターで処理されるビットの数は無限ではありません。

個別のデータポイントを相互に比較できる場合、長さなどを扱うときに機械学習方法に基本的な違いはありません:1.15フィート1.34フィート3.4フィート

またはツリー上にある枝の数:1 2 3 5

浮動小数点数または整数を同じように合計して平均化できます。

さて、カテゴリーデータへ。カテゴリデータポイントを比較することはできません(車対オートバイ対ボート)。これをどのように処理しますか?

カテゴリーの数は、意味をなすために少なくとも2つでなければなりません。2つのカテゴリの場合、カテゴリフィーチャをバイナリフィーチャ{0、1}として表すことができます。0および1は数学に使用できるため、上記を参照してください。

カテゴリ数(K)が[3 .. inf]の場合、単一の機能をKバイナリ相互排他的機能にマッピングします。たとえば、「motorcycle」カテゴリはバイナリ機能の組み合わせになります{IsCar:0、IsMotorcycle:1、IsBoat:0}、ボートポイントは{IsCar:0、IsMotorcycle:0、IsBoat:1}などになります。

これらの新しい機能から経験的分布パラメーターを推定できます。単純にもっと多くの次元があります、それだけです。


1
これは、ダミーの符号化を説明しているが、それは質問への答えではありません
ピーター・
弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.