tl; dr
discrete
異常検出を実行するときにデータを処理する推奨方法は何ですか?categorical
異常検出を実行するときにデータを処理する推奨方法は何ですか?- この答えは、離散データを使用して結果をフィルタリングすることを示唆しています。
- おそらく、カテゴリの値を観測の割合で置き換えますか?
イントロ
ここに初めて投稿するので、フォーマットや正しい定義の使用のいずれかが技術的に正しくないと思われる場合は、代わりに何を使用すべきかを知りたいと思います。
今後。
私は最近、Andrew NgによるMachine Learningクラスに参加しています
異常検出については、データセット内の特定の特徴/変数に対する正規/ガウス分布パラメーターが何であるかを判断し、それからトレーニング例/観測値の選択されたセットの確率を判断するように教えられました特定のガウス分布、および特徴の確率の積を取得します。
方法
問題のアクティビティを説明すると思われる機能/変数を選択します: \ {x_1、x_2、\ dots、x_i \}
各フィーチャのガウスのパラメーターを近似します。 \ mu_j = \ frac {1} {m} \ sum_ {i = 1} ^ m x_j ^ {(i)}
各トレーニングの例、
次に、与えられた異常としてフラグ()、
これにより、例でさらに検査が必要かどうかを判断する方法がわかります。
私の質問
これは連続的な変数/機能には適しているようですが、個別のデータには対応していません。
ダミー変数、たとえば、性別フラグ機能[IsMale]
は、値可能性があると呼ばれますか?ダミーの特徴を考慮するには、代わりに二項分布を使用してを計算しますか?
車の色などのカテゴリデータはどうですか?色を、などの数値にマッピングすることもできますが、そのようなカテゴリの特徴の分布は均一に近い場合があります(つまり、色のいずれかに等しくなる可能性が高い)。発生する数値マッピング(つまり、値など)は順序ではありませんが、色の正規分布ではない頻度の非正規分布を変換しようとするのは理にかなっています(順序ではないことも問題になりますか? ?)?たとえば、私にとっては、データが連続的でも序数的でもないため、変換を行うことは意味がありません。したがって、おそらく離散分布を見つけるのが最善でしょう ガウスに合うようにデータを「拷問」するのではなく、機能に合う?
質問:(更新日:2015-11-24)
二項変数は二項確率分布でモデル化され、計算の別の要因になりますか?カテゴリ変数は、ガウス分布ではなく離散確率分布でモデル化し、計算の別の要因になる必要がありますか?ここで私がさらに研究/学習できることを求めていることを考慮に入れる別の方法はありますか?discrete
異常検出を実行するときにデータを処理する推奨方法は何ですか?categorical
異常検出を実行するときにデータを処理する推奨方法は何ですか?
編集:2017-05-03
- この答えは、離散データを使用して結果をフィルタリングすることを示唆しています。
- おそらく、カテゴリの値を観測の割合で置き換えますか?