ダミー機能(およびその他の離散/カテゴリ機能)による異常検出
tl; dr discrete異常検出を実行するときにデータを処理する推奨方法は何ですか? categorical異常検出を実行するときにデータを処理する推奨方法は何ですか? この答えは、離散データを使用して結果をフィルタリングすることを示唆しています。 おそらく、カテゴリの値を観測の割合で置き換えますか? イントロ ここに初めて投稿するので、フォーマットや正しい定義の使用のいずれかが技術的に正しくないと思われる場合は、代わりに何を使用すべきかを知りたいと思います。 今後。 私は最近、Andrew NgによるMachine Learningクラスに参加しています 異常検出については、データセット内の特定の特徴/変数に対する正規/ガウス分布パラメーターが何であるかを判断し、それからトレーニング例/観測値の選択されたセットの確率を判断するように教えられました特定のガウス分布、および特徴の確率の積を取得します。xixi{x_i} 方法 問題のアクティビティを説明すると思われる機能/変数を選択します: \ {x_1、x_2、\ dots、x_i \}xixix_i{x1,x2,…,xi}{x1,x2,…,xi}\{x_1, x_2,\dots,x_i\} 各フィーチャのガウスのパラメーターを近似します。 \ mu_j = \ frac {1} {m} \ sum_ {i = 1} ^ m x_j ^ {(i)} μj=1m∑i=1mx(i)jμj=1m∑i=1mxj(i)\mu_j = \frac{1}{m}\sum_{i = 1}^m x_j^{(i)} σ2=1m∑i=1m(x(i)j−μj)2σ2=1m∑i=1m(xj(i)−μj)2\sigma^2 = \frac{1}{m}\sum_{i = 1}^m (x_j^{(i)} …