ベイジアン分類子は、数値メタデータを含むテキストに適したアプローチですか?


8

私のウェブサイトで詐欺広告を検出するためのアプローチを考え出そうとしています。詐欺を示す信号の多くは広告のテキスト内に見つかるので、問題はスパムメールの検出(多くの場合、単純なベイジアン分類器が一般的な解決策です)と多くの共通点があると思います。

ただし、他にも特定の詐欺インジケーターになる可能性のある情報がありますが、ベイズ分類器がそれらを使用できるかどうか/どのように使用できるかはわかりません。数値が関係しているためです(範囲の両端の値が疑わしいため)。テキスト内の単語の有無に対応する単純なバイナリ値よりも。

たとえば、多くの詐欺広告では、アイテムの価格が非常に低く設定されている(多くの視聴を引き付けるため)ので、広告が詐欺である可能性があることを示す強力な指標として、通常よりも低い価格を設定します。

ベイズはまだ私の要件に適していますか?そうでない場合は、別のアプローチをお勧めできますか?

回答:


9

もちろん、ナイーブベイズを使用できます。条件付き分布の形式を指定するだけです。

私はいくつかのオプションを考えることができます:

  1. バイナリ分布:しきい値を使用してデータをバイナリ化すると、すでに解決していた問題に戻ります。
  2. パラメトリック分布:ガウス分布など、妥当なパラメトリック分布がある場合は、それを使用できます。
  3. ノンパラメトリック分布:数値データのビンを決定し、それらを使用して経験的ノンパラメトリック分布を構築します。

7

単純ベイズ分類器は、あまり問題なく数値変数だけでなく離散変数にも対応できます。基本的に3つのアプローチがあります。(i)数値を離散化します。(ii)各数値属性(ガウシアンなど)のパラメトリックモデルを使用します。(iii)各数値属性にノンパラメトリック(Parzenなど)密度推定器を使用します。

例えば参照「連続変数とよく行うナイーブベイズ分類器を」レムコBouckaert


1
@LOL私と同じ答えで、同じ選択順序と同じ例を使用しています...確率は何ですか?私たちは皆、同じように考えると思います
ビットワイズ

1
明らかに、参照を追跡するのに5分は費やすべきではなかった; o)
Dikran Marsupial

3

Naive Bayesは、離散属性だけでなく数値属性でも確実に機能します(他の回答で述べられているように、仮定された分布の適切性に関する法的懸念)。ただし、さまざまなソースからのデータを組み合わせると潜在的に強い相関があるため、非差別的な方法論はますます失敗するので、本当にナイーブベイズを使用するかどうかを検討する必要があります。

確率論的解釈を維持したい場合は、ロジスティック回帰を検討してください。ロジスティック回帰は、生成目的ではなく判別目的を持つナイーブベイズの正確な類似物です(たとえば、このペーパーを参照してください:ロジスティック回帰とナイーブベイズ。さまざまな実装があります:I マレットのように、javaを使用できる場合(コマンドラインツールまたはAPIとしてアクセス可能)。

厳密な確率論的解釈が必要ない場合は、SVMを使用できます。これには多くの実装がありますが、事実上の標準(ほとんどの言語で使用可能なバリアントを含む)はLibSVMです。


1

非常に簡単に数値を使用できます。用語P(Feature | scam = Yes)では、トレーニングデータからガウス分布またはその他の経験的分布を配置できます(たとえば、データを並べ替えるには、指定された入力数値の百分位数を返す関数を作成します)。ここにそれを説明する書き込みがあります

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.