ベイジアン分類子は、数値メタデータを含むテキストに適したアプローチですか？

8

私のウェブサイトで詐欺広告を検出するためのアプローチを考え出そうとしています。詐欺を示す信号の多くは広告のテキスト内に見つかるので、問題はスパムメールの検出（多くの場合、単純なベイジアン分類器が一般的な解決策です）と多くの共通点があると思います。

ただし、他にも特定の詐欺インジケーターになる可能性のある情報がありますが、ベイズ分類器がそれらを使用できるかどうか/どのように使用できるかはわかりません。数値が関係しているためです（範囲の両端の値が疑わしいため）。テキスト内の単語の有無に対応する単純なバイナリ値よりも。

たとえば、多くの詐欺広告では、アイテムの価格が非常に低く設定されている（多くの視聴を引き付けるため）ので、広告が詐欺である可能性があることを示す強力な指標として、通常よりも低い価格を設定します。

ベイズはまだ私の要件に適していますか？そうでない場合は、別のアプローチをお勧めできますか？

bayesian classification naive-bayes

— コードボックス
ソース

9

もちろん、ナイーブベイズを使用できます。条件付き分布の形式を指定するだけです。

私はいくつかのオプションを考えることができます：

バイナリ分布：しきい値を使用してデータをバイナリ化すると、すでに解決していた問題に戻ります。
パラメトリック分布：ガウス分布など、妥当なパラメトリック分布がある場合は、それを使用できます。
ノンパラメトリック分布：数値データのビンを決定し、それらを使用して経験的ノンパラメトリック分布を構築します。

— ビットごと
ソース

7

単純ベイズ分類器は、あまり問題なく数値変数だけでなく離散変数にも対応できます。基本的に3つのアプローチがあります。（i）数値を離散化します。（ii）各数値属性（ガウシアンなど）のパラメトリックモデルを使用します。（iii）各数値属性にノンパラメトリック（Parzenなど）密度推定器を使用します。

例えば参照「連続変数とよく行うナイーブベイズ分類器を」でレムコBouckaert

— ディクラン有袋類
ソース

1

@LOL私と同じ答えで、同じ選択順序と同じ例を使用しています...確率は何ですか？私たちは皆、同じように考えると思います

— ビットワイズ

1

明らかに、参照を追跡するのに5分は費やすべきではなかった; o）

— Dikran Marsupial

3

Naive Bayesは、離散属性だけでなく数値属性でも確実に機能します（他の回答で述べられているように、仮定された分布の適切性に関する法的懸念）。ただし、さまざまなソースからのデータを組み合わせると潜在的に強い相関があるため、非差別的な方法論はますます失敗するので、本当にナイーブベイズを使用するかどうかを検討する必要があります。

確率論的解釈を維持したい場合は、ロジスティック回帰を検討してください。ロジスティック回帰は、生成目的ではなく判別目的を持つナイーブベイズの正確な類似物です（たとえば、このペーパーを参照してください：ロジスティック回帰とナイーブベイズ。さまざまな実装があります：I マレットのように、javaを使用できる場合（コマンドラインツールまたはAPIとしてアクセス可能）。

厳密な確率論的解釈が必要ない場合は、SVMを使用できます。これには多くの実装がありますが、事実上の標準（ほとんどの言語で使用可能なバリアントを含む）はLibSVMです。

— ベン・アリソン
ソース

1

非常に簡単に数値を使用できます。用語P（Feature | scam = Yes）では、トレーニングデータからガウス分布またはその他の経験的分布を配置できます（たとえば、データを並べ替えるには、指定された入力数値の百分位数を返す関数を作成します）。ここにそれを説明する書き込みがあります

— ブロッコリ
ソース