特に電子メールでのスパムフィルタリングは、ニューラルネットワークによって革命を起こしました。ここでは、この件について適切に読んだいくつかの論文を紹介します。
ニューラルネットワークとスパムの未来AC Cosoi、MS Vlad、V。Sgarciu
http://ceai.srait.ro/index.php/ceai/article/viewFile/18/8
マルチニューラルネットワークを使用したインテリジェントな単語ベースのスパムフィルター検出Ann Nosseir、Khaled Nagati、Islam Taj-Eddin
http://www.ijcsi.org/papers/IJCSI-10-2-1-17-21.pdf
適応ニューラルネットワークを使用したスパム検出:適応共鳴理論David Ndumiyana、Richard Gotora、Tarisai Mupamombe
http://onlineresearchjournals.org/JPESR/pdf/2013/apr/Ndumiyana%20et%20al.pdf
編集:ニューラルネットワークを使用してスパムフィルタリングを支援する基本的な直観は、用語がスパムに関連付けられている頻度に基づいて用語に重みを付けることです。
ニューラルネットワークは、監視あり-トレーニングセット内の文の分類-環境を明示的に提供することで、最も迅速にトレーニングできます。重要な要点を説明しなくても、基本的な考え方は次の文で説明できます。
テキスト=「バイアグラ特許の喪失はファイザーにどのように影響するのか」、スパム= falseテキスト=「安価なバイアグラを今すぐ購入」、スパム= trueテキスト=「オンライン薬局バイアグラシアリスリピトール」、スパム= true
2段階のニューラルネットワークの場合、最初の段階では、単語が文に存在するかどうかに基づいて、スパムの可能性を計算します。だから私たちの例から:
バイアグラ=> 66%購入=> 100%ファイザー=> 0%など
次に、第2ステージでは、第1ステージの結果が第2ステージの変数として使用されます。
バイアグラ&購入=> 100%ファイザー&バイアグラ=> 0%
この基本的な考え方は、トレーニングデータのすべての単語の多くの順列に対して実行されます。訓練された後の最終結果は、基本的には文中の単語のコンテキストに基づいてスパムである確率を割り当てることができる方程式です。スパムのしきい値を設定し、上記のしきい値よりも高いデータを除外します。