取得したデータからのスパムのフィルタリング


8

データセット内のエントリを検索する一部のユーザーがブロックされたソースから特定の情報を探している可能性があるため、ブラックリストを使用してスパムをフィルタリングすることは良いアプローチではないと聞いたことがあります。また、ブロックされた各スパマーの現在の状態を継続的に検証し、サイト/ドメインが依然としてスパムデータを広めているかどうかを確認することは負担になります。

非常に大規模なデータセットでのフィルタリングをサポートするために、あらゆるアプローチが効率的でスケーラブルでなければならないことを考えると、偏見のない方法でスパムを取り除くために利用できる戦略は何ですか?

編集:可能であれば、戦略の例は、その背後にある直感だけでも、答えとともに大歓迎です。

回答:


5

特に電子メールでのスパムフィルタリングは、ニューラルネットワークによって革命を起こしました。ここでは、この件について適切に読んだいくつかの論文を紹介します。

ニューラルネットワークとスパムの未来AC Cosoi、MS Vlad、V。Sgarciu http://ceai.srait.ro/index.php/ceai/article/viewFile/18/8

マルチニューラルネットワークを使用したインテリジェントな単語ベースのスパムフィルター検出Ann Nosseir、Khaled Nagati、Islam Taj-Eddin http://www.ijcsi.org/papers/IJCSI-10-2-1-17-21.pdf

適応ニューラルネットワークを使用したスパム検出:適応共鳴理論David Ndumiyana、Richard Gotora、Tarisai Mupamombe http://onlineresearchjournals.org/JPESR/pdf/2013/apr/Ndumiyana%20et%20al.pdf

編集:ニューラルネットワークを使用してスパムフィルタリングを支援する基本的な直観は、用語がスパムに関連付けられている頻度に基づいて用語に重みを付けることです。

ニューラルネットワークは、監視あり-トレーニングセット内の文の分類-環境を明示的に提供することで、最も迅速にトレーニングできます。重要な要点を説明しなくても、基本的な考え方は次の文で説明できます。

テキスト=「バイアグラ特許の喪失はファイザーにどのように影響するのか」、スパム= falseテキスト=「安価なバイアグラを今すぐ購入」、スパム= trueテキスト=「オンライン薬局バイアグラシアリスリピトール」、スパム= true

2段階のニューラルネットワークの場合、最初の段階では、単語が文に存在するかどうかに基づいて、スパムの可能性を計算します。だから私たちの例から:

バイアグラ=> 66%購入=> 100%ファイザー=> 0%など

次に、第2ステージでは、第1ステージの結果が第2ステージの変数として使用されます。

バイアグラ&購入=> 100%ファイザー&バイアグラ=> 0%

この基本的な考え方は、トレーニングデータのすべての単語の多くの順列に対して実行されます。訓練された後の最終結果は、基本的には文中の単語のコンテキストに基づいてスパムである確率を割り当てることができる方程式です。スパムのしきい値を設定し、上記のしきい値よりも高いデータを除外します。


1
+1参照ありがとうございます。小さな例はありますか、またはアプローチの1つの背後にある直感だけを示すことができますか?私はニューラルネットワークに詳しくありませんが、例にそのような知識ベースが必要かどうかを確認できます。
ルーベンス2014年

ユースケースについて具体的に教えてください。戦略は、ソリューションの実装方法によって大きく異なります。
neone4373 14年

つまり、私は別のアプローチの背後にあるアイデアが何であるかを見たいだけです。たとえば、ブラックリストを使用して何が行われるか(私たちが良くないとわかっている場合)を説明する場合、アルゴリズムを次のように説明できます。そのようなエントリをブラックリストに追加します。方法論/アルゴリズムの高レベルの説明を確認したいだけです。彼らはスパムネットワークの使用情報を収集してニューラルネットワーク分類器に入れますか、それとも何をしますか?
ルーベンス2014年

1

ブラックリストは、いくつかの理由で価値がありません。

  1. 設定とスケーリングは簡単です。これは単なるキー/値ストアであり、おそらく最も基本的な実装のためにキャッシュロジックの一部を再利用できます。
  2. スパム攻撃のサイズと種類によっては、非常に具体的な用語やURLが使用される可能性があります。モデルが適応するのを待つよりも、その用語をブラックリストに入れる方がはるかに高速です。
  3. 追加したのと同じくらい迅速にアイテムを削除できます。
  4. 誰もがそれらがどのように機能するかを理解しており、すべての管理者がそれらを使用できます。

スパム対策の鍵は監視です。ブラックリストにあるアイテム、過去10分/時間/日/月にヒットした頻度、アイテムを簡単に追加および削除できる機能を示す何らかのインターフェースがあることを確認してください。

多くの異なるスパム検出モデルと戦術を組み合わせる必要があります。ニューラルネットは良い提案のようです。コンテンツだけでなく、ユーザーの行動パターンも確認することをお勧めします。通常の人間は、12時間連続して30秒ごとに1,000通の電子メールのバッチを送信するようなことはしません。

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.