大量のスパムがメールサーバーのフィルターを通過しています。最初の数行の(信じられないほど明白な)減量やその他の詐欺テキストから始めて、プログラミングドキュメントからのより大きなテキスト本文が続くという比較的単純なトリックで実行しています。 —または、何よりも悪いこととして、Stack Exchangeからスクレイピングされたテキスト。SpamassassinはせいぜいこれをBAYES_50と見なし、残りのメッセージは他のトリガーにヒットしないように注意深く作成されています。(たとえば、ヘッダーは最小限で正しいものです。)多くの場合、含まれている抜粋は私の正当な関心と十分に一致しており、非常にスパムの多いトークンがsysadminの問題解決のジューシーなナゲットに圧倒されているためです。
上部は明らかにスパム性が高く(実際、以前に受信してスパムメッセージとしてトレーニングされたものと非常によく似ている傾向があります)、その通り抜けに驚いていますが、明らかにそうです。メッセージの上位25行程度を獲得し、問題を大幅に解決することを重視した別のパスのようです。これを行う方法はありますか?
数人がカスタム正規表現を書くことを提案しています。これは絶え間ない敗北の戦いなので、これには入りたくありません。これは、ベイジアンスパムソーティングが普及する前に人々が行ったことであり、一般にひどいものでした。人間は追いつけない。これは、各スパムメッセージの削除キーを押すだけの場合よりも効果的ではなく、さらに多くの作業が必要になります。
ベイジアンスパムフィルタリングが機能します。「スクロールせずに見える範囲」の部分を分割し、その部分を分析するだけで、おとり/チャフを削除して、このスパムでも機能します。問題は、どうすればスパマサシンにそれを行わせることができるのでしょうか?