簡単にするために、スパム/非スパム電子メールの典型的な例に取り組んでいるとしましょう。
20000通のメールがあります。これらのうち、2000年はスパムであることは知っていますが、スパムではないメールの例はありません。残りの18000がスパムかどうかを予測したいと思います。理想的には、私が探している結果は、電子メールがスパムである確率(またはp値)です。
この状況で賢明な予測を行うために、どのアルゴリズムを使用できますか?
現時点では、距離ベースの方法で、自分のメールが既知のスパムメールにどれだけ似ているかを考えています。どのようなオプションがありますか?
より一般的には、教師あり学習方法を使用できますか、それを行うためにトレーニングセットに否定的なケースが必要になる必要がありますか?教師なし学習アプローチに限定されていますか?半教師あり方法はどうですか?