2つのデータセットがあり、1つは検出したい対象のポジティブインスタンス、もう1つはラベル付けされていないインスタンスです。どのような方法を使用できますか?
例として、いくつかの構造化された電子メールの特性に基づくスパム電子メールの検出を理解したいとします。スパムメールが10000のデータセットが1つと、スパムであるかどうかがわからない10万通のデータセットが1つあります。
(ラベルのないデータを手動でラベル付けせずに)この問題にどのように取り組むことができますか?
ラベルなしデータのスパムの割合に関する追加情報がある場合はどうすればよいですか(つまり、1万個のラベルなしメールの20〜40%がスパムであると推定した場合はどうなりますか?)