正のラベルなしデータのみでバイナリ分類器を作成する


11

2つのデータセットがあり、1つは検出したい対象のポジティブインスタンス、もう1つはラベル付けされていないインスタンスです。どのような方法を使用できますか?

例として、いくつかの構造化された電子メールの特性に基づくスパム電子メールの検出を理解したいとします。スパムメールが10000のデータセットが1つと、スパムであるかどうかがわからない10万通のデータセットが1つあります。

(ラベルのないデータを手動でラベル付けせずに)この問題にどのように取り組むことができますか?

ラベルなしデータのスパムの割合に関する追加情報がある場合はどうすればよいですか(つまり、1万個のラベルなしメールの20〜40%がスパムであると推定した場合はどうなりますか?)


1
投稿には、「半監視あり」と「PU学習」のタグを追加する必要があります。これらのタグはまだ存在せず、現在は作成できません。
DaL、2015

@DanLevinええ、[タグ:半教師あり学習]は理にかなっています。追加:) pu-learningの部分がわからない(少なくとも私はそれを認識していません)ので、他の誰かがそれを行うことができます!
Dawny33

1
PU学習は、半教師あり学習の特定のケースです。この質問がPUであるということはあまり一般的ではなく(Googleで7Kの結果)、次に半教師付き(Googleで298Kの結果)です(ラベル付きのデータセットは単なる陽性です)。トピックはアカデミーで議論されていますが(例:cs.uic.edu/~liub/NSF/PSC-IIS-0307239.html)、この質問はこのタグだけでかなり長く続く可能性があります。
DaL 2015

回答:


7

私の提案は、ラベル付けされたデータセットにいくらか近似する、ラベル付けされていないデータにある種のクラスタリングを構築することを試みることです。理論的根拠は多かれ少なかれ以下の通りです:

  • ドキュメントを表すための特徴ベクトルがあります
  • その特徴ベクトルに基づいて、ファジー、ラフ、またはクラスベースのクラスタリング手法のいずれかで、いくつかの異なるクラスタリングを思い付くことができます
  • ポジティブな例がどのように見えるかを知っていると、クラスターとポジティブなクラスターの全体的な類似性をすばやく評価できます
  • 実際には2つのクラスターしか存在しないことがわかっているので、上記の2つのメトリックがより近く、満足度が高くなるように、クラスター化メソッドのハイパーパラメーターを調整できます。
  • 2つのクラスターを使用すると、ラベル付けされたデータセットの近似に近いものになる可能性があり、これを銀の標準のコーパスとして使用して、実際にモデルをトレーニングできます。

それが理にかなっているといいのですが、クラスタリングアルゴリズムを具体的に探しているのであれば、私が個人的に楽しんでいるこのシナリオで良いかもしれないもののいくつかはFLAMEtsneです。あるいは、Pythonで壮大なgensimライブラリを見ると、探しているクラスタリングに向けて長い道のりが手に入ります。

参考になれば幸いです。質問がある場合はコメントを残してください。


ご回答有難うございます。私は正しく理解していますか?あなたの出発点は2つのデータセットをマージすることですか?
nassimhddd 2014

@ cafe876これは確かに1つの方法であり、基本的には元のクラスタに非常に近いクラスタリングを再作成しようとします。
インディコ2014

3

あなたの問題は、PU学習のフレームワークに属します(肯定的なもののみ、多くのラベルなし)。

また、準教師あり学習のより一般的なフレームワークに近いものです (ポジティブとネガティブがほとんどなく、ラベルが付いていません)。

現地で調べられる調査用紙はたくさんあります。

また、あなたのケースのように、スパムでテストされたフィールドの古典的な方法は、ある共同訓練 あなたは二つの独立した学習者を構築する共同訓練(例えば、送信方式に基づいて、メールの内容や1に基づいて、1)、あなたが使います一方の結果が他方を訓練し、その逆も同様です。


2

データセットごとに1つ(スパムのみ、スパムとハム)の2つの生成モデルをトレーニングすると、トレーニングデータの同じ確率分布からデータポイントが抽出される確率が得られます。トレーニングに使用されるトレーニングデータからドキュメントが発生する可能性が最も高いモデルに基づいて、メールをスパムまたはハムとして割り当てます。生成モデルの例は、RBMのオートエンコーダー(その場合、どのモデルが再構成エラーが最も低いか)です。いくつかのトレーニングデータに基づいてデータポイントに確率を割り当てるベイジアン生成モデルもいくつかあります。

しかし、最良のオプションは、ハムのみを含む2番目のデータセットのキュレーションに時間をかけることです。これにより、分類の精度が向上します。ハムメールへのスパムの割合が低いと仮定すると、それは難しくありません。時間やリソースが不足している場合(またはインターン\卒業生やその他の安い労働力)、Mechanical Turkを使用することもできます。


ご回答有難うございます。これは、生成モデルが識別モデルでは実行できないことを実行できることの良い例です。
nassimhddd 2014
弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.