1クラスのテキスト分類を行う方法


14

テキスト分類の問題に対処する必要があります。Webクローラーは、特定のドメインのWebページをクロールします。Webページごとに、特定の1つのクラスのみに属しているかどうかを確認します。つまり、このクラスをPositiveと呼ぶと、クロールされた各WebページはPositiveクラスまたはNon-Positiveクラスに属します。

クラスPositiveのWebページの大きなトレーニングセットが既にあります。しかし、可能な限り代表的な非陽性クラスのトレーニングセットを作成する方法は?つまり、基本的にそのクラスにすべてを使用できます。確実にクラスPositiveに属さない任意のページを収集できますか?テキスト分類アルゴリズム(私はNaive Bayesアルゴリズムを使用することを好みます)のパフォーマンスは、Non-Positiveクラスに選択したWebページに大きく依存すると確信しています。

だから私は何をしますか?誰かアドバイスをください。どうもありがとうございました!


実際には、2つのクラスがあるため、これは2クラスクラスタリングです。1つのクラスには1つのクラスしかなく、観測値がデータにどの程度適合するかを評価する(つまり、外れ値を検出する)ことに関心があります。
ティム

この学習問題には名前があります-PU学習。これは、肯定的な例が簡単に取得できるか自然に取得できるのに自然に使用されますが、基本的には否定的なものがすべて残ります(取得が難しい)。原則として、標準の2クラス分類子を学習しますが、基準は異なります-PR曲線の下の領域を最適化します。このソフトウェアパッケージを使用すると、このような分類子code.google.com/p/sofia-ml
Vladislavs Dovgalecs

回答:


5

スパイEMアルゴリズムは、まさにこの問題を解決します。

S-EMは、正のラベルのない例(負の例はなし)から学習するテキスト学習または分類システムです。「スパイ」技術、単純ベイズ、EMアルゴリズムに基づいています。

基本的な考え方は、ポジティブセットとランダムにクロールされたドキュメントの束を組み合わせることです。最初に、すべてのクロールされたドキュメントをネガティブクラスとして扱い、そのセットで単純なベイズ分類器を学習します。これらのクロールされたドキュメントの一部は実際にポジティブになり、最低スコアの真のポジティブドキュメントよりも高いスコアが付けられたドキュメントに控えめにラベルを付け直すことができます。その後、安定するまでこのプロセスを繰り返します。


どうもありがとう、それは非常に有望に思えます。調べてみます。
ペミスタール

6

1クラス分類に関する優れた論文を次に示します。

  • 税、DM:ワンクラス分類-反例のない概念学習、博士論文、Technische Universiteit Delft、2001。(pdf

この論文では、データを分離する超平面ではなく、データの周りの最小の超球面を検出する1クラスのサポートベクターマシンであるサポートベクターデータ記述(SVDD)の方法を紹介します。

論文では、他の1クラス分類子もレビューしています。


サイト@nubへようこそ。統計情報の永続的なリポジトリを構築したいと考えています。そのため、linkrotの可能性を心配しています。リンクが機能しなくなった場合に備えて、その論文の情報の要約を教えてもらえますか?
GUNG -復活モニカ

まとめてくれてありがとう。アカウントを登録して統合してください(ヘルプセンターの[アカウント]セクションで確認できます)。その後、自分の投稿を編集およびコメントできるようになります。
GUNG -復活モニカ

@gungどうもありがとう。StackOverflow自体に「Yearling」バッジを受け取ったことに興奮しているので、今ではどこでもコメントできます。
JosiahYoder-非アクティブ..除き、

@JosiahYoder、あなたがここのOPなら、アカウントをマージしてください。ヘルプセンターの[アカウント]セクションで方法を確認できます。
GUNG -復活モニカ

私はOPではありません。この質問に出くわしたランダムなSOユーザー。
JosiahYoder-非アクティブ..除き、

1

優れたトレーニングには、個々のクラスの確率の優れた推定値を提供するデータが必要です。すべての分類問題には、少なくとも2つのクラスが含まれます。あなたの場合、2番目のクラスは、ポジティブクラスに属さない人です。ベイズまたは他の適切な方法を使用して適切な決定境界を形成するには、クラスからランダムに選択されたできるだけ多くのトレーニングデータを使用するのが最適です。非ランダム選択を行うと、クラスの条件付き密度/分布の形状を実際に表さないサンプルが得られ、決定境界の選択が不適切になる可能性があります。


1
あなたは正しい、これはまさに私を悩ますものです。適切な決定境界につながる非陽性サンプルのサンプルを選択するにはどうすればよいですか?ランダム選択を行うのが最善ですか?
ペミスタール

0

マイケルに同意します。

ランダム選択に関する質問について。はい:「ポジティブ」の補完的なセットからランダムに選択する必要があります。あなたの「ポジティブ」が「純粋なポジティブ」として完全に定義されていない可能性があるという混乱がある場合、そのフレーズを使用する場合は、少なくとも何らかの種類のポジティブの定義を試して、 「ポジティブ」の定義に潜在的に何らかの汚染を生じさせる変数の制御。この場合、「非正」側でも同じ変数で対応して一致する必要があります。


0

興味深い記事は次のとおりです。

「拡張された最近縮められた重心の分類:さまざまなサイズのテキストのオープンセット著者帰属属性の新しい方法」、Schaalje、Fields、Roper、およびSnow。文学および言語コンピューティング、vol。26、No。1、2011年。

これは、著者のセットにテキストを帰属させる方法を取り、真の著者が候補セットにない可能性を使用するためにそれを拡張します。NSC方式を使用しない場合でも、この論文のアイデアは、どのように進めるかを考えるのに役立ちます。

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.