テキスト分類の問題に対処する必要があります。Webクローラーは、特定のドメインのWebページをクロールします。Webページごとに、特定の1つのクラスのみに属しているかどうかを確認します。つまり、このクラスをPositiveと呼ぶと、クロールされた各WebページはPositiveクラスまたはNon-Positiveクラスに属します。
クラスPositiveのWebページの大きなトレーニングセットが既にあります。しかし、可能な限り代表的な非陽性クラスのトレーニングセットを作成する方法は?つまり、基本的にそのクラスにすべてを使用できます。確実にクラスPositiveに属さない任意のページを収集できますか?テキスト分類アルゴリズム(私はNaive Bayesアルゴリズムを使用することを好みます)のパフォーマンスは、Non-Positiveクラスに選択したWebページに大きく依存すると確信しています。
だから私は何をしますか?誰かアドバイスをください。どうもありがとうございました!