機械学習に関しては、私は初心者です。Pythonのscikit-learnライブラリを使用して、さまざまな教師あり学習アルゴリズムを分析することで、実際に体験してみます。これらのさまざまなアルゴリズムを使用した感情分析には、160万のツイートのsentiment140データセットを使用しています。
ばかげた質問かどうかはわかりませんが、2つのクラス(ポジティブとネガティブ)だけをトレーニングした場合、3つのクラス(ポジティブ、ネガティブ、ニュートラル)に分類できるかどうか疑問に思いました。sentiment140トレーニングセットは、合計で1.6Mツイートの2つのクラスだけ(正と負)で構成されていますが、それは私が考えるようになったので、そのテスト・セットは、三つのクラス(正、負と中立)を超える500件のツイートで構成されています。
これは可能ですか?はいの場合、ニュートラルなツイートを特定する方法を教えてください。直感的に、各クラスのテストセットで各分類されたツイートの条件付き確率を(predict_probaを使用して)見つけ、それがポジティブクラスとネガティブクラスの両方で特定のしきい値(たとえば0.7未満)を下回っている場合はニュートラルかどうかを判断できます。これは正しい方法ですか?
sentiment 140 training set
2つのクラスのみで構成される場合、トレーニングセットは3つのクラスで構成されます。その不明確。