SVMを使用してメッセージをさまざまなカテゴリに分類しようとしています。トレーニングセットの望ましい単語/記号のリストをまとめました。
メッセージを表す各ベクトルについて1
、単語が存在する場合に対応する行を設定します。
「コーパス」は次のとおりです。[メアリー、リトル、ラム、星、きらめき]
最初のメッセージ:「メアリーには小さな子羊がいた」-> [1 1 1 0 0]
2番目のメッセージ:「小さな星をきらめき」-> [0 1 0 1 1]
これはSVMでかなり一般的な設定だと思いますが、私の質問は、セットに数千の単語がある場合、実際に表示されるメッセージごとに1-2単語しかない場合はどうでしょうか?トレーニングベクトルのセットの線形依存性は、アルゴリズムの収束能力に悪影響を及ぼしますか?
flexmix
-しかし、私はここ数年、私のカレンダーに "Learn R"を持っています!