より大きなデータセットの感情分析アルゴリズムを最適化する方法

8

私は感情分析の初心者で、ベイジアンオピニオンマイニングのための優れたリソースと、それを自己改善させる方法を見つけました。しかし、最適な分析が提供されたデータセットに依存しているかどうか、そして自己改善は既知のパターンをデータセットに追加することになるので（私の理解）、アプリケーションがやがて巨大なデータセットで過負荷にならないのではないかと思っていました。より多くのパターンが毎日データセットに追加される時間ですか？アプリケーションをスケーラブルにするための適切なアプローチは何ですか（適切な場所で適切な用語を使用している場合）。

architecture programming-practices

— Gentrobot
ソース

3

これはあなたが探しているものかもしれません。しかし、Javaが選択肢かどうかはわかりません。したがってコメント。mahout.apache.org。それはスケーラブルであり、あなたが使用できる多くのアルゴリズムを持っています。

— おもちゃ

1

ここで取っているデータセットの大きさはどれくらいですか？テラバイトの新しいデータを扱う場合、Mahoutが最適です。あまりにもHadoopのを見てみましょう

— ダンCiborowski - MSFT

1

ラベルを手動で割り当てる、最初に教師付きトレーニングステージを持つテキスト分類子を作成しているようです。モデルのパフォーマンスが高い（高精度で再現性が高い）ため、新しい入力文字列に対する教師なしのトレーニングプロセスで初期トレーニングモデルを補足する必要があります。

これらの新しい入力には既知の信号（以前に見た単語）があるため、モデルはうまく機能しますが、未知の信号（以前に見たことのない単語）も含まれます。監視なしのトレーニングプロセスで、これらの新しい単語を既知の単語と関連付けて、「学習」する必要があります。このようにして、新しい単語と既知の単語の関連付けが正しいことを信頼します。言語処理は非常に難しいので、おそらく監視された環境では除外/修正されていたであろう偽陽性の関連付けを自動的に生成します。したがって、教師なし学習を行うと、精度が低下するリスクがあります。

あなたの質問は、大量のデータで「過負荷」になることです。これはかなりの懸念事項であり、データサイズ、実装の選択、およびシステム動作の期待に大きく依存します。大量のデータを処理する際の応答性と扱いやすさは1つですが、感情ラベリングアルゴリズムの精度と再現率がおそらく最も重要だと思います。

あなたがリンクした記事では、「高い信頼度」がある場合にのみ教師なしの関連付けが考慮されるようにする信頼度スコアがあります。これは良いことですが、時間の経過とともに全体的な精度が低下するリスクがまだあります。システムの精度と再現率を定期的に評価し、再トレーニングする必要があります。コメントの「悪いサンタ」の例は良い例です。はるかに大きなデータセットで適切に機能することを信頼する前に、半教師ありトレーニングについて読み、小さなデータセットでこのラベル付けを正しく行うことをお勧めします。言語処理が難しい！

— 答え
ソース

0

品詞タグ付けなどの他のタスクでは、セルフトレーニング後の凝縮により、モデルが小さくなり、改善されました！スケーラビリティの問題を特定した場合は、コードを最適化する前に、この方法を最初に確認してください。

アイデアは、自己トレーニング後、最初は空のモデルを繰り返し作成することです。次に、データモデルが正しく分類されなかった場合にのみ、新しいモデルにデータポイントを追加します。これにより、過剰適合を回避し、モデルをできるだけ小さく保つことができます。

— クエンティンプラデット
ソース