ラベルを手動で割り当てる、最初に教師付きトレーニングステージを持つテキスト分類子を作成しているようです。モデルのパフォーマンスが高い(高精度で再現性が高い)ため、新しい入力文字列に対する教師なしのトレーニングプロセスで初期トレーニングモデルを補足する必要があります。
これらの新しい入力には既知の信号(以前に見た単語)があるため、モデルはうまく機能しますが、未知の信号(以前に見たことのない単語)も含まれます。監視なしのトレーニングプロセスで、これらの新しい単語を既知の単語と関連付けて、「学習」する必要があります。このようにして、新しい単語と既知の単語の関連付けが正しいことを信頼します。言語処理は非常に難しいので、おそらく監視された環境では除外/修正されていたであろう偽陽性の関連付けを自動的に生成します。したがって、教師なし学習を行うと、精度が低下するリスクがあります。
あなたの質問は、大量のデータで「過負荷」になることです。これはかなりの懸念事項であり、データサイズ、実装の選択、およびシステム動作の期待に大きく依存します。大量のデータを処理する際の応答性と扱いやすさは1つですが、感情ラベリングアルゴリズムの精度と再現率がおそらく最も重要だと思います。
あなたがリンクした記事では、「高い信頼度」がある場合にのみ教師なしの関連付けが考慮されるようにする信頼度スコアがあります。これは良いことですが、時間の経過とともに全体的な精度が低下するリスクがまだあります。システムの精度と再現率を定期的に評価し、再トレーニングする必要があります。コメントの「悪いサンタ」の例は良い例です。はるかに大きなデータセットで適切に機能することを信頼する前に、半教師ありトレーニングについて読み、小さなデータセットでこのラベル付けを正しく行うことをお勧めします。言語処理が難しい!