私は現在、単一の単語からテキストの全ページまで、ドキュメントの長さの範囲が広いデータセットを使用しています。さらに、文法構造と句読点の使用は、文書によって大きく異なります。目標は、これらのドキュメントを約10〜15のカテゴリのいずれかに分類することです。現在、タスクにはリッジ回帰とロジスティック回帰を使用しており、リッジのアルファ値にはCVを使用しています。特徴ベクトルはtf-idf ngramです。
最近、長いドキュメントは分類される可能性がはるかに低いことに気付きました。なぜこれが当てはまるのでしょうか。また、この種の変動をどのように「正規化」できるのでしょうか。より一般的な質問として、一般的にどのようにして多様なデータセットを処理しますか?ドキュメントは、ドキュメントの長さ、句読点の使用、文法の厳密さなどのメトリックに基づいてグループ化され、さまざまな分類子を通じてフィードされますか?