回答:
はい。ただし、より多くの特徴が生成されます。ノイズが多すぎて分類子を溺れさせないように、カットオフ(たとえば、データセットで5回未満しか発生しないバイグラムや単語などの特徴を破棄する)を適用することが重要な場合があります特徴。
バイグラムの数は、相互情報が肯定的なものだけを選択することで減らすことができます。
これは、INEX XMLマイニングトラックhttp://www.inex.otago.ac.nz/tracks/wiki-mine/wiki-mine.aspでバイグラム表現のバッグを生成するために行われました。
私たちが試みなかったのは、バイグラムの重み付けに用語間の相互情報を使用することです。参照https://en.wikipedia.org/wiki/Pointwise_mutual_information、https://www.eecis.udel.edu/~trnka/CISC889-11S/lectures/philip-pmi.pdfとのhttp://www.nltkを。バイグラムの個別の相互情報のより良い説明については、org / howto / collocations.html。
/programming/20018730/computing-pointwise-mutual-information-of-a-text-document-using-pythonおよび/programming/22118350/python-sentiment-analysisを参照してくださいこれに関連する他の質問のための個別の相互情報の使用。
ランダムな投影を使用してデータの次元を削減すると、機能を格納するために必要なスペース(https://en.wikipedia.org/wiki/Random_projection)を削減するのに役立つ場合があります。それは非常によくスケーリングし、すべての例は、PCA、SVD、Sammon Maps、NMFなどの直接最適化手法なしで、独立して低次元空間に投影できます。