バイグラム(N-gram)モデルを使用したテキストドキュメントの特徴ベクトルの構築について


10

テキストマイニングの機能構築の従来のアプローチはバッグオブワードアプローチであり、tf-idfを使用して、特定のテキストドキュメントを特徴付ける特徴ベクトルを設定することで拡張できます。現在、バイグラム言語モデルまたは(N-gram)を使用して特徴ベクトルを構築しようとしていますが、その方法がよくわかりませんか?単語の代わりにバイグラムで頻度カウントを計算し、tf-idf重み付けスキームを使用してそれを強化する、つまり、bag-of-wordsのアプローチに従うことはできますか?

回答:


4

はい。ただし、より多くの特徴が生成されます。ノイズが多すぎて分類子を溺れさせないように、カットオフ(たとえば、データセットで5回未満しか発生しないバイグラムや単語などの特徴を破棄する)を適用することが重要な場合があります特徴。


ありがとう。バイグラム(N-gram)で各特徴値を計算するという私の一般的な考え方は正しいということですか?つまり、bag-of-wordsとN-gramモデルの特徴値の計算に大きな違いはありません。説明をありがとう。
user3125 2012

はい、すべてのバイグラム+ユニグラム(単語)の両方を機能の大きなバッグで使用できます(カットオフレベルで最も頻度の低いものをトリミングする限り)。
ogrisel

3

バイグラムの数は、相互情報が肯定的なものだけを選択することで減らすことができます。

これは、INEX XMLマイニングトラックhttp://www.inex.otago.ac.nz/tracks/wiki-mine/wiki-mine.aspでバイグラム表現のバッグを生成するために行われました。

私たちが試みなかったのは、バイグラムの重み付けに用語間の相互情報を使用することです。参照https://en.wikipedia.org/wiki/Pointwise_mutual_informationhttps://www.eecis.udel.edu/~trnka/CISC889-11S/lectures/philip-pmi.pdfのhttp://www.nltkを。バイグラムの個別の相互情報のより良い説明については、org / howto / collocations.html

/programming/20018730/computing-pointwise-mutual-information-of-a-text-document-using-pythonおよび/programming/22118350/python-sentiment-analysisを参照してくださいこれに関連する他の質問のための個別の相互情報の使用。


デッドリンク:-( ...
Renaud

1
@Renaudリンクが更新されました:-)
Chris de Vries

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.