統計とビッグデータ bag-of-words

単語頻度データの分散を測定する方法は？

単語数のベクトルの分散量をどのように定量化できますか？頻繁に発生するさまざまな単語が多く含まれているため、ドキュメントAで高く、頻繁に発生する1つの単語（またはいくつかの単語）が含まれているため、ドキュメントBで低くなる統計を探しています。より一般的には、公称データの分散または「広がり」をどのように測定しますか？テキスト分析コミュニティでこれを行う標準的な方法はありますか？

10 variance natural-language gini dispersion bag-of-words

タグ付けされた質問 「bag-of-words」

タグ付けされた質問「bag-of-words」