単語頻度データの分散を測定する方法は?


10

単語数のベクトルの分散量をどのように定量化できますか?頻繁に発生するさまざまな単語が多く含まれているため、ドキュメントAで高く、頻繁に発生する1つの単語(またはいくつかの単語)が含まれているため、ドキュメントBで低くなる統計を探しています。

より一般的には、公称データの分散または「広がり」をどのように測定しますか?

テキスト分析コミュニティでこれを行う標準的な方法はありますか?

ここに画像の説明を入力してください

ここに画像の説明を入力してください

回答:


10

pipia[ln(1/pi)]b

  1. a=0,b=0

  2. a=2,b=01pi21/pi2k1/kpi2=k(1/k)2=1/kk

  3. a=1,b=1Hexp(H)kH=k(1/k)ln[1/(1/k)]=lnkexp(H)=exp(lnk)k

公式はIJ Goodにあります。1953年。種の個体数頻度と個体数パラメーターの推定。Biometrika 40:237-264。 www.jstor.org/stable/2333344

対数の他の底(たとえば、10または2)は、好み、前例、または便宜に応じて同様に可能であり、上記のいくつかの式にはほんの簡単なバリエーションが含まれています。

2番目の測定の独立した再発見(または再発明)は、複数の分野にわたって多様であり、上記の名前は完全なリストからはほど遠いものです。

家族の一般的な対策を一緒に結びつけることは、数学的に穏やかなだけではありません。それは、希少かつ一般的なアイテムに適用される相対的な重みに応じて測定の選択があることを強調し、そのため、明らかに恣意的な提案のわずかな大量によって作成されたアドホッカリーの印象を減らします。一部の分野の文献は、著者によって支持されたいくつかの尺度が誰もが使用する必要のある最良の尺度であるという希薄な主張に基づく論文や本でさえ弱体化しています。

私の計算では、例AとBは最初の測定を除いてそれほど違いはないことがわかります。

----------------------------------------------------------------------
          |  Shannon H      exp(H)     Simpson   1/Simpson      #items
----------+-----------------------------------------------------------
        A |      0.656       1.927       0.643       1.556          14
        B |      0.684       1.981       0.630       1.588           9 
----------------------------------------------------------------------

(シンプソン(エドワードヒューシンプソン、1922-)という名前のシンプソンは、シンプソンのパラドックスという名前で称えられたものと同じであることに関心を持っている人もいます。彼は優れた研究をしましたが、彼は指名され、それは今度はスティグラーのパラドックスであり、それは今度は...)


これは素晴らしい答えです(そして、1953年のグッドペーパーよりもはるかに簡単に追跡できます;))。ありがとうございました!
dB '

7

それを行う一般的な方法があるかどうかはわかりませんが、これは経済学における不平等の質問に似ています。各単語を個人として扱い、それらの数を収入に匹敵するものとして扱う場合、単語のバッグが、同じ数(完全に等しい)を持つすべての単語の両極端の間、またはすべての数を持つ1つの単語の間のどこにあるかを比較することに興味があります。そして他の皆はゼロ。「ゼロ」が表示されないという厄介な問題は、通常定義されているように、単語のバッグに1未満のカウントを含めることはできません...

Aのジニ係数は0.18で、Bのジニ係数は0.43です。これは、AがBよりも「等しい」ことを示しています。

library(ineq)

A <- c(3, 2, 2, rep(1, 11))
B <- c(9, 2, rep(1, 7))
Gini(A)
Gini(B)

他の答えにも興味があります。カウントの古い形式の分散も開始点になることは明らかですが、異なるサイズのバッグ、したがって単語ごとの異なる平均カウントに対して比較可能にするために、なんらかの方法でスケーリングする必要があります。


良い呼び出し-ジニ係数も私の最初の考えでした!しかし、Googleの学者で検索したところ、テキストデータで使用するための前例はあまり見つかりませんでした。NLP /テキスト検索コミュニティがこの種のもののためのより標準的な尺度を持っているのだろうか...
dB '

気をつけてください:私のカウントでは、ジニは少なくとも3つの異なる測定の名前として与えられました。歴史はいずれの場合も弁護可能ですが、人々は使用された公式を見る必要があります。
Nick Cox

1
良い点@NickCox-不平等に使用されているように、私はこれを考えていましたが、これが最も一般的な使用法だと思います:ellisp.github.io/blog/2017/08/05/weighted-giniさまざまな方法を見てきましたそれを推定/計算しますが、このコンテキストではすべて同じ基本定義を使用します。機械学習の人々が別の何かにそれを使用することを知っていますが、彼らの言い訳を見ていません...
ピーターエリス

1
@Db」私は、テキストアプリケーションでジニを使用して、この論文が見つかりました:proceedings.mlr.press/v10/sanasam10a/sanasam10a.pdfを (私が受け入れられたものにこの答えを好む、それはあなたのAを区別する最高の仕事をして単にとB)!
ダレン・クック

5

この記事では、言語学者が使用する標準的な分散対策について概説します。それらは単一の単語分散測定としてリストされます(セクション、ページなどにわたる単語の分散を測定します)が、単語頻度分散測定として使用できると考えられます。標準的な統計的なものは次のようです:

  1. 最大最小
  2. 標準偏差
  3. CV
  4. χ2

古典は次のとおりです。

  1. D=1CVn1
  2. S=N(i=1nni)2n
  3. D2=(log2Ni=1nnilog2niN)/log2(n)
  4. D3=1χ24N

Nnni

このテキストでは、さらに2つの分散の尺度についても言及していますが、それらは単語の空間配置に依存しているため、バッグオブワードモデルには適用できません。

  • :公式を標準の表記法とより一致させるために、元の表記法を記事から変更しました。

fxi

vi

1
ソースからの方程式が正確にコピーされないのはなぜですか?
Sextus Empiricus

@NickCoxよろしくお願いします。定義された数量のみを含むように数式を修正しました。
Chris Novak

@MartijnWeterings元々、記事は単一の単語の分散メトリックを扱っていましたが、それらは単語の頻度に簡単に一般化されているようです。念のため、その情報を回答に含めました。私はこれらを単語モデルのバッグに適用できるように元の表記法を変更しました(fをNに、v_iをn_iに置き換えます)。これを示すためにメモを追加しましたが、それでも誤解を招くと思われる場合は、回答の正当性を長くすることができます。
Chris Novak

4

最初に行うのは、シャノンのエントロピーを計算することです。Rパッケージinfotheo、関数を使用できますentropy(X, method="emp")。ラップnatstobits(H)すると、このソースのエントロピーがビット単位で取得されます。


3

p(p1,...,pn)

H¯(p)pilnpilnn.

これは、範囲スケールされたメジャーです。シャノンエントロピーは情報の尺度であり、スケーリングされたバージョンでは、カテゴリの数が異なるケースを比較できます。0H¯(p)1

  • 極端な不平等:すべてのカウントはいくつかのカテゴリます。この場合、あり、これによります。Pのiは = IIは= K ˉ HP = 0kpi=I(i=k)H¯(p)=0

  • 極端な平等:すべてのカウントはすべてのカテゴリで同じです。この場合、あり、これによります。ˉ HP = 1pi=1/nH¯(p)=1

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.