回答:
公式はIJ Goodにあります。1953年。種の個体数頻度と個体数パラメーターの推定。Biometrika 40:237-264。 www.jstor.org/stable/2333344。
対数の他の底(たとえば、10または2)は、好み、前例、または便宜に応じて同様に可能であり、上記のいくつかの式にはほんの簡単なバリエーションが含まれています。
2番目の測定の独立した再発見(または再発明)は、複数の分野にわたって多様であり、上記の名前は完全なリストからはほど遠いものです。
家族の一般的な対策を一緒に結びつけることは、数学的に穏やかなだけではありません。それは、希少かつ一般的なアイテムに適用される相対的な重みに応じて測定の選択があることを強調し、そのため、明らかに恣意的な提案のわずかな大量によって作成されたアドホッカリーの印象を減らします。一部の分野の文献は、著者によって支持されたいくつかの尺度が誰もが使用する必要のある最良の尺度であるという希薄な主張に基づく論文や本でさえ弱体化しています。
私の計算では、例AとBは最初の測定を除いてそれほど違いはないことがわかります。
----------------------------------------------------------------------
| Shannon H exp(H) Simpson 1/Simpson #items
----------+-----------------------------------------------------------
A | 0.656 1.927 0.643 1.556 14
B | 0.684 1.981 0.630 1.588 9
----------------------------------------------------------------------
(シンプソン(エドワードヒューシンプソン、1922-)という名前のシンプソンは、シンプソンのパラドックスという名前で称えられたものと同じであることに関心を持っている人もいます。彼は優れた研究をしましたが、彼は指名され、それは今度はスティグラーのパラドックスであり、それは今度は...)
それを行う一般的な方法があるかどうかはわかりませんが、これは経済学における不平等の質問に似ています。各単語を個人として扱い、それらの数を収入に匹敵するものとして扱う場合、単語のバッグが、同じ数(完全に等しい)を持つすべての単語の両極端の間、またはすべての数を持つ1つの単語の間のどこにあるかを比較することに興味があります。そして他の皆はゼロ。「ゼロ」が表示されないという厄介な問題は、通常定義されているように、単語のバッグに1未満のカウントを含めることはできません...
Aのジニ係数は0.18で、Bのジニ係数は0.43です。これは、AがBよりも「等しい」ことを示しています。
library(ineq)
A <- c(3, 2, 2, rep(1, 11))
B <- c(9, 2, rep(1, 7))
Gini(A)
Gini(B)
他の答えにも興味があります。カウントの古い形式の分散も開始点になることは明らかですが、異なるサイズのバッグ、したがって単語ごとの異なる平均カウントに対して比較可能にするために、なんらかの方法でスケーリングする必要があります。
この記事では、言語学者が使用する標準的な分散対策について概説します。それらは単一の単語分散測定としてリストされます(セクション、ページなどにわたる単語の分散を測定します)が、単語頻度分散測定として使用できると考えられます。標準的な統計的なものは次のようです:
古典は次のとおりです。
このテキストでは、さらに2つの分散の尺度についても言及していますが、それらは単語の空間配置に依存しているため、バッグオブワードモデルには適用できません。
最初に行うのは、シャノンのエントロピーを計算することです。Rパッケージinfotheo
、関数を使用できますentropy(X, method="emp")
。ラップnatstobits(H)
すると、このソースのエントロピーがビット単位で取得されます。