有界データセットの変動係数の最大値


17

標準偏差が平均を超えることができるかどうかに関する最近の質問に続く議論では、1つの質問が簡潔に提起されましたが、完全に回答されませんでした。だから私はここでそれを求めています。

非負数セットを考えます。 ここで、です。が別個である必要はありません。つまり、セットがマルチセットである可能性があります。セットの平均と分散は、として定義され および標準偏差はです。数値のセットは母集団からのサンプルではなく、母平均または母分散を推定していないことに注意してください。質問は次のとおりです。nxi0xic1inxi

x¯=1ni=1nxi,  σx2=1ni=1n(xix¯)2=(1ni=1nxi2)x¯2
σx

区間ののすべての選択に対する、変動係数の最大値は何ですか?σxx¯xi[0,c]

の最大値は これは、の値がで、残りの(外れ値)値 が値、 しかし、これはにまったく依存せず、おそらくncの両方に依存する大きな値を達成できるかどうか疑問に思っています。σxx¯n1n1xi0xic

x¯=cn,  1nxi2=c2nσx=c2nc2n2=cnn1.
cnc

何か案は?この質問は以前に統計文献で研究されてきたと確信しているので、実際の結果ではないとしても参考文献をいただければ幸いです。


それが可能な最大の値であることについてあなたは正しいと思うし、cが重要でないことにも驚いている。涼しい。
ピーターフロム-モニカを回復

7
cは、すべての値に任意の正の定数kを掛けてもσxx¯が変化しないため、結果に影響を与えません。k
ヘンリー

回答:


15

ジオメトリは洞察を提供し、古典的な不等式は厳密に簡単にアクセスできます。

幾何学的なソリューション

我々から、知っている最小二乗幾何こと、ベクトルの直交投影であります定数ベクトルによって生成された線形部分空間へのデータ、は(ユークリッド)距離に正比例する間と 非負性の制約は線形であり、距離は凸関数であるため、制約によって決定されるコーンのエッジで距離の極値に到達する必要があります。この円錐はの正のオルタントですX=X1X2···XのN11...1σXX ˉ Xx¯=(x¯,x¯,,x¯)x=(x1,x2,,xn)(1,1,,1)σxxR nは、X I σ X / ˉ X = x¯.Rnそのエッジは座標軸であり、 1つを除くすべてが最大距離でゼロでなければならないことがすぐに続きます。このようなデータセットの場合、直接(単純)計算ではxiσx/x¯=n.

古典的な不等式を活用したソリューション

σx/x¯は、その単調変換と同時に最適化されます。これを踏まえて、最大化しましょう

x12+x22++xn2(x1+x2++xn)2=1n(n1n(σxx¯)2+1)=f(σxx¯).

(の式は、を代数的に操作して単純な見た目の形(左側)に変換するステップを記録するまで、神秘的に見えるかもしれません。)σ X / ˉ Xfσx/x¯

簡単な方法は、ホルダーの不等式から始まります。

x12+x22++xn2(x1+x2++xn)max({xi}).

(これはこの単純なコンテキストでは特別な証明を必要としません:各項 1つの要素を最大成分で置き換えるだけです:明らかに二乗和は減少しません。一般的な用語は、不等式の右側を生成します。)xi2=xi×ximax({xi})max({xi})

はすべてはないため(未定義のままになります)、合計の2乗による除算は有効であり、同等の不等式を与えます。xi0σx/x¯

x12+x22++xn2(x1+x2++xn)2max({xi})x1+x2++xn.

分母は分子(それ自体は分母の項の1つ)より小さくすることはできないため、右側は値によって支配されます。これは、 1つを除くすべてが等しい場合にのみ達成され。ホセ1 0xi0

σxx¯f1(1)=(1×(n1))nn1=n.

代替アプローチ

は負ではなく、合計してできないため、値は確率分布を決定します。の合計にを書き込むと、認識されます 0 P I = X I /X 1 + X 2 + ... + X NF { 1 2 ... N } X Ixi0p(i)=xi/(x1+x2++xn)F{1,2,,n}sxi

x12+x22++xn2(x1+x2++xn)2=x12+x22++xn2s2=(x1s)(x1s)+(x2s)(x2s)++(xns)(xns)=p1p1+p2p2++pnpn=EF[p].

確率がを超えることはできないという公理的事実は、この期待値も超えてはならないことを意味しますが、 1つ以外のすべてを設定することによりに等しくすることが簡単であり、したがって 1つはゼロ以外です。上記の幾何学的解の最後の行のように変動係数を計算します。1 1 p i 0 x i111pi0xi


私が多くを学んだ詳細な答えをありがとう!私は違い仮定あなたの答えとで Iが得られ(をヘンリーが確認された)ということは、あなたが使用していることに起因しているの定義として Iを使用しながらn σX=n1σXσX=
σx=1n1i=1n(xix¯)2
σx
σx=1ni=1n(xix¯)2?
ディリップサルワテ

1
はい、ディリップ、そうです。質問との不一致について申し訳ありません。最初にチェックして、を定義する必要がありました(これは実行するつもりでしたが、忘れていました)。σx
whuber

10

他の人のケーキの上の小さなろうそくとしてのいくつかの参照:

Katsnelson and Kotz(1957)は、すべてのである限り、変動係数が超えないことを証明しました。この結果は、Longley(1952)によって以前に言及されました。Cramér(1946、p.357)はそれほど鮮明でない結果を証明し、Kirby(1974)はそれほど一般的でない結果を証明しました。xi0n1

Cramér、H。1946 。統計の数学的方法。ニュージャージー州プリンストン:プリンストン大学出版局。

Katsnelson、J。、およびS. Kotz。1957年。変動性のいくつかの尺度の上限について。 気象学のアーカイブ、地球物理学および生物医学、シリーズB 8:103–107。

カービー、W。1974。サンプル統計の代数的有界性。水資源研究 10:220–222。

Longley、RW1952。降水量の変動性の測定。月例天気レビュー 80:111–117。

作業中にこれらの論文に出会いました

コックス、ニュージャージー州2010。サンプルの歪度と尖度の限界。Stata Journal 10:482-495。

これは、モーメントベースの歪度と尖度に関するほぼ同様の範囲について説明しています。


8

2つの数値、いくつかのおよび任意のます。 δ > 0 μxixjδ>0μ

(xi+δμ)2+(xjδμ)2(xiμ)2(xjμ)2=2δ(xixj+δ)>0.

これをの非負のデータポイントに適用すると、数値の1つを除くすべてがゼロであり、それ以上削減できない場合を除き、データポイントのペア間のギャップを広げることで分散と標準偏差を増加させることができます同じ平均を保持しながら、変動係数を増やします。したがって、データセットの最大変動係数は、提案されているとおりです:。のn nnn1

σ Xcは、すべての値に正の定数掛けても(コメントで述べたように)は変化しないため、結果に影響を与えません。 Kσxx¯k

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.