算術平均が幾何平均に非常に近い場合、データについて何を結論付けることができますか?


24

幾何平均と算術平均について、互いに非常に近いもの、たとえば〜0.1%に重要なものはありますか?そのようなデータセットについてどのような推測をすることができますか?

私はデータセットの分析に取り組んできましたが、皮肉なことに、値は非常に近いことがわかりました。正確ではないが、近い。また、算術平均幾何平均不等式の簡単な健全性チェックとデータ収集のレビューにより、値をどのように考え出したかという点で、データセットの整合性について怪しいものはないことが明らかになりました。


6
小さなメモ:まず、データがすべてポジティブであることを確認してください。負の値が偶数の場合、正の製品が残る可能性があり、一部のパッケージは潜在的な問題にフラグを立てない場合があります(AM-GM不等式は値がすべて正であることに依存します)。(Rで)、例えば: (算術平均は1である)x=c(-5,-5,1,2,3,10); prod(x)^(1/length(x)) [1] 3.383363
Glen_b -Reinstateモニカ

1
@Glen_bの点を詳しく説明するために、データセット常に等しい算術平均と幾何平均、つまりゼロがあります。ただし、3つの値を望みどおりに広げることができます。{x,0,x}
ハードマス

算術平均と幾何平均は同じ一般化された式を持ち、は前者を、は後者を与えます。その後、データ値がますますすべて等しくなり、定数に近づくと、2つが互いに近づいていくことが直感的に明らかになります。p 0 xp=1p0x
ttnphns

回答:


29

算術平均は、算術平均幾何幾何平均(AMGM)の不等式を通じて幾何平均に関連しています。

x1+x2++xnnx1x2xnn,

ここで、場合に等しいことが達成されます。したがって、おそらくデータポイントはすべて非常に近いものです。x1=x2==xn


4
これは正しいです。通常、値の分散が小さいほど、2つの平均値は近くなります。
マイケルM

16
分散は、観測値のサイズと比較して小さくなければなりません。したがって、小さくする必要があるのは変動係数です。σ/μ
マイケル・ハーディ

1
AMGMは何かを表しますか?もしそうなら、それを綴ってもらうといいでしょう。
リチャードハーディ

@RichardHardy:AMGM「の算術平均-幾何平均」の略

1
@ user1108、ありがとう、実際には、他の投稿を読んだ後に得た。(コメントだけでなく)答えの中に綴ることができると思います。
リチャードハーディ

15

@Alex Rの答えを詳しく説明すると、AMGMの不平等を確認する1つの方法は、ジェンセンの不平等効果です。ジェンセンの不等式により: 次に、両側の指数関数を取得します: 1

log(1nixi)1nilogxi
1nixiexp(1nilogxi)

以来、右側は幾何平均です。(x1x2xn)1/n=exp(1nilogxi)

AMGMの不等式は、いつほぼ同等になりますか?ジェンセンの不等効果が小さい場合。ここでジェンセンの不平等効果を促進するのは、凹、対数の曲率です。対数に曲率がある領域にデータが分散している場合、効果は大きくなります。対数が基本的にアフィンである領域にデータが分散している場合、影響はわずかです。

たとえば、データの変動がほとんどなく、十分に小さい近傍にまとめられている場合、対数はその領域のアフィン関数のようになります(微積分のテーマは、滑らかで連続的な関数に十分にズームインすると、それは線のように見えます)。データが十分に近い場合、データの算術平均は幾何平均に近くなります。


12

レッツの範囲を調べるそれらの算術平均(AM)が小さい倍数であることを考えると1 + δ(との幾何平均(GM)のδ 0)。質問では、δ 0.001しかし、我々は知らないのnx1x2xn1+δδ0δ0.001n

測定単位を変更してもこれらの平均の比率は変わらないため、GMが単位を選択します。したがって、我々は最大にするためにシークX nは制約を受けるxは1 + X 2 + + X N = N 1 + δ X 1X 2X N = 11xnx1+x2++xn=n(1+δ)x1x2xn=1

これは、ことによって行われる、言うと、X N = Z X。かくしてx1=x2==xn1=xxn=zx

n(1+δ)=x1++xn=(n1)x+z

そして

1=x1x2xn=xn1z.

間ルートで01x01

(1n)xn+n(1+δ)xn11.

簡単に繰り返し見つけることができます。ここで、最適ののグラフでZの関数としてのδのためには、N = 6 20 50 150、左から右へ:xzδn=6,20,50,150

Figure

がかなりのサイズに達するとすぐに、1.001という小さな比率であっても、1つの大きな外側のx n(上部の赤い曲線)および密集したx iのグループ(下部の青い曲線)と一致します。n1.001xnxi

他の極端な場合、が偶数であると仮定します(簡単にするため)。半とき最小範囲が達成され、xがiを一つの値に等しく、X 1と他の半分を別の値に等しくZ 1。解決策(簡単に確認できます)はn=2kxix1z1

xk=1+δ±δ2+2δ.

小さいため、我々は無視することができるδ 2を近似値として、また、近似のk 番目の一次へのルートを与えδδ2kth

x1+δ2δk; z1+δ+2δk.

範囲は約32δ/n

この方法で、データの可能な範囲の上限と下限を取得しました。 データ量に大きく依存していることがわかりました。上限は、範囲がごく小さなδでも認識できることを示しており、それにより、データポイントが実際に互いにどれだけ近くにある必要があるかという感覚が向上し、範囲にも下限が設定されています。nδ

同様の分析を簡単に実行することで、分散や変動係数など、スプレッドの他の尺度に関してx iがどれだけ密にクラスター化されているかを定量的に知ることができます。xi


右手のグラフの右側には、あなたが持っているように見える。私は、これらの値を与えるように見えるあなたの述べた式の近似値の近くにあるかが表示されないのx 0.99918をZ 1.00087。おそらく私は誤解しているn=150,δ=0.002,x0.9954,z1.983,k=75x0.99918,z1.00087
ヘンリー

@ヘンリー、どうやってこれらの数字を思いついたのかわかりません。場合、要件はそのX 149、Z = 1149は、X + Z = 150 1.002で= 150.3を。これらのどちらも、指定した値に対して真ではありません。x = 0.995416およびz = 1.98308をプラグインすると、正しい値が得られます。n=150x149z=1149x+z=150(1.002)=150.3x=0.995416z=1.98308
whuber

私はあなたのように私には見えるもの試みたと同様のため、X。しかし今、私はこれが別の質問に答えていることがわかりましたz1+δ+2δk=1+0.002+2×0.002751.00087x
ヘンリー

@Henryこれは別の問題を解決します。これらは最小範囲を与えるです。私はそれらのグラフを投稿しませんでした。確かに、あなたとおよびzの我々は75 のx + 75 のz 150.3およびX 75 Z 751を必要に応じて、。xz75x+75z150.3x75z751
whuber
弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.