平均の信頼区間の近似誤差


15

ましょう{Xi}i=1nの値を取る確率変数IIDのファミリーである[0,1]平均を有する、μ及び分散σ2。平均、使用するためのシンプルな信頼区間σそれが知られるたびに、によって与えられ、

P(|X¯μ|>ε)σ2nε21nε2(1).

また、理由X¯μσ/nは、標準正規確率変数として漸近的に分布します。正規分布は、近似信頼区間を「構築」するために使用される場合があります。


複数の選択肢の回答の統計試験では、私はこの近似を使用する代わりにしなければならなかった(1)いつでもn30。近似誤差が定量化されていないため、私は常にこれを非常に不快に思っています(想像以上です)。


  • なぜではなく、正規近似を使用(1)

  • 私は盲目的にルール適用するには、二度と、したくないn30。そうすることを拒否し、適切な代替手段を提供するのに役立つ良い参考文献はありますか?((1)は、私が適切な代替案と考えるものの例です。)

ここで、σE[|X|3]は不明であり、簡単に制限されます。

私の質問は特に信頼区間に関する参照要求であるので、ここここで部分的な複製として提案された質問とは異なることに注意してください。そこでは答えられません。


2
あなたは、古典的な参考文献に近似を向上させるために持っているという事実利用することができるXiである(0,1)あなたが気づいたような瞬間に関する情報を提供します。魔法の道具は、ベリー・エッセンの定理になると信じています!
イヴ

1
これらの境界では、分散は0.25を超えてはならず、1をはるかに上回っていませんか?
カルロ

回答:


3

なぜ通常の近似を使用するのですか?

それは、少ない情報よりも多くの情報を使用する方が常に良いと言うのと同じくらい簡単です。式(1)はチェビシェフの定理を使用しています。分布の形状に関する情報を使用しない、つまり、特定の分散を持つ分布に対して機能することに注意してください。したがって、分布の形状に関する情報を使用する場合は、より適切な近似値を取得する必要があります。分布がガウス分布であることがわかっている場合は、この知識を使用することで、より適切な推定値を取得できます。

すでに中心極限定理を適用しているので、境界のガウス近似を使用してみませんか?これらの推定値は、追加の情報である形状の知識に基づいているため、実際には、よりタイトに(またはシャープに)なります。

経験則30は神話であり、確認バイアスの恩恵を受けるます。ある本から別の本にコピーされ続けるだけです。1950年代の論文で、この規則を示唆する参考文献を見つけました。私が思い出すように、それはどんな種類の確固たる証拠でもありませんでした。それはある種の実証的研究でした。基本的に、それが使用されている唯一の理由は、それが一種の機能であるためです。あなたはそれが頻繁にひどく違反されるのを見ません。

更新ザカリー・R・スミスとクレイグ・S・ウェルズの論文「中央極限定理とサンプルサイズをご覧ください。彼らは、さまざまな種類の分布に対するCLTへの収束の経験的研究を提示します。もちろん、マジックナンバー30は多くの場合機能しません。


+1賢明な説明のため。しかし、正しくない情報を使用するリスクはありませんか?CLTは、の分布については何も言いません固定用のnをX¯n
オリビエ

そうです、CLTは有限サンプルの分布については何も述べていませんが、漸近方程式は述べていません。しかし、間違いなく有用な情報を持っているため、あらゆる場所で制限関係が使用されています。チェビシェフの問題は、教室の外ではめったに使用されないほど幅が広いことです。たとえば、ある標準偏差の場合、それが与える確率はほとんど実用的な情報ではない<1/k2=1
-Aksakal

しかし、が等しい確率で値0または1をとる場合、チェビシェフの適用はシャープです。;)問題は、サンプル平均に適用されるチェビシェフが、nが大きくなると決してシャープにならないことです。Xn
オリビエ

私は...私はRでそれを再現しようと、彼らの結論を回復することができませんでした、スミスとウェルズの論文について知らない
アレックス・ネルソン

9

チェビシェフ不等式を使用して真の値の間隔を取得する際の問題は、確率の下限のみを提供することです。さらに、それは時には自明であるか、自明ではないために非常に広い可能性がある信頼区間。我々は持っています

P(|X¯μ|>ε)=1P(X¯εμX¯+ε)

P(X¯εμX¯+ε)11nε2

サンプルサイズにもよるが、εを小さくε「多すぎる」すると、「確率はゼロより大きい」という単純な答えが得られることがわかります。

それとは別に、私たちがこのアプローチから取得する形「の結論である」の確率に落ちるが、[ ˉ X ± ε ]があると同等またはそれ以上の ...」μ[X¯±ε]

しかし、私たちはこれに満足していると仮定し、が快適である最小確率を示します。だから欲しいpmin

11nε2=pminε=1(1pmin)n

サンプルサイズが小さく、望ましい最小確率が高い場合、これは満足のいくほど広い信頼区間を与える可能性があります。以下のための、例えばN = 100、我々が得るε 0.316した、例えばに制限されるOPによって治療変数、[ 0 1 ]に有用であるには余りにも大きいように見えます。pmin=0.9n=100ε.316[0,1]

しかし、このアプローチは有効であり、配布が不要であるため、役に立つ場合があります。

また、 別の回答で言及されているVysochanskij–Petuninの不等式も確認することをお勧めします。この不等式は、連続的な単峰分布を保持し、チェビシェフの不等式を改善します。


I don't agree that a problem with Chebychev it that it only gives a lower bound for the probability. In a distribution-free setting, a lower bound is the best we can hope for. The important questions are: is Chebychev sharp? Is the Chebychev C.I.'s length systematically over-estimated for a fixed level α? I answered this in my post, from a particular point of view. However, I'm still trying to understand if Chebychev for a sample mean will always fail to be sharp, in a stronger sense.
Olivier

CIの長さは推定されていません。未知の長さは存在しないため、ここで「過大評価」という言葉を使用しても意味がわかりません。さまざまな方法でさまざまなCIが提供されます。これらのCIを評価および評価することができます。
アレコスパパドプロス

過大評価は言葉の悪い選択でした、それを指摘してくれてありがとう。「体系的に過大評価された長さ」とは、CIを取得する方法が常に必要以上の何かをもたらすことを意味しました。
オリビエ

1
@Olivier Generally speaking, the Chebyshev Inequality is known to be a loose inequality, and so used more as a tool in theoretical derivations and proofs rather than in applied work.
Alecos Papadopoulos

2
@Olivier "Generally speaking" covers your qualification, I would say.
Alecos Papadopoulos

7

The short answer is that it can go pretty badly, but only if one or both tails of the sampling distribution is really fat.

This R code generate a million sets of 30 gamma-distributed variables and take their mean; it can be used to get a sense of what the sampling distribution of the mean looks like. If the normal approximation works as intended, the results should be approximately normal with mean 1 and variance 1/(30 * shape).

f = function(shape){replicate(1E6, mean(rgamma(30, shape, shape)))}

When shape is 1.0, the gamma distribution becomes an exponential distribution, which is pretty non-normal. Nevertheless, the non-Gaussian parts mostly average out and so Gaussian approximation isn't so bad:

histogram & density plot

There's clearly some bias, and it would be good to avoid that when possible. But honestly, that level of bias probably won't be the biggest problem facing a typical study.

That said, things can get much worse. With f(0.01), the histogram looks like this:

histogram

Log-transforming the 30 sampled data points before averaging helps a lot, though:

histogram

In general, distributions with long tails (on one or both sides of the distribution) will require the most samples before the Gaussian approximation starts to become reliable. There are even pathological cases where there will literally never be enough data for the Gaussian approximation to work, but you'll probably have more serious problems in that case (because the sampling distribution doesn't have a well-defined mean or variance to begin with).


I find the experiment very pertinent and interesting. I won't take this as the answer, however, as it does not address the crux of the problem.
Olivier

1
what's the crux?
David J. Harris

Your answer does not provide rigorous footing for sound statistical practice. It only gives examples. Note, also, that the random variables I consider are bounded, greatly changing what is the worst possible case.
Olivier

@Glen_b: this answer isn't so relevant to your revised version of the question. Should I just leave it here, or would you recommend something else?
David J. Harris

3

Problem with the Chebyshev confidence interval

As mentioned by Carlo, we have σ214. This follows from Var(X)μ(1μ). Therefore a confidence interval for μ is given by

P(|X¯μ|ε)14nε2.
The problem is that the inequality is, in a certain sense, quite loose when n gets large. An improvement is given by Hoeffding's bound and shown below. However, we can also demonstrate how bad it can get using the Berry-Esseen theorem, pointed out by Yves. Let Xi have a variance 14, the worst possible case. The theorem implies that P(|X¯μ|ε2n)2SF(ε)+8n, where SF is the survival function of the standard normal distribution. In particular, with ε=16, we get SF(16)e58 (according to Scipy), so that essentially
P(|X¯μ|8n)8n+0,()
whereas the Chebyshev inequality implies
P(|X¯μ|8n)1256.
Note that I did not try to optimize the bound given in (), the result here is only of conceptual interest.

Comparing the lengths of the confidence intervals

Consider the (1α)-level confidence interval lengths Z(α,n) and C(α,n) obtained using the normal approximation (σ=12) and the Chebyshev inequality, repectively. It turns out that C(α,n) is a constant times bigger than Z(α,n), independently of n. Precisely, for all n,

C(α,n)=κ(α)Z(α,n),κ(α)=(ISF(α2)α)1,
where ISF is the inverse survival function of the standard normal distribution. I plot below the multiplicative constant.

enter image description here

In particular, the 95% level confidence interval obtained using the Chebyshev inequality is about 2.3 times bigger than the same level confidence interval obtained using the normal approximation.


Using Hoeffding's bound

Hoeffding's bound gives

P(|X¯μ|ε)2e2nε2.
Thus an (1α)-level confidence interval for μ is
(X¯ε,X¯+ε),ε=lnα22n,
of length H(α,n)=2ε. I plot below the lengths of the different confidence intervals (Chebyshev inequality: C; normal approximation (σ=1/2): Z; Hoeffding's inequality: H) for α=0.05.

enter image description here


Very interesting! I have though some corrections to suggest you toghether with a big puzzlement: first, you should take out absolute value from the Hoeffding's unequality definition, it's P(X¯με)e2nε2 or P(|X¯μ|ε)2e2nε2; the second correction is less important, α is generally taken to be 0.05 or lower, while 0.95 is addressed as 1α, it's a bit confusing to see them switched in your post.
carlo

Last and more important: I found your result incredible, so I tried to replicate it in R and I got a completely opposite result: normal approximation gives smaller confidence intervals to me! this is the code I used: curve(sqrt(-log(.025)/2/x), to= 100, col= 'red', xlab= 'n', ylab= 'half interval') #Hoeffding ; curve(qnorm(.975, 0, .5/sqrt(x)), to= 100, add= T, col= 'darkgreen') #normal approximation
carlo

0

let's start with the number 30: it's, as anyone will say, a rule of thumb. but how can we find a number that fits better to our data? It's actually mostly a matter of skewness: even the strangest distribution will fast converge to normal if they are simmetric and continuous, skewed data will be much slower. I remember learning that a binomial distribution can be properly approximated to normal when its variance is greater than 9; for this example it's to be considered that discrete distribution also have the problem that they need great numbers to simulate continuity, but think to this: a simmetric binomial distribution will reach that variance with n = 36, if p = 0.1 instead, n must go up to 100 (variabile trasformation, however, would help a lot)!

If you only want to use variance instead, dropping gaussian approximation, consider Vysochanskij–Petunin inequality over Chebichev's, it needs the assumption of unimodal distribution of the mean, but this is a very safe one with any sample size, I'd say, greater than 2.


Could you add a reference for " Vysochanskij–Petunin inequality "? Never heard of it!
kjetil b halvorsen

wikipedia docet
carlo

Can you express the rate of convergence in terms of the skewdness? Why is a sample size of, you'd say 2, enough for unimodality? How is the Vysochanskij–Petunin inequality an improvement over Chebychev if you need to double or triple the sample size for it to apply?
Olivier

I made a fast google search and I found out that binomial distribution is actually often used to explain different sample size need for skewed data, but I didn't find, and I guess there is no accepted "rate of convergence in terms of the skewdness".
carlo

Vysochanskij–Petunin inequality is more efficent than Chebychev's, so it doesn't need a greater sample at all, but it has some use constraints: first, you have to have a continuous distribution, than, it has to be unimodal (no local modes are allowed). It may seem strange to drop normality assumption to adopt another one, but if your data is not discrete, sample mean should eliminate local modes even with very small samples. Fact is that mean has much of a bell distribution and, also if it can be skewed or have fat tails, it quickly comes to only have one mode.
carlo
弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.