なぜ分散は、互いに続くすべての値の差として定義されないのですか?


19

これは多くの人にとって簡単な質問かもしれませんが、ここにあります:

なぜ分散は、値の平均との差ではなく、互いに続くすべての値の差として定義されないのですか?

これは私にとってより論理的な選択です。私は明らかにいくつかの欠点を監督していると思います。ありがとう

編集:

可能な限り明確に言い替えさせてください。これは私が意味するものです:

  1. 順序付けられた番号の範囲があると仮定します:1,2,3,4,5
  2. (平均を使用せずに)値の間の(絶対)差を計算し、合計します(連続的に、ペアごとではなく、次の値ごとに)。
  3. 差異の数で除算する
  4. (フォローアップ:番号が順序付けられていない場合、答えは異なりますか?)

->分散の標準式と比較して、このアプローチの欠点は何ですか?


1
自己相関について読むこともできます(例:stats.stackexchange.com/questions/185521/…)。
ティム

2
@ user2305193 whuberの答えは正しいですが、彼の式は、データの順序付けと、すべての順序付けの平均との間の距離の2乗を利用しています。きちんとしたトリック、しかし、あなたが示した分散を見つけるプロセスは、まさに私の答えで実装しようとしたものであり、良い仕事をしないことを示しました。混乱を解消しようとしています。
グリーンパーカー

1
楽しみのために、アラン分散を調べてください。
ホッブズ

別の考えでは、差を二乗せず(その後平方根を取らない)、絶対値を取るので、これはむしろ「これが標準偏差の計算方法ではない」はずです「なぜ分散の計算方法ではないのか」の代わりに。しかし、私は今休憩します
-user2305193

回答:


27

最も明らかな理由は、値に時系列がないことが多いことです。したがって、データをごちゃ混ぜにしても、データによって伝えられる情報に違いはありません。あなたの方法に従えば、データをごちゃ混ぜにするたびに、異なるサンプル分散が得られます。

より理論的な答えは、サンプル分散が確率変数の真の分散を推定することです。確率変数の真の分散は E [X E X 2 ]です。X

E[(XEX)2].

ここで、は期待値または「平均値」を表します。したがって、分散の定義は、その平均値からの変数間の平均平方距離です。この定義を見ると、データがないため、ここには「時間順序」はありません。これは、ランダム変数の単なる属性です。E

この分布からiidデータを収集すると、実現ます。期待値を推定する最良の方法は、サンプルの平均を取ることです。ここで重要なのは、iidデータを取得したため、データに順序付けがないことです。サンプルx 1x 2x nはサンプルx 2と同じですx1,x2,,xnx1,x2,,xnx2,x5,x1,xn..

編集

サンプル分散は、サンプルの特定の種類の分散を測定します。分散は、平均からの平均距離を測定します。データの範囲、分位間範囲など、他の種類の分散があります。

値を昇順で並べ替えても、サンプルの特性は変わりません。取得するサンプル(データ)は、変数からの実現です。サンプルの分散を計算することは、変数の分散がどの程度あるかを理解することに似ています。たとえば、20人をサンプリングして身長を計算すると、それらはランダム変数人の身長から20の「認識」になります。サンプルの分散は、一般的に個人の身長のばらつきを測定することになっています。データを注文する場合 X=

100,110,123,124,,

サンプルの情報は変更されません。

もう1つの例を見てみましょう。あなたはこのように命じたランダム変数から100回の観測を持って言うことができますその後の平均距離は1単位なので、メソッドでは分散は1になります。

1,2,3,4,5,6,7,8,9,10,11,12,13,14,...100.

「分散」または「分散」を解釈する方法は、データの値の範囲がどのようなものかを理解することです。この場合、.99単位の範囲が得られますが、これはもちろん変動をうまく表していません。

99


1
最後の段落で私に連絡しました、ハハ、この驚くべき答えに感謝します、私はそれを賛成するのに十分な担当者がいればいいのに、人々を喜ばせてください、私のためにそれをしてください;-)受け入れられました!!!
user2305193

フォローアップ:私が本当に意味したこと(ええ、ごめん、答えを読んだ後に正しい質問に気づいただけです)は、違いを合計し、サンプルの数で割ることでした。最後の例では99/100になりますが、完全にびっくりするほど詳しく説明できますか?
user2305193

@ user2305193そうですね、平均で1ユニットと言いましたが、これは間違っています。.99単位でなければなりませんでした。変更しました。
グリーンパーカー

1-100シリーズの詳細については、1-100の分散は841.7、標準偏差は29.01のソースです。実際、まったく異なる結果になります。
user2305193

31

それはされてそのように定義されました!

これが代数です。値をます。表すF(各手段は、これらの値の経験分布関数xはiは、確率質量寄与する1 / N値にxはIをおよびlet)XYが分布を有する独立ランダム変数であるF。定義と同様に、分散の基本的な特性(つまり、2次形式)によってx=(x1,x2,,xn)Fxi1/nxiXYFおよび事実によりF Yは同じ平均を持ち、XY

Var(x)=Var(X)=12(Var(X)+Var(Y))=12(Var(XY))=12(E((XY)2)E(XY)2)=E(12(XY)2)0=1n2i,j12(xixj)2.

この式は、順序に依存しません。コンポーネントの可能なすべてのペアを使用し、2乗の差の半分を使用してそれらを比較します。これは、しかし、に関連することができる平均全ての可能な順序付けを超える(グループSN すべてのN インデックスの順列1 2 ... N)。すなわち、xS(n)n!1,2,,n

Var(x)=1n2i,j12(xixj)2=1n!σS(n)1ni=1n112(xσ(i)xσ(i+1))2.

その内部合計は並べ替え値をとりおよび(半)は、すべての間の差の二乗合計N - 1の連続したペア。nによる除算は、これらの連続した2乗差を本質的に平均します。lag-1半分散として知られているものを計算しますxσ(1),xσ(2),,xσ(n)n1nます。外側の合計は、すべての可能な順序付けに対してこれを行います


標準的な分散式のこれら2つの等価な代数的ビューは、分散の意味についての新しい洞察を提供します。半分散は、シーケンスのシリアル共分散の逆尺度です。半分散が低い場合は共分散は高く(数値は正の相関関係にあり)、逆も同様です。したがって、順序付けされていないデータセットの分散は、任意の並べ替えで取得可能なすべての可能な半分散の一種の平均です。


1
@ Mur1lo反対に、この派生は正しいと思います。数式をデータに適用して確認してください!
whuber

1
Mur1loは、分散の式の正確さについてではなく、ランダム変数の期待値からサンプル量の関数に直接渡されるように見えたのではないかと思います。
Glen_b-モニカの復活

1
@glenしかし、それはまさに経験的分布関数ができることです。これがこのアプローチの全体的なポイントです。
whuber

3
はい、それは私には明らかです。混乱がどこにあるのかを指摘しようとしていました。あいまいになってすみません。なぜそれが問題であるように見えるだけなのか、今ではもっと明確になっていることを願っています。*(この理由は、私は「見かけ」以前、それが混乱の原因である可能性が高いし、そのステップのちょうど外のコンテキスト外観だっ強調する単語を使用)
Glen_b -Reinstateモニカ

2
@ Mur1oこれらの式のいずれかで行ったことは、定義を適用することだけです。期待値から「サンプル数量」への移行はありません。(特に、のサンプルは推定も使用もされていません。)したがって、明らかな問題が何であるかを特定することも、代替の説明を提案することもできません。あなたの懸念を拡大することができれば、私は応答できるかもしれません。F
whuber

11

他の答えを補足するだけで、分散は用語間の差の2乗として計算できます。

Var(X)=12n2injn(xixj)2=12n2injn(xix¯xj+x¯)2=12n2injn((xix¯)(xjx¯))2=1nin(xix¯)2

I think this is the closest to the OP proposition. Remember the variance is a measure of dispersion of every observation at once, not only between "neighboring" numbers in the set.


UPDATE

X=1,2,3,4,5. We know the variance is Var(X)=2.

With your proposed method Var(X)=1, so we know beforehand taking the differences between neighbors as variance doesn't add up. What I meant was taking every possible difference squared then summed:

Var(X)==(51)2+(52)2+(53)2+(54)2+(55)2+(41)2+(42)2+(43)2+(44)2+(45)2+(31)2+(32)2+(33)2+(34)2+(35)2+(21)2+(22)2+(23)2+(24)2+(25)2+(11)2+(12)2+(13)2+(14)2+(15)2252==16+9+4+1+9+4+1+1+4+1+1+4+1+1+4+9+1+4+9+1650==2

Now I'm seriously confused guys
user2305193

@user2305193 In your question, did you mean every pairwise difference or did you mean the difference between a value and the next in a sequence? Could you please clarify?
Firebug

2
@Mur1lo no one is though, I have no idea what you're referring to.
Firebug

2
@Mur1lo This is a general question, and I answered it generally. Variance is a computable parameter, which can be estimated from samples. This question isn't about estimation though. Also we are talking about discrete sets, not about continuous distributions.
Firebug

1
You showed how to estimate the variance by its U-statistic and its fine. The problem is when you write: Var("upper case"X) = things involving "lower case" x, you are mixing the two different notions of parameter and of estimator.
Mur1lo

6

Others have answered about the usefulness of variance defined as usual. Anyway, we just have two legitimate definitions of different things: the usual definition of variance, and your definition.

Then, the main question is why the first one is called variance and not yours. That is just a matter of convention. Until 1918 you could have invented anything you want and called it "variance", but in 1918 Fisher used that name to what is still called variance, and if you want to define anything else you will need to find another name to name it.

The other question is if the thing you defined might be useful for anything. Others have pointed its problems to be used as a measure of dispersion, but it's up to you to find applications for it. Maybe you find so useful applications that in a century your thing is more famous than variance.


I know every definition is up to the people deciding on it, I really was looking for help in up/downsides for each approaches. Usually there's good reason for people converging to a definition and as I suspected didn't see why straight away.
user2305193

1
Fisher introduced variance as a term in 1918 but the idea is older.
Nick Cox

As far as I know, Fisher was the first one to use the name "variance" for variance. That's why I say that before 1918 you could have use "variance" to name anything else you had invented.
Pere

3

@GreenParker answer is more complete, but an intuitive example might be useful to illustrate the drawback to your approach.

In your question, you seem to assume that the order in which realisations of a random variable appear matters. However, it is easy to think of examples in which it doesn't.

Consider the example of the height of individuals in a population. The order in which individuals are measured is irrelevant to both the mean height in the population and the variance (how spread out those values are around the mean).

Your method would seem odd applied to such a case.


2

Although there are many good answers to this question I believe some important points where left behind and since this question came up with a really interesting point I would like to provide yet another point of view.

Why isn't variance defined as the difference between every value following    
each other instead of the difference to the average of the values?

The first thing to have in mind is that the variance is a particular kind of parameter, and not a certain type of calculation. There is a rigorous mathematical definition of what a parameter is but for the time been we can think of then as mathematical operations on the distribution of a random variable. For example if X is a random variable with distribution function FX then its mean μx, which is also a parameter, is:

μX=+xdFX(x)

and the variance of X, σX2, is:

σX2=+(xμX)2dFX(x)

The role of estimation in statistics is to provide, from a set of realizations of a r.v., a good approximation for the parameters of interest.

What I wanted to show is that there is a big difference in the concepts of a parameters (the variance for this particular question) and the statistic we use to estimate it.

Why isn't the variance calculated this way?

So we want to estimate the variance of a random variable X from a set of independent realizations of it, lets say x={x1,,xn}. The way you propose doing it is by computing the absolute value of successive differences, summing and taking the mean:

ψ(x)=1ni=2n|xixi1|

and the usual statistic is:

S2(x)=1n1i=in(xix¯)2,

where x¯ is the sample mean.

When comparing two estimator of a parameter the usual criterion for the best one is that which has minimal mean square error (MSE), and a important property of MSE is that it can be decomposed in two components:

MSE = estimator bias + estimator variance.

Using this criterion the usual statistic, S2, has some advantages over the one you suggests.

  • First it is a unbiased estimator of the variance but your statistic is not unbiased.

  • One other important thing is that if we are working with the normal distribution then S2 is the best unbiased estimator of σ2 in the sense that it has the smallest variance among all unbiased estimators and thus minimizes the MSE.

When normality is assumed, as is the case in many applications, S2 is the natural choice when you want to estimate the variance.


3
Everything in this answer is well explained, correct, and interesting. However, introducing the "usual statistic" as an estimator confuses the issue, because the question is not about estimation, nor about bias, nor about the distinction between 1/n and 1/(n1). That confusion might be at the root of your comments to several other answers in this thread.
whuber


1

Lots of good answers here, but I'll add a few.

  1. The way it is defined now has proven useful. For example, normal distributions appear all the time in data and a normal distribution is defined by its mean and variance. Edit: as @whuber pointed out in a comment, there are various other ways specify a normal distribution. But none of them, as far as I'm aware, deal with pairs of points in sequence.
  2. Variance as normally defined gives you a measure of how spread out the data is. For example, lets say you have a lot of data points with a mean of zero but when you look at it, you see that the data is mostly either around -1 or around 1. Your variance would be about 1. However, under your measure, you would get a total of zero. Which one is more useful? Well, it depends, but its not clear to me that a measure of zero for its "variance" would make sense.
  3. It lets you do other stuff. Just an example, in my stats class we saw a video about comparing pitchers (in baseball) over time. As I remember it, pitchers appeared to be getting worse since the proportion of pitches that were hit (or were home-runs) was going up. One reason is that batters were getting better. This made it hard to compare pitchers over time. However, they could use the z-score of the pitchers to compare them over time.

Nonetheless, as @Pere said, your metric might prove itself very useful in the future.


1
A normal distribution can also be determined by its mean and fourth central moment, for that matter -- or by means of many other pairs of moments. The variance is not special in that way.
whuber

@whuber interesting. I'll admit I didn't realize that. Nonetheless, unless I'm mistaken, all the moments are "variance like" in that they are based on distances from a certain point as opposed to dealing with pairs of points in sequence. But I'll edit my answers to make note of what you said.
roundsquare

1
Could you explain the sense in which you mean "deal with pairs of points in sequence"? That's not a part of any standard definition of a moment. Note, too, that all the absolute moments around the mean--which includes all even moments around the mean--give a "measure of how spread out the data" are. One could, therefore, construct an analog of the Z-score with them. Thus, none of your three points appears to differentiate the variance from any absolute central moment.
whuber

@whuber yeah. The original question posited a 4 step sequence where you sort the points, take the differences between each point and the next point, and then average these. That's what I referred to as "deal[ing] with pairs of points in sequence". So you are right, none of the three points I gave distinguishes variance from any absolute central moment - they are meant to distinguish variance (and, I suppose, all absolute central moments) from the procedure described in the original question.
roundsquare
弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.