自由度を理解する方法は?


257

ウィキペディアから、統計の自由度の3つの解釈があります。

統計では、自由度の数は、統計の最終計算自由に変化できる値の数です

統計パラメータの推定は、さまざまな量の情報またはデータに基づいて行うことができます。パラメーターの推定値に入る独立した情報の数は、自由度(df)と呼ばれます。一般的に、パラメータの推定値の自由度は、に等しい推定に入る独立したスコアの数マイナスパラメータ自体の推定における中間ステップとして使用されるパラメータの数(標本分散です、 1つは、サンプル平均が唯一の中間ステップであるためです)。

数学的に自由度はランダムなベクトルの領域の次元、または本質的に「自由な」コンポーネントの数ですベクトルが完全に決定されるまでに必要なコンポーネントの数

大胆な言葉は私がよく理解していないものです。可能であれば、いくつかの数学的定式化が概念の明確化に役立ちます。

また、3つの解釈は互いに一致しますか?


この説明を
ご覧

回答:


242

これは微妙な質問です。これらの引用を理解しないために 思慮深い人が必要です!それらは暗示的ではありますが、どれも正確または一般に正しいものではないことがわかります。私は完全な説明をする時間はありません(そして、ここにスペースはありません)が、1つのアプローチとそれが示唆する洞察を共有したいと思います。

自由度(DF)の概念はどこで発生しますか? 基本的な処理で見つかったコンテキストは次のとおりです。

  • スチューデントt検定およびそのような(2つの集団が異なる分散を有する)ベーレンスフィッシャー問題にウェルチ又はSatterthwaite溶液としてのその変異体。

  • 分散のサンプリング分布に関係するカイ2乗分布(独立した標準正規分布の2乗和として定義)

  • F検定(推定分散の比)。

  • カイ二乗検定、分割表の独立と分布の推定値の適合度のための(b)のテストのために(a)のテストでその用途を備えます。

精神的には、これらのテストは、正確(正規変量のスチューデントt検定とF検定)から良好な近似(スチューデントt検定と、ゆがみすぎないデータのスチューデントt検定とWelch / Satterthwaite検定)までの範囲を実行します)漸近近似に基づいていること(カイ2乗検定)。これらのいくつかの興味深い側面は、非整数の「自由度」の出現です(Welch / Satterthwaiteテスト、および後述するように、カイ2乗テスト)。これは、DFが主張するものではないという最初のヒントであるため、特に興味深いものです。

問題のクレームの一部をすぐに破棄できます。 「統計の最終計算」は明確に定義されていないため(計算に使用するアルゴリズムに依存するようです)、あいまいな提案にすぎず、これ以上の批判はありません。同様に、「推定値に入る独立したスコアの数」も「中間ステップとして使用されるパラメーターの数」も明確に定義されていません。

ここでは、「独立した」という2つの異なるが密接に関連した感覚があるため、「[推定]に含まれる独立した情報」を扱うのは困難です。1つは、ランダム変数の独立性です。もう1つは機能的な独立性です。 、簡単にするために、たとえば3辺の長さ-後者の例として、我々は被験者の形態学的測定値を収集仮定、、、表面領域、および体積のを木製ブロックのセット。3辺の長さは独立したランダム変数と見なすことができますが、5つの変数はすべて依存RVです。5つは機能的にY Z S = 2 X Y + Y Z + Z X V = X Y Z X Y Z S V R 5 ω R 5 F ω G ω F ωX ψ ... V ψ = 0 gでωXYZS=2(XY+YZ+ZX)V=XYZこれは、ベクトル値のランダム変数のコドメイン(「ドメイン」ではない!)が 3次元多様体を追跡するためです。(したがって、任意の点でローカルに、と 2つの関数があり、と点に対する "周辺"との誘導体およびで評価(X,Y,Z,S,V)R5ωR5fωgωfω(X(ψ),,V(ψ))=0ψ ω F Ggω(X(ψ),,V(ψ))=0ψωfgX S V ω直線的に独立している)しかし- 。ここにキッカーだ-ブロック上の多くの確率測度のために、のような変数のサブセットある従属確率変数としてではなく、機能的に独立しました。(X,S,V)

これらの潜在的なあいまいさによって警告されたので、検査のためのカイ二乗適合度テストを上げましょう。(a)それは簡単で、(b)それは人々が本当にDFを知る必要がある一般的な状況の1つだからですp-value rightおよび(c)それはしばしば誤って使用されます。このテストの最も議論の余地のないアプリケーションの簡単な概要を次に示します。

  • 母集団のサンプルとみなされるデータ値のコレクションがあります。(x1,,xn)

  • 分布のいくつかのパラメーターを推定しました。たとえば、正規分布の平均および標準偏差を推定し、母集団は正規分布しているが、(データを取得する前に)またはが何であるかを知らないという仮説を立てました。θ 1 θ 2 = θ P θ 1 θ 2θ1,,θpθ1θ2=θpθ1θ2

  • 事前に、データの「ビン」のセットを作成しました。(頻繁に行われますが、データによってビンが決定されると問題が生じる場合があります。)これらのビンを使用すると、データは各ビン内のカウントセットに削減されます。の真の値を予想して、各ビンがほぼ同じカウントを受け取るように(できれば)配置しました。(等確率ビニングは、カイ2乗分布が、これから説明するカイ2乗統計量の真の分布の優れた近似であることを保証します。)θ k(θ)

  • 大量のデータがあります。ほぼすべてのビンのカウントが5以上である必要があります。(これにより、統計のサンプリング分布が分布によって適切に近似されるようになります。)χ 2χ2χ2

パラメーターの推定値を使用して、各ビンの予想カウントを計算できます。カイ二乗統計は、比率の合計です

(observedexpected)2expected.

多くの当局は、これは(非常に近い近似で)カイ2乗分布を持つべきだと言っています。しかし、このようなディストリビューションにはファミリーがあります。これらは、しばしば「自由度」と呼ばれるパラメーターによって区別されます。 決定方法に関する標準的な推論は次のようになりますννν

私が持っているカウントを。それは個のデータです。しかし、それらの間には(機能的な)関係があります。まず、カウントの合計が等しくなければならないことを事前に知っています。それが一つの関係です。データから2つのパラメーター(または)を推定しました。それは2つの(または)追加の関係であり、合計関係を提供します。それら(パラメーター)がすべて(機能的に)独立していると仮定すると、(機能的に)独立した「自由度」のみが残ります。これがに使用する値です。K N PのPのP + 1 のk - P - 1 νkknppp+1kp1ν

この推論問題の引用が示唆している計算の一種)の問題は、いくつかの特別な追加条件が当てはまる場合を除いて間違っているということです。 また、これらの条件はありません、何もパラメータの数と、また元の質問に言及何か他のものとのデータの「コンポーネント」の番号の(機能的または統計)独立性と関係するが、。

例を示しましょう。(できる限り明確にするために、少数のビンを使用していますが、それは必須ではありません。)20個の独立した同じ分布(iid)の標準正規変量を生成し、それらの平均と標準偏差を通常の式で推定しましょう(平均=合計/カウントなど)。適合度をテストするには、標準法線の四分位数にカットポイントを持つ-0.675、0、+ 0.657の4つのビンを作成し、ビンカウントを使用してカイ2乗統計量を生成します。忍耐が許す限り繰り返します。私は10,000回の繰り返しをする時間がありました。

DFに関する標準的な知識では、4つのビンと1 + 2 = 3の制約があるため、これらの10,000個のカイ2乗統計の分布は1 DFのカイ2乗分布に従うはずです。ヒストグラムは次のとおりです。

図1

濃い青の線は分布のPDFをグラフにしたもので、これが機能すると考えられていましたが、濃い赤の線は分布のPDFをグラフ化したものです誰かがあなたにが間違っていると言ったらどうでしょうか。 どちらもデータに適合しません。χ 22 ν = 1χ2(1)χ2(2)ν=1

この問題は、データセットのサイズが小さい( = 20)か、ビンのサイズが小さいことが原因であると予想される場合があります。ただし、非常に大規模なデータセットと多数のビンを使用しても問題は解決しません。単に漸近近似に到達しないだけではありません。n

カイ2乗検定の2つの要件に違反したため、問題が発生しました。

  1. パラメーターの最尤推定値を使用する必要があります。(この要件は、実際にはわずかに違反する可能性があります。)

  2. 実際のデータではなく、カウントに基づいて推定を行う必要があります!(これは重要です。)

図2

赤いヒストグラムは、これらの要件に従って、10,000回の個別の反復のカイ2乗統計を示しています。案の定、それは最初に期待していたように、曲線(許容範囲のサンプリングエラーで)をたどります。χ2(1)

この比較のポイント-私はあなたが来て見ている願っています-多くのものに依存して正しいDFは、p値を計算するために使用することで、他のマニホールドの寸法よりも、機能的関係の数、または標準変量の幾何学。量の間の数学的関係、データの分布、その統計、およびそれらから形成される推定量に見られるように、特定の機能的依存関係の間には、微妙で繊細な相互作用があります。したがって、DFが多変量正規分布の幾何学、機能の独立性、パラメーターのカウント、またはこの性質のその他の点で適切に説明できるということはありえません。

したがって、「自由度」は、(t、カイ2乗、またはF)統計のサンプリング分布がどうあるべきかを示唆する単なるヒューリスティックです肯定的ではありません。 それが肯定的であるという信念は、ひどい誤りにつながります。(たとえば、「chi squared goodness of fit」を検索する際のGoogle でのトップヒット、アイビーリーグ大学のWebページであり、このほとんどが完全に間違っています!特に、その指示に基づくシミュレーションは、chi-squared 7 DFが実際には9 DFであるため、推奨される値です。)

このより微妙な理解があれば、問題のウィキペディアの記事を読み直す価値があります:詳細で物事を正しく理解し、DFヒューリスティックが機能する傾向があり、近似であるかまったく適用されないかを指摘します。


ここに示されている現象(カイ2乗GOFテストで予想外に高いDF)の適切な説明は、Kendall&Stuart第5版のボリュームIIにあります。私はこの質問によって与えられた、このような有用な分析に満ちたこの素晴らしいテキストに私を導く機会に感謝しています。


編集(2017年1月)

ここでR、以下の図を生成するコード「DFについての標準的な知恵が...」

#
# Simulate data, one iteration per column of `x`.
#
n <- 20
n.sim <- 1e4
bins <- qnorm(seq(0, 1, 1/4))
x <- matrix(rnorm(n*n.sim), nrow=n)
#
# Compute statistics.
#
m <- colMeans(x)
s <- apply(sweep(x, 2, m), 2, sd)
counts <- apply(matrix(as.numeric(cut(x, bins)), nrow=n), 2, tabulate, nbins=4)
expectations <- mapply(function(m,s) n*diff(pnorm(bins, m, s)), m, s)
chisquared <- colSums((counts - expectations)^2 / expectations)
#
# Plot histograms of means, variances, and chi-squared stats.  The first
# two confirm all is working as expected.
#
mfrow <- par("mfrow")
par(mfrow=c(1,3))
red <- "#a04040"  # Intended to show correct distributions
blue <- "#404090" # To show the putative chi-squared distribution
hist(m, freq=FALSE)
curve(dnorm(x, sd=1/sqrt(n)), add=TRUE, col=red, lwd=2)
hist(s^2, freq=FALSE)
curve(dchisq(x*(n-1), df=n-1)*(n-1), add=TRUE, col=red, lwd=2)
hist(chisquared, freq=FALSE, breaks=seq(0, ceiling(max(chisquared)), 1/4), 
     xlim=c(0, 13), ylim=c(0, 0.55), 
     col="#c0c0ff", border="#404040")
curve(ifelse(x <= 0, Inf, dchisq(x, df=2)), add=TRUE, col=red, lwd=2)
curve(ifelse(x <= 0, Inf, dchisq(x, df=1)), add=TRUE, col=blue, lwd=2)
par(mfrow=mfrow)

40
これはすばらしい答えです。あなたはこのためにインターネットで勝ちます。
アダム

6
@caracal:ご存知のように、元のデータのMLメソッドは日常的で広く普及しています。たとえば、正規分布の場合、のMLEはサンプル平均で、のMLEはサンプル標準偏差の平方根です。 (通常のバイアス補正なし)。カウントに基づいて推定値を取得するには、カウントの尤度関数を計算しました。これには、カットポイントでのCDFの値の計算、ログの取得、カウントの乗算、および加算が必要であり、汎用最適化ソフトウェアを使用して最適化しました。σμσ
whuber

4
@caracalおそらくもう必要ありませんがR、ビン化されたデータのMLフィッティングのコードの例は、関連する質問stats.stackexchange.com/a/34894にあります。
whuber

1
「この推論(問題の引用が示唆している計算の一種)の問題は、いくつかの特別な追加条件が成立する場合を除いて間違っているということです。」私は現在(ほぼ)線形モデルシーケンスの2学期を経ており、自由度が2次形式の「中間」の行列のランクであると理解しています。これらの「追加条件」とは何ですか?
クラリネット奏者

4
@Clarinetist私の答えの主なポイントは、あなたが教えられたことは、DFの2つの概念の混乱に基づいていることを示唆することです。この混乱は、標準最小二乗正規理論モデルでは問題を引き起こしませんが、分割表の分析のような単純で一般的な状況でもエラーにつながります。その行列ランクは機能的な DF を提供します。最小二乗線形モデルで、Fテストなどの特定の種類のテストに正しいDFを与えることがあります。カイ2乗検定の場合、特別な条件は回答の後半でポイント(1)および(2)として列挙されます。
whuberの

74

または単に:統計の値が変更されないように変更できる数値配列内の要素の数。

# for instance if:
x + y + z = 10

たとえば、xyをランダムに変更できますが、zを変更することはできません(ただし、ランダムに変更することはできません。したがって、自由に変更できません-Harveyのコメントを参照してください)。統計の(Σ= 10)。したがって、この場合はdf = 2です。


19
「zを変更することはできません」と言うのはまったく正しくありません。実際、zを変更して合計を10に等しくする必要があります。しかし、何に変更するかについて選択の余地はありません(自由はありません)。任意の2つの値を変更できますが、3番目の値は変更できません。
ハーベイモトゥルスキー

53

次元のユークリッド幾何学、部分空間、および正射影についての一般的な知識が少しあれば、この概念を数学的に正確にすることはまったく難しくありません。n

もしある正射影からの次元部分空間及び任意であり -ベクトル次いでである、と直交し、は直交補数にあります。この直交補数の次元はです。場合に変化するように自由である、その後次元空間に変わりは無料ですR N p個のLのX N PのXのL X - P X P X X - P のx L L L N - P X N 、X - P X N - P X - P X N - PPRnpLxnPxLxPxPxxPxLLLnpxnxPxnp次元空間。このため、はの自由度があると言います。xPxnp

場合ので、これらの考慮事項は、統計に重要なある次元ランダムベクトルおよびその平均のモデルであるが、平均ベクトル、で、である、我々は呼んでベクトル残差、そして、残差を使用して分散を推定します。残差のベクトルはの自由度を持ちます。つまり、次元部分空間に制約されます。n L E X L X P X n p n pXnLE(X)LXPXnpnp

の座標が独立しており、同じ分散正規分布している場合σ 2Xσ2

  • ベクトルとは独立しています。X P XPXXPX
  • の場合、残差ベクトルの2乗ノルムの分布はスケールパラメーターと別のパラメーターを持つ分布です。自由度。| | X P X | | 2 χ 2 σ 2 N - PE(X)L||XPX||2χ2σ2np

これらの事実の証拠のスケッチを以下に示します。2つの結果は、正規分布に基づく統計理論のさらなる発展の中心です。また、これが分布にパラメーター化がある理由であることに注意してください。それはまた、あるスケールパラメータと-distribution及び形状パラメータ、それ以上のコンテキストの自由度の点でパラメータ化することが自然です。 Γ 2 σ 2N - P / 2χ2Γ2σ2(np)/2

ウィキペディアの記事から引用されたパラグラフのどれも特に啓発的なものではないことを認めなければなりませんが、実際には間違っていたり矛盾しているわけでもありません。彼らは、不正確で、一般的に緩い意味で、分散パラメーターの推定値を計算するとき、残差に基づいて計算すると、次元空間でのみ自由に変化するベクトルに基づいて計算すると言います。np

線形標準モデルの理論を超えて、自由度の概念の使用は混乱を招く可能性があります。たとえば、分布のパラメータ化で、自由度を持つことができるものへの参照があるかどうかに関係なく使用されます。カテゴリデータの統計分析を検討する場合、「独立した部分」を集計の前または後にカウントする必要があるかどうかについて混乱が生じる可能性があります。さらに、サブスペース制約ではない通常のモデルであっても、制約の場合、自由度の概念をどのように拡張するかは明らかではありません。通常、効果的な自由度という名前でさまざまな提案があります。χ2

自由度の他の使用法と意味を検討する前に、線形正規モデルのコンテキストで自信を持つことを強くお勧めします。このモデルクラスを扱うリファレンスは、線形モデル理論の最初のコースであり、本の序文には、線形モデルに関する他の古典的な書籍への追加の参照があります。

上記の結果の証明:う、分散行列であることに注意と正規直交基底の選択のと正規直交基底の。次に、は正規直交基底です。ましょう表すの係数の-ベクトルつまり、この基準に これはまた、のように書くことができるは、σ 2 I Z 1... Z のP LのZのP + 1... Z N L Z 1... Z N R N X nはX X I = ZのT iは、 X X = Z T X ZのZ I Xξ=E(X)σ2Iz1,,zpLzp+1,,znLz1,,znRnX~nX

X~i=ziTX.
X~=ZTXZzi列にがあります。次に、が平均正規分布を持ち、が直交であるため、分散行列ます。これは、正規分布の一般的な線形変換結果から得られます。基準は、選択された係数となるようされているするための、及び係数さため。係数は無相関であり、ともに正常であるため、それらは独立しており、これは および X~Z σ 2 I P X X I I = 1 ... P X - P X X I I = P + 1 ... N P X = p個のΣ iが= 1 X I Z iが、X - P X = N Σ I = P + 1 ZTξZσ2IPXX~ii=1,,pXPXX~ii=p+1,,n
PX=i=1pX~izi
| | XPX| | 2=N Σ I=P+1X 2 iはξLのEX I=Z T iは、 ξ=0iが=P+1...NZは、iがLをZiはξを|
XPX=i=p+1nX~izi
は独立しています。また、 もし次いでのため次いでためひいては。この場合、は、依存しない -分布ランダム変数の合計であり、その分布は定義によりスケールパラメーター付き分布およびの自由度。
||XPX||2=i=p+1nX~i2.
ξLE(X~i)=ziTξ=0i=p+1,,nziLziξ N - のp N 0 σ 2χ 2 σ 2 N - P||XPX||2npN(0,σ2)χ2σ2np

NRH、ありがとう!(1)なぜは中にある必要があるのですか?(2)とが独立しているのはなぜですか?(3)ランダム変数コンテキストの自由度は、その決定論的な場合の自由度から定義されていますか?たとえば、にdof 理由は、がランダム変数ではなく決定論変数である場合にtrueになるためですか?(4)あなたと同じ/類似した意見を持っている参考文献(書籍、論文またはリンク)はありますか?L P X X P X | | X P X | | 2 n p XE(X)LPXXPX||XPX||2npX
ティム

@ Tim、、およびは、正常で相関がないため、独立しています。X P XPXXPX
mpiktas

@ティム、私は答えを少し言い換えて、述べられた結果の証拠を与えました。分布に関する結果を証明するには、平均が必要があります。これはモデルの前提です。文献では、線形標準モデルまたは一般線形モデルを探す必要がありますが、今のところ、古い未公開の講義ノートしか思い出せません。適切な参照が見つかるかどうかを確認します。χ 2Lχ2
NRH

素晴らしい答え。洞察力をありがとう。1つの質問:「平均ベクトルは」というフレーズの意味を失いました。説明できる?を定義しようとしていますか?を定義するには?他に何か?たぶん、この文は私にとってあまりにも多くのことをしたり、簡潔すぎたりしようとしているのでしょう。あなたが言及する文脈での定義は何ですか?それはちょうどですか?(通常のiid座標の)このコンテキストでのについて詳しく説明できますか?それだけである?L E L E E x 1x 2x n= x 1 + x 2 + + x n/ n L L = REXLELEE(x1,x2,,xn)=(x1+x2++xn)/nLL=R
DW

@DWは期待演算子です。だから、のcoordinatewise期待のベクトルである。部分空間は、次元部分空間です。これはベクトルの空間であり、確かにではありませんが、1次元にできます。最も単純な例は、 -vectorが座標すべてに1を含むです。これは、同じ平均値を持つのすべての座標のモデルですが、より多くの複雑なモデルが可能です。E X X L p R n n R 1 n XEE(X)XLpRnnR1nX
NRH

30

「自由度」という用語が他の分野で機能する方法と実際には違いはありません。たとえば、長方形の長さ、幅、面積、および周囲の4つの変数があるとします。本当に4つのことを知っていますか?いいえ、自由度は2つしかないためです。長さと幅がわかっている場合は、面積と周囲長を導出できます。長さと面積がわかっている場合は、幅と周囲長を導出できます。面積と周囲がわかっている場合は、長さと幅(回転まで)を導出できます。4つすべてがある場合、システムは一貫している(すべての変数が互いに一致している)、または一貫していない(実際にすべての条件を満たせる長方形がない)と言うことができます。正方形は、自由度が削除された長方形です。

統計では、物事はより曖昧になりますが、考え方は同じです。関数の入力として使用しているすべてのデータが独立変数である場合、入力と同じ数の自由度があります。ただし、n-k個の入力がある場合に残りのkを把握できるなど、何らかの方法で依存関係がある場合、実際にはn-kの自由度しかありません。そして、時々、独立したデータのビットよりも多くのデータポイントをカウントすることで、データが実際よりも信頼性が高く、予測力があることを確信させるために、それを考慮する必要があります。

http://www.reddit.com/r/math/comments/9qbut/could_someone_explain_to_me_what_degrees_of/c0dxtbq?context=3の投稿から取得。)

さらに、3つの定義はすべて、ほぼ同じメッセージを提供しようとしています。


1
基本的には正しいのですが、中間の段落が、相関、(ランダム変数の)独立性、および(パラメーターの多様体の)機能的独立性を混乱させる方法で読まれることを心配しています。相関非依存の区別は、維持することが特に重要です。
whuber

@whuber:今は大丈夫ですか?
バイオスタット

3
それは正しいですが、用語の使用方法は一部の人々を混乱させる可能性があります。ランダム変数の依存性と関数依存性を明確に区別していません。たとえば、非ゼロ相関を持つ(非縮退)二変量正規分布の2つの変数は(ランダム変数として)依存しますが、それでも2つの自由度を提供します。
whuber

5
これは、2009年に作成したredditの投稿からコピーアンドペーストされまし
ホッブズ14

2
私たちのヘルプセンターは、他の人が書いた資料参照する方法について明確なガイダンスを提供しているので、OPがこの投稿に戻って適切な行動を取り、建設的な相互作用に従事することを願っています(しかし、彼はしばらく会っていません)。
CHL

19

The Little Handbook of Statistics Practiceの最初の文が本当に好き です。自由度の章

インストラクターが数学的に素朴な聴衆から最も恐れる質問の1つは、「自由度とは正確には何ですか?」です。

この章を読むことで、自由度について本当によく理解できると思います。


6
自由度が何であるかではなく、なぜ自由度が重要であるかを説明しておくといいでしょう。たとえば、1 / nの分散の推定値にバイアスがかかっているが、1 /(n-1)を使用すると不偏推定量が得られることを示します。
トリスタン

9

ウィキペディアは、ランダムなベクトルの自由度は、ベクトル部分空間の次元として解釈できると主張しています。私は、ウィキペディアのエントリに関する部分的な回答と詳細化として、非常に基本的にこれを段階的に進めたいと思います。

提案される例は、さまざまな被験者の連続変数の測定値に対応するランダムベクトルの例で、原点から伸びるベクトルとして表されます。ベクトルの正射影により、測定平均ベクトル()の射影に等しいベクトルが得られ。すなわち、、ベクトル、で点線を付けられたonesにはます。残差ベクトル(平均値からの距離)に最小二乗投影である [ 1[abc]Tˉ X = 1 / 3 A + B + C [ ˉ X[111]Tx¯=1/3(a+b+c)1 [1[x¯x¯x¯]T1 1[111]Tn 1 n 11degree of freedom(n1)次元直交この部分空間の補体、および有する、私達の場合には(ベクトルの成分の合計数である我々はであるためで例)。これは、差での内積を取得することで簡単に証明できます。および:N 3 R 3 [ ˉ Xn1degrees of freedomn3R3[A[x¯x¯x¯]T [ ˉ X[abc]T[x¯x¯x¯]T

[x¯x¯x¯][ax¯bx¯cx¯]=

=[(a+b+c)3(a(a+b+c)3)]+[(a+b+c)3(b(a+b+c)3)]+[(a+b+c)3(c(a+b+c)3)]

=(a+b+c)3[(a(a+b+c)3)+(b(a+b+c)3)+(c(a+b+c)3)]

=(a+b+c)3[13(3a(a+b+c)+3b(a+b+c)+3c(a+b+c))]

=(a+b+c)3[13(3a3a+3b3b+3c3c)]=0

そして、この関係は直交する平面内の任意の点に拡張されます 。この概念は、なぜ、t分布の導出におけるステップ(hereおよびhere)。[x¯x¯x¯]T1σ2((X1X¯)2++(XnX¯)2)χn12

3つの観測に対応するポイント取ります。平均はで、ベクトルは平面の法線(直交)、です。点座標を平面方程式ます。[355080]T55[555555]T55x+55y+55z=DD=9075

これで、この平面の他の点を選択でき、その座標の平均はになり、ベクトルへの投影に幾何学的に対応します。したがって、すべての平均値(この例では)に対して、制限なしでの座標のペアを無限に選択できます()。それでも、平面は にあるため、3番目の座標は平面の方程式(または幾何学的にへの点の正射影]によって決定されます。。55[111]T55R22degrees of freedomR3[555555]T

以下は、(矢印)に直交する平面(セルリアンブルー)上にある3点(白)の表現です。、および平面上のすべて(部分空間) 、そしてそれらの成分の平均が、(部分空間)への正射影が:[555555]T[355080]T[80805][901560]2df55[111]T1df[555555]T


9

私のクラスでは、「単純な」状況を使用します。これは、自由度が何を意味するのか疑問に思うかもしれません。

これは、テーマに対する「フォレストガンプ」アプローチのようなものですが、試してみる価値があります。

平均および分散が不明な通常の母集団から来た10個の独立した観測があるとします。X1,X2,,X10N(μ,σ2)μσ2

あなたの観察はと両方に関する情報を集合的にもたらします。結局のところ、観測値は実際の値と未知の値に近いはずの1つの中心値に広がる傾向があり、同様に、が非常に高いか非常に低い場合は、観測値を見ることができますそれぞれ非常に高い値または非常に低い値を収集します。適切な「代替」は(実際の値の知識がない場合)、観測の平均であるです。 μσ2μμμX¯

また、観測値が互いに非常に近い場合は、が小さくなければならないことを示す可能性があり、同様に、が非常に大きい場合は、大幅に異なる値が表示されることが予想されます用に。 σ2σ2X1X10

との実際の値に週の賃金を賭ける場合、お金を賭ける値のペアを選択する必要があります。小数点以下200桁まで正しく推測しない限り、給料を失うほど劇的なことは考えないでください。いや。とを推測するほど報酬が増えるという賞賛システムを考えてみましょう。μσ2μμσ2

ある意味では、の値に対するより良い、より多くの情報に基づいた、より丁寧な推測はます。その意味で、は周りの何らかの値でなければならないと推定し。同様に、「代替」として適切なもの(現時点では必要ありません)は、サンプル分散であるであり、これにより適切な推定が行われます。μX¯μX¯σ2S2σ

これらの代替がとの実際の値であると信じている場合、おそらく間違っているでしょう。なぜなら、非常にスリムで幸運だったので、観測が調整されて贈り物が得られるからです。はに等しく、は等しい。いや、おそらくそれは起こらなかった。μσ2X¯μS2σ2

しかし、あなたはさまざまなレベルの悪で、少し間違ったものから、本当に、本当に、本当に悲惨な間違ったものまでさまざまです(別名、「バイバイ、給料。来週お会いしましょう!」)。

では、推測としてしたとしましょう。と 2つのシナリオだけを考えてみましょう。最初に、あなたの観察結果はかなり近くにあります。後者では、観察結果は大きく異なります。どのシナリオで、あなたはあなたの潜在的な損失にもっと関心を持つべきですか?2番目のものを考えた場合、あなたは正しい。についての推定値は、賭けに対する自信を非常に合理的に変化させます。より大きなあるほど、が変化することを期待できます。X¯μS2=2S2=20,000,000σ2σ2X¯

しかし、についての情報を超えてと、あなたの観測も有益でもない話ではありませんだけで、純粋なランダムな変動のいくつかの量運ぶもおよそ。 μσ2μσ2

どうやって気付くことができますか?

さて、議論のために、神は存在し、と両方の実際の(そして今のところ未知の)値を具体的に伝えること自体に余裕があると仮定します。μσ

そして、ここにこのリゼルギー物語の迷惑なプロットのねじれがあります:彼はあなたがあなたの賭けをした後にあなたにそれを伝えます。おそらくあなたを啓発し、おそらくあなたを準備し、おそらくあなたをあざけるために。どうやって知りますか?

さて、それであなたの観測に含まれるとについての情報は今ではまったく役に立たなくなります。観測の中心位置と分散は、すでに知っているので、との実際の値に近づくのに役立ちません。μσ2X¯S2μσ2

神をよく知っていることの利点の1つは、を使用して正確にを推測できなかったこと、つまり推定誤差を実際に知ることができることです。μX¯(X¯μ)

さて、、(もしそうなら私に信頼してください)、(わかりました、私も信頼してください)、そして最後に、 (それは何だと思いますか?私も信頼してください)、またはに関する情報はまったくありません。XiN(μ,σ2)X¯N(μ,σ2/10)(X¯μ)N(0,σ2/10)

X¯μσ/10N(0,1)
μσ2

あのね?個々の観測値のいずれかを推測として使用した場合、推定誤差はとして分布します。まあ、推定の間とと任意の選択し、、より良いビジネスになるので、そうは、個々のよりも惑わされにくい傾向がありました。μ(Xiμ)N(0,σ2)μX¯XiX¯Var(X¯)=σ2/10<σ2=Var(Xi)X¯μXi

とにかく、ももについても全く情報がありません。(Xiμ)/σN(0,1)μσ2

「この物語は終わりますか?」あなたは考えているかもしれません。また、「およびについて情報を提供しないランダムな変動はありますか?」μσ2

[あなたは後者について考えていると思うのが好きです。]

はいあります!

以下のためのあなたの推定誤差の平方とで割っ、 二乗分布であるカイ二乗分布、持っているの標準的な通常の私は、あなたが気づいては絶対にありいずれかに関する情報も、しかし、あなたが直面していることを期待すべき変動についての情報を伝えていません。μXiσ

(Xiμ)2σ2=(Xiμσ)2χ2
Z2ZN(0,1)μσ2

これは非常によく知られた分布であり、10回の観測のそれぞれについてギャンブル問題のシナリオから、そして平均からも自然に発生します。 および10個の観測の変動の収集から: 最後の人はカイ二乗分布を持たない、なぜなら彼はそれらのカイ二乗分布の10の合計であり、それらはすべて互いに独立しているからだ(

(X¯μ)2σ2/10=(X¯μσ/10)2=(N(0,1))2χ2
i=110(Xiμ)2σ2/10=i=110(Xiμσ/10)2=i=110(N(0,1))2=i=110χ2.
X1,,X10)。これらの単一のカイ2乗分布のそれぞれが、直面するはずのランダムな変動の量への1つの寄与であり、合計への寄与はほぼ同じです。

各寄与の値は他の9つの値と数学的に等しくありませんが、それらはすべて、分布において同じ期待される動作をします。その意味で、それらは何らかの形で対称的です。

それらのカイ二乗のそれぞれは、その合計で予想される純粋でランダムな変動性の量への1つの寄与です。

100個の観測値がある場合、上記の合計は、より多くの寄与のソースがあるという理由だけで大きくなると予想されます。

同じ振る舞いを持つ「貢献のソース」のそれぞれは、自由度と呼ばれます。

ここで、1つまたは2つ前の手順を実行し、必要に応じて前の段落を読み直して、求められている自由度の突然の到着に対応します。

ええ、各自由度は、必ず発生することが予想され、またはの推測の改善に何ももたらさない変動の1つの単位と考えることができます。μσ2

重要なのは、これらの10の同等の変動源の振る舞いに頼り始めることです。100個の観測値がある場合、その合計に対して厳密にランダムな変動の100の独立した同等に振る舞うソースがあります。

10カイ二乗の合計が呼び出されるとカイ二乗分布10自由度を今から、と書かれた。私たちは、数学的に呼ばれるに今からその単一のカイ二乗分布(から密度から派生することができ、その確率密度関数から始まることを期待するかを記述できるとカイ二乗分布1自由度と書かれた)、それは正規分布の密度から数学的に導き出すことができます。χ102χ12

"だから何?" ---あなたは考えているかもしれません---「それは、神が私に伝えることができるすべてのことのとの値を私に話すのに時間をかけた場合にのみ良いことです!」μσ2

確かに、万能の神がとの値を伝えるのに忙しすぎた場合、その10個のソース、つまり10個の自由度があります。μσ2

神に反抗し、神があなたを愛用することを期待せずに、自分ですべてをやり遂げようとすると、物事は奇妙になり始めます(ハハハハ;今だけ!)

あなたは持っていると、のための推定と。より安全な賭けへの道を見つけることができます。X¯S2μσ2

との場所でとして上記の合計を計算することを検討でき: しかしそれは元の合計とは異なります。X¯S2μσ2

i=110(XiX¯)2S2/10=i=110(XiX¯S/10)2,

"何故なの?" 両方の合計の平方内の用語は非常に異なります。たとえば、すべての観測値がより大きくなる可能性は低いですが、その場合は、これはですが、その順番で。なぜなら。 μ(Xiμ)>0i=110(Xiμ)>0i=110(XiX¯)=0i=110Xi10X¯=10X¯10X¯=0

さらに悪いことに、少なくとも2つの観測値が異なる場合に厳密な不等式(異常ではない)。i=110(XiX¯)2i=110(Xiμ)2

「しかし、待って!もっとあります!」 は標準正規分布がありません、 はありません1自由度のカイ二乗分布、 はカイ二乗分布がありません10自由度 は標準正規分布がありません。

XiX¯S/10
(XiX¯)2S2/10
i=110(XiX¯)2S2/10
X¯μS/10

「それはすべて無益だったのですか?」

ありえない。今魔法が来る!そのノート 、または同等の

i=110(XiX¯)2σ2=i=110[Xiμ+μX¯]2σ2=i=110[(Xiμ)(X¯μ)]2σ2=i=110(Xiμ)22(Xiμ)(X¯μ)+(X¯μ)2σ2=i=110(Xiμ)2(X¯μ)2σ2=i=110(Xiμ)2σ2i=110(X¯μ)2σ2=i=110(Xiμ)2σ210(X¯μ)2σ2=i=110(Xiμ)2σ2(X¯μ)2σ2/10
i=110(Xiμ)2σ2=i=110(XiX¯)2σ2+(X¯μ)2σ2/10.
次に、これらの既知の顔に戻ります。

最初の項は10自由度のカイ2乗分布を持ち、最後の項は1自由度のカイ2乗分布(!)を持ちます。

単純に、2つの部分で10の独立した同等に振る舞う変動源でカイ2乗を分割します。両方とも正の値です。1つの部分は1つの変動源を持つカイ2乗で、もう1つは証明できます(信頼の飛躍? )また、9(= 10-1)個の独立した均等に振る舞う変動源を持ち、両方の部分が互いに独立したカイ2乗になること。

これはすでに良いニュースです。というのも、今ではその配布があるからです。

残念ながら、使用しますが、これにはアクセスできません(神が私たちの闘争を見ていることを思い出してください)。σ2

さて、 したがって したがって、 これは標準正規分布ではありませんが、その密度は標準法線と自由度のカイ2乗の密度。

S2=1101i=110(XiX¯)2,
i=110(XiX¯)2σ2=i=110(XiX¯)2σ2=(101)S2σ2χ(101)2
X¯μS/10=X¯μσ/10Sσ=X¯μσ/10S2σ2=X¯μσ/10(101)S2σ2(101)=N(0,1)χ(101)2(101),
(101)

20世紀初頭に非常に賢い人がその計算を行い[^ 1]、意図しない結果として、彼は上司をスタウトビール業界の絶対的な世界的リーダーにした。私は話していますウィリアム・ゴセット ;(はい、別名学生それから学生、分布)とセント・ジェームズ・ゲート醸造所(別名ギネスビール、私は敬虔午前います)、。t

[^ 1]:@whuberは、以下のコメントで、ゴセットは計算を行わなかったが、代わりに推測したと述べました!その時点でどの偉業がより驚くべきものであるかは本当にわかりません。

それは、私の親友、自由度分布の起源です。標準法線と独立カイ二乗の平方根の比を自由度で割ったもので、予測できない潮の流れの中で、サンプル平均を使用するときに受ける推定誤差の予想される動作を記述します推定すると使用しての変動を推定するために。t(101)X¯μS2X¯

行くぞ ひどく多くの技術的な詳細が敷物の後ろにひどく流されましたが、あなたの給料全体を危険に賭けるための神の介入だけに依存していませんでした。


1
そのような努力をありがとう!しかし、私はあなたの説明が説得力に欠けていると思ったと告白します。この重要な分岐点の創始者のようです:「同じ振る舞いを持つ「貢献のソース」のそれぞれは、自由度と呼ばれます。」独立したカイ2乗変量ではなく、独立した正規変量を合計した場合、1つの正規変量になります。どういうわけか「自由度」は完全に飲み込まれます。明らかに、まだ説明していないカイ2乗について何か特別なことがあります。ところで、ゴセットは数学をしなかった:彼は推測した!1010
whuber

評価ありがとうございます、@ whuber!あなたが書いたものを忘れてしまえば、タイプミスがどれだけ現れるかは驚くべきことです。あなたの評価について、私は別の考え方を説明することを意図していました-ある意味で少し数学的ではありません。また、10個の独立したカイ2乗変量ではなく10個の独立した正規変量を合計した場合、キーポイントを保持すると推測された1つの正規変量で終わることになります。 。投稿を改善することを望んで、それについて詳しく説明しようとします。
マルセロベンチュラ

2

自由度の直感的な説明は、関心のあるパラメーター(つまり、未知の量)を推定するためのデータで利用可能な独立した情報の数を表す ことです。

例として、次の形式の単純な線形回帰モデルで:

Yi=β0+β1Xi+ϵi,i=1,,n

ここでの平均0と標準偏差を持つ独立正規分布の誤差項表す、我々はインターセプト推定する自由度1を使用勾配推定し、自由度1を。我々が始まったので観測値と自由の2度まで使用(すなわち、2つの個別の情報)は、私たちがして残っている自由度(すなわち、のエラーを推定するために利用可能な情報に依存しない部分)標準偏差。ϵiσβ0β1nn2n2σ


@COOLSerdash、私の答えを編集してくれてありがとう!
イザベラゲーメント

2

自由度は、観測の数からこれらの観測間の必要な関係の数を引いたものとして見ることができます。たとえば、独立した正規分布の観測値サンプルが場合。ランダム変数、ここで。ここでの自由度はこれは、これらが観測結果間の1つの必要な関係だからです。nX1,,Xni=1n(XiX¯n)2Xn12X¯n=1ni=1nXin1(X¯n=1ni=1nXi)

詳細については、参照、これを


0

私にとって最初に理解した説明は:

平均や変動などの統計値を知っている場合、すべての変数の値を知る前にデータの変数をいくつ知る必要がありますか?

これはaL3xaが言ったのと同じですが、データポイントに特別な役割を与えず、回答で指定された3番目のケースに近いものです。この方法では、同じ例は次のようになります。

データの平均がわかっている場合は、1つのデータポイント以外のすべての値を知って、すべてのデータポイントの値を知る必要があります。


変数->観測
リチャードハーディ

0

このように考えてください。分散は、独立している場合は加法的です。たとえば、ボードにダーツを投げて、ボードの正確な中心からのおよび変位の標準偏差を測定するとします。次に。しかし、式の平方根を取ると、直交座標の距離式。ここで示す必要があるのは、標準偏差がダーツボードの中心からの変位の代表的な尺度であることです。以降、我々はDFについて議論の容易な手段を有しています。ときxyVx,y=Vx+VyVx=SDx2Vx,ySDx,y=SDx2+SDy2SDx=i=1n(xix¯)2n1n=1、次におよび比率。言い換えれば、1本のダーツのとそれ自体の間に偏差はありません。最初に偏差があるのはであり、そのうちの1つだけが重複しています。その重複ずれが間の二乗距離で又はとための又は平均の中点でおよび。一般に、距離が、はすべてに依存するため1を削除しますx1x¯=0 XN=2、X1、X2 ˉ X =X1+X2i=1n(xix¯)2n100xn=2x1x2 ˉ X、X1、X2N ˉ X N、N-1x¯=x1+x22x¯x1x2nx¯nそれらの距離の。現在、は自由度を表します。これは、予想される平方距離を作成するために一意の結果の数を正規化するためです。それらの平方距離の合計に分割されたとき。n1

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.