これは、自由度と統計パラメーターについての話であり、なぜこの2つが直接単純な接続を持っているのが良いのかという話です。
歴史的に、ベータ関数のオイラーの研究では「」という用語が登場しました。彼は1763年までにそのパラメーター化を使用していました。エイドリアンマリールジャンドルも同様でした。この作業は、すべての既知の統計アプリケーションに先行しています。− 1−1
現代の数学的理論は、分析、数論、および幾何学における豊富な応用を通して、「」という用語が実際に何らかの意味を持っているという十分な兆候を提供します。これらの理由のいくつかを質問へのコメントでスケッチしました。− 1−1
さらに興味深いのは、「正しい」統計的パラメーター化がどうあるべきかということです。それはそれほど明確ではなく、数学的慣習と同じである必要はありません。一般的に使用される、よく知られた、相互に関連する確率分布のファミリーの巨大なウェブがあります。したがって、1つのファミリに名前を付ける(つまり、パラメータ化する)ために使用される規則は、通常、関連するファミリに名前を付けるための関連する規則を意味します。1つのパラメーター化を変更すると、それらすべてを変更する必要があります。したがって、これらの関係を手がかりとして見ることができます。
最も重要な流通家族が通常の家族に由来することに異議を唱える人はほとんどいません。の確率密度が比例する場合、確率変数は「正規分布」と呼ばれることを思い出してください。場合及び、有すると言われている標準的な正規分布。X (X - μ )/ σ F (X )EXP (- X 2 / 2 )σ = 1 μ = 0 XX(X−μ)/σf(x)exp(−x2/2)σ=1μ=0X
多くのデータセットは、データと低電力(通常は2乗)の合理的な組み合わせを含む比較的単純な統計を使用して研究されます。これらのデータが正規分布からのランダムサンプルとしてモデル化されている場合(各が正規変数実現と見なされるように、すべてのは共通の分布を共有し、独立している)、これらの統計の分布はその正規分布。実際に最も頻繁に発生するものはx 1、 x 2、… 、x n x i X i X ix1,x2,…,xnxiXiXi
t ν T ν = N - 1 T = ˉ Xtν、スチューデント分布tと "自由度"。これは統計の分布ですここではデータの平均をモデル化し、平均の標準誤差です。による除算は、が整数である場合、は以上でなければならないことを示していますν=n−1SE (X )ˉ X =(X1+
t=X¯se(X)
X 2 + ⋯ + X N)/ N SE (X )= (1 / √X¯=(X1+X2+⋯+Xn)/nn) √(X 2 1 + X 2 2 + ⋯ + X 2 N)/(N - 1 )- ˉ X 2 N-1つのNse(X)=(1/n−−√)(X21+X22+⋯+X2n)/(n−1)−X¯2−−−−−−−−−−−−−−−−−−−−−−−−−−−−√n−1n 2 ν 12ν1以上。式は、明らかに少し複雑ですが、次数2のデータの有理関数の平方根です:比較的単純です。
χ 2 ν χ 2χ2ν、(カイ二乗)分布と "自由度"(DF)。これは、独立標準標準変数の平方和の分布です。これらの変数の二乗の平均値の分布は、従ってする分布によってスケーリング:私は「正規化」と、これに言及する分布。χ2 ν ν χ 2ννχ2 1 / ν χ 21/νχ2
Fは、ν 1、ν 2 F (νFν1,ν2、パラメータで比分布二つの独立した正規の比率であると分布と自由度。F 1、ν 2)(ν1,ν2)χ 2χ2 ν 1 ν 2ν1ν2
数学的計算により、これら3つの分布すべてに密度があることがわかります。重要なことに、分布の密度は、オイラーの関数()の積分定義の被積分関数に比例します。それらを比較しましょう:χ 2 ν Γχ2νΓ
F χ 2 ν(2X)α X ν / 2 - 1つの E - X。F Γ (ν )(X )α X ν - 1 E - X。
fχ2ν(2x)∝xν/2−1e−x;fΓ(ν)(x)∝xν−1e−x.
これは、2回の変数がパラメーターガンマ分布を持つことを示しています。半分の係数で十分ですが、を引くと関係がさらに悪化します。これはすでに質問に対する説得力のある答えを提供します:分布のパラメーターがそれを生成する2乗正規変数の数をカウントする場合(係数まで)、その密度の指数関数は、そのカウントの半分よりも1つ小さくなければなりません。 χ 2 νχ2ν ν / 2 1ν/21 χ 2 1 / 2χ21/2
なぜの要因であるの差よりも小さい厄介?その理由は、物事を合計するとき、要因は一貫したままであるからです。独立した標準法線の平方和がパラメーターガンマ分布に比例する(倍数倍)、個の独立した標準法線の平方和はパラメーターガンマ分布に比例します(倍数倍)。ここで、すべての変数の二乗和は、パラメーターガンマ分布に比例します(同じ時間の係数)。 1 / 2 1 N1/21n N M Mnmm、N + M 、M + Nn+mm+nパラメーターを追加すると、カウントの追加が非常に厳密にエミュレートされるため、非常に役立ちます。
ただし、その厄介な「」を数式から削除すると、これらの素晴らしい関係はより複雑になります。例えば、我々は、実際のパワーを参照するためにガンマ分布のパラメータを変更した場合ように、式分布は「ガンマに関係するであろうの電力ので、」分布(でそのPDFは)、3つの分布の合計は「ガンマ」分布と呼ばれる必要があります。要するに、自由度とガンマ分布のパラメーターの間の密接な加法的関係は、− 1 x−1x χ 2 1(0 )、xは1 - 1 = 0 χ 2 1(2 )- 1χ21(0)x1−1=0χ21(2)−1計算式からになり、パラメーターに吸収されます。
同様に、比率分布の確率関数は、ベータ分布に密接に関連しています。実際、に比の分布がある場合、にはベータ分布があります。その密度関数はF Y 、F Z = ν 1 Y /(ν 1 Y + ν 2)(ν 1 / 2 、ν 2 / 2 )FYFZ=ν1Y/(ν1Y+ν2)(ν1/2,ν2/2)
F Z(Z )α Z ν 1 / 2 - 1(1 - Z)ν 2 / 2 - 1。
fZ(z)∝zν1/2−1(1−z)ν2/2−1.
さらに、これらのアイデアを完全な円にして、 dfのスチューデント分布の平方には、パラメーター比分布があります。もう一度、従来のパラメーター化を維持することは、自由度に寄与する基礎となるカウントとの明確な関係を維持することが明らかです。T ν FtνF(1 、ν )(1,ν)
統計的な観点から、およびBeta分布の従来の数学的パラメーター化のバリエーションを使用するのが最も自然で簡単です。分布を "分布」およびBeta分布は、「Beta分布」と呼ばれるべきです。実際、すでにそれを行っています。これが、「ガンマ」と「ベータ」の代わりに「カイ二乗」と「比率」分布の名前を使い続ける理由です。とにかく、「Γ Γ (α )Γ (2 α )(α 、β )(2 α 、2 β )F - 1ΓΓ(α)Γ(2α)(α,β)(2α,2β)F−1密度の数式に表示される用語。 これを行うと、密度のパラメーターとそれらが関連付けられているデータカウントとの直接的な接続が失われます。常に1つずつオフになります。