あなたが参照する定理(通常の減少部分「推定されたパラメータによる自由度の通常の減少」)は、RA Fisherによって主に提唱されています。「分割表からのカイ二乗の解釈とPの計算」(1922)で規則を使用し、「回帰式の適合度」 1922)彼は、データから期待値を得るために回帰で使用されるパラメーターの数だけ自由度を減らすと主張します。(1900年に導入されてから20年以上、人々が誤った自由度でカイ二乗検定を誤用していることに注意するのは興味深いことです)(R − 1 )∗ (C− 1 )
あなたのケースは第2種(回帰)であり、前の種(コンティンジェンシーテーブル)ではありませんが、2つはパラメーターの線形制限であるという点で関連しています。
観測値に基づいて期待値をモデル化し、2つのパラメーターを持つモデルでこれを行うため、自由度の「通常の」減少は2プラス1(O_iは合計は別の線形制限であり、モデル化された期待値の「非効率」のために、3ではなく2の削減に効果的になります)。
カイ2乗検定は、結果が期待されるデータにどれだけ近いかを表す距離尺度としてを使用します。カイ2乗検定の多くのバージョンでは、この「距離」の分布は正規分布変数の偏差の合計に関連しています(これは限界にのみ当てはまり、非正規分布データを扱う場合の近似です) 。χ2
多変量正規分布のための密度関数に関連するによってχ2
f(x1、。。。、xk)= e− 12χ2(2 π)k| Σ |√
の共分散行列の行列バツ| Σ |バツ
およびはマハラノビス場合、ユークリッド距離に減少する距離。 Σ = Iχ2= (x − μ )TΣ−1(X - μ)Σ = I
1900年の記事で、ピアソンはレベルは回転楕円体であり、などの値を積分するために球面座標に変換できると主張しました。これは単一の積分になります。 P (χ 2 > A )χ2P(χ2> a )
この幾何学的表現、距離としてのおよび密度関数の項は、線形制限が存在する場合の自由度の低下を理解するのに役立ちます。χ2
まず、2x2分割表の場合。4つの値は4つの独立した正規分布変数ではないことに注意してください。代わりに、それらは互いに関連しており、1つの変数に要約されます。O私− E私E私
テーブルを使用しましょう
O私はj= o11o21o12o22
その後、期待値
E私はj= e11e21e12e22
固定されている場合、は4自由度のカイ2乗分布として分布しますが、はで、バリエーションは4つの独立変数のようではありません。代わりに、と違いはすべて同じであることがわかります eijoΣ O私はj− e私はje私はje私はj oeo私はjoe
−−(o11− e11)(o22− e22)(o21− e21)(o12− e12)==== o11− (o11+ o12)(o11+ o21)(o11+ o12+ o21+ o22)
そして、それらは事実上4つではなく単一の変数です。幾何学的には、これは4次元の球ではなく、単一の線で統合された値として見ることができます。χ2
この分割表テストは、Hosmer-Lemeshowテストの分割表の場合ではないことに注意してください(別の帰無仮説を使用します!)。Hosmer and Lemshowの記事のセクション2.1「およびが既知の場合」も参照してください。その場合、(R-1)(C-1)ルールのようにg-1の自由度ではなく、2g-1の自由度が得られます。この(R-1)(C-1)ルールは、行変数と列変数が独立しているという帰無仮説(具体的には、値にR + C-1制約を作成する)の場合です。Hosmer-Lemeshow検定は、基づくロジスティック回帰モデルの確率に従ってセルが満たされるという仮説に関連しています。β _ O I - E I Fβ0β––o私− e私fO U R分布仮定A の場合のパラメーターおよび分布仮定Bの場合のパラメーターp + 1
第二に、回帰の場合。回帰は、分割表として差分似た処理を行い、バリエーションの次元を減らします。値はモデル項と残差(誤差ではない)項の合計として表すことができるため、これには素敵な幾何学的表現があります。これらのモデル項と残差項はそれぞれ、互いに垂直な次元空間を表します。つまり、残差の項は可能な値を取ることができません!つまり、モデルに投影される部分、およびモデル内の各パラメーターのより具体的な1次元によって削減されます。Y I β X Io − ey私βバツ私ϵ私ϵ私
次の画像が少し役立つかもしれません
以下は、二項分布からの400×3(非相関)変数です。これらは、正規分布変数ます。同じ画像にの等値面を描画します。(角度を変更しても密度は変更されないため)単一の積分のみが必要となるように球面座標を使用してこの空間で積分すると、はで、この部分はd次元球体の面積を表します。変数を制限する場合B (N = 60 、P = 1 / 6 、2 / 6 、3 / 6)N(μ = n ∗ p 、σ2= n ∗ p ∗ (1 − p ))χ2= 1 、2 、6χ∫a0e− 12χ2χd− 1dχχd− 1χ 何らかの方法で、統合はd次元の球ではなく、より低い次元のものになります。
以下の画像を使用して、残差項の次元削減のアイデアを得ることができます。幾何学用語で最小二乗法を説明します。
青で測定値があります。赤でモデルが許可するものがあります。多くの場合、測定値はモデルと正確に等しくなく、多少の偏差があります。これは、幾何学的に、測定点から赤い表面までの距離と見なすことができます。
赤い矢印および値はおよびあり、x = a + b * z +エラーまたはM U1M U2(1 、1 、1 )(0 、1 、2 )
⎡⎣⎢バツ1バツ2バツ3⎤⎦⎥= ⎡⎣⎢111⎤⎦⎥+ B ⎡⎣⎢012⎤⎦⎥+ ⎡⎣⎢ϵ1ϵ2ϵ3⎤⎦⎥
したがって、これらの2つのベクトルおよび(赤い面)のスパンは、回帰モデルで可能なの値であり、は、観測値と回帰/モデル化された値。最小二乗法では、このベクトルは赤い表面に垂直です(最小距離は最小の二乗和です)(モデル化された値は観測値の赤い表面への投影です)。(1 、1 、1 )(0 、1 、2 )バツϵ
そのため、観測されたものと(モデル化された)期待されるものとのこの差は、モデルベクトルに垂直なベクトルの合計になります(この空間には、空間の合計からモデルベクトルの数を引いた次元があります)。
単純な例の場合。合計ディメンションは3です。モデルには2つのディメンションがあります。また、エラーの次元は1です(したがって、これらの青い点のどれをとっても、緑の矢印は単一の例を示し、エラー項は常に同じ比率を持ち、単一のベクトルに従います)。
この説明がお役に立てば幸いです。それは決して厳密な証明ではなく、これらの幾何学的表現で解決する必要がある特別な代数的トリックがあります。とにかく、私はこれらの2つの幾何学的な表現が好きです。1つは、球面座標を使用してを統合するピアソンのトリックであり、もう1つは、最小二乗和法を平面(またはより大きなスパン)への投影として表示するものです。χ2
私はいつもで終わることに驚いています。これは私の観点では、二項式の通常の近似はによるはなく、および分割表の場合は簡単に解決できますが、回帰または他の線形制限の場合はそれほど容易に解決しませんが、文献は「他の線形制限でも同じように解決する」と主張するのが非常に簡単です。(問題の興味深い例。次のテストを複数回実行すると、「コインを2回10回投げ、合計が10であるケースのみを登録する」場合、この「典型的なカイ2乗分布は得られません」単純な」線形制限)o − eeen p (1 − p )