平均とSDの決定は、1つまたは2つの自由度の損失を意味しますか?


7

ディストリビューションで自由度がどのように考慮されるかを理解する際に、いくつかの疑問に直面しています。

特に、 Student変数を参照してみましょう。t

(1)t=xx¯s^=xx¯(xix¯)2N1

ここで、はガウス変数、は平均値、はデータから取得した標準偏差。xx¯s^=(xix¯)2N1

生徒の確率密度関数は、

(2)f(t)=C(1+t2ν)ν+12

そして、私の教科書でを見つけます。「は、データから計算された平均値が表示されるため、自由度の損失を意味します」。ν=N1(1)x¯

質問:すべきではありませんか?私は両方持っているとあるので、2人のデータから決定されたパラメータが。ν=N2(1)s^x¯

一方、でした2番目の形式では、が表示されないため、おそらくデータの制約として考慮されるのはだけです。しかし、これはあまり意味がありません。(1)s^x¯

したがって、平均値と標準偏差の両方がデータから決定されるこれらのケースでは、自由度の損失は2ですか、それとも1ですか?

これは、より一般的な疑問の一種です。複数のパラメーターがデータから決定されるが、いくつかの点でこれらのパラメーターが関連している場合(および場合と同様)、自由度これらすべてのパラメータを考慮すると失われますか?x¯s^

たとえば、同じデータセットからパラメータを決定するとします。すべてのパラメーターは、データ関数として表すことができます。今、私はすべてのパラメータを一緒に検討します:私は何自由度を失いましたか または単に?qp1,p2,...,pqp2,...,pqp1q1


s ^を見積もったとき、すでに1つのdfを失ったので、おそらくその中に埋め込まれています。また、s ^を使用するとき、それを再度考慮する必要はありませんか?
EBH 2016

正解です。これはあまり意味がありません。そのため、このような式は使用されません。実際には、データの平均を他の統計または数値と比較しますが、個々のをそれらの平均と比較するために使用しません あなたの教科書の表現は、あなたがここで引用しているものとは異なると確信しています。tx¯x1,,xntバツ
whuber

回答:


1

T分布は、標準正規確率変数と独立したスケーリングされたカイ確率変数の比率の分布として定義されます。その自由度パラメーターは、その分母内のカイ確率変数の自由度パラメーターと同じです。したがって、DFパラメーターは、使用している分散推定量の自由度を決定する問題です。

覚えておいてください: T分布は、通常の確率変数と、ある種の標準偏差推定量(分散推定量の平方根)である分母の比率をとったときにのみ発生します。これ、画像にすでに分散推定器があることを前提としています。次に、自由度の損失は、平均推定から(または回帰のコンテキストでは、複数の係数推定から)発生します。


あなたが示したものと同様の量を形成し、それらの分布を見つけることが可能です。我々が持っていると仮定し、我々はいくつかの標準化された値を形成します。は既知であるがは不明であると仮定すると、T統計量を定義して標準化します。バツ1バツIID Nμσ2μσ

TμバツμSμ=バツμσ/SμσT

ここで、は、既知のをもつ標本分散推定量です。量は自由度のスケーリングされたカイ確率変数であるため、統計量は自由度のT分布をもちます。これは、分散を推定したにもかかわらず、自由度の損失がなかったベースラインのケースです。Sμ21Σ=1バツμ2μSμ/σTμ

ここで、も不明な場合は、分散推定器の既知の平均を、サンプルの平均に置き換えます。μμバツ¯

TバツμS=バツμσ/SσT1

ここで、は、未知のをもつ標本分散推定量です。量は自由度のスケーリングされたカイ確率変数であるため、統計量は自由度のT分布をもちます。分散推定器の内部で平均を推定したため、1つの自由度が失われました。S211Σ=1バツバツ¯2μS/σ1T1


うまくいけば、これがこの問題を理解するのに役立ちます。自由度の概念は、T分布について話すという文脈の中で、学生化のためにすでに使用されているいくつかの分散推定器あることを前提としています。平均パラメーター(または回帰の係数パラメーター)を推定すると、この分散推定量が変動しにくくなり、自由度が失われます。


0

自由度を理解する例を考えてみましょう:

5つの観測値 1、2、1、3、5ます。このデータセットの平均()を伝えても、観測自体の値は伝えない場合は、平均を変更せずに4つの値を作成できます。あなたが選択した場合あなたの最初の4つの観測として、その後、選択する最後の番号がしなければならないことが平均が固定されている場合。平均のみに関心がある場合は、方程式が1つと未知数が1つあります。12152.4452.4

固定平均の観測値がある場合、平均値を変更せずに個の数値を自由に選択できますが、観測値が決定されます。ただし、上の段落で任意にの値を選択したため、他の値を選択することもできます。したがって、私はデータから自由度と自由度をIは、平均を選んだので、私は持っているので、の自由度は、私は1パラメータを推定した場合。1th2.411

ここで、平均標準偏差を教えてみましょう:の同じサンプルの場合、平均はで、標準偏差はです。これで5つの数値のうち3つを選択でき、最後の2つが決定されます(2つの方程式、2つの未知数)。ただし、サンプルの標準偏差はサンプルの平均値の関数であるため、パラメーターは少し異なります。これらは互いに独立していません。つまり、データからの自由度はが、パラメーターからの自由度はだけなので、合計で自由度はます。12152.41.673211

詳細については、このStack Exchangeの質問を参照してください。


1
あなたは良い方向に向かっていたが、最後のコメントは正しくない。サンプルSDは、サンプル平均の関数ではありません(1のサンプルを除く)。パラメータに関する発言はどこかから出てきたようで、「独立」の2つの概念(統計的および機能的)を暗黙的に混乱させ、統計のサンプリング分布に関する質問には明確な関係がありません。数学のサイトの質問に対する答えは制限されており、想像力に欠けます。真実ははるかに複雑で興味深いです:stats.stackexchange.com/questions/16921でこの件に関するスレッドを参照してください。
whuber

1
私は通常、この例を使って新入生の生徒に教えますが、厳格なチェックでは失敗します。質問のレベルを考えるとそれは適切だと思いましたが、私は間違っていたようです。ハットマトリックスのランクについて話すことなく、技術的に自由度を議論する方法がわかりません。リンクとフィードバックをありがとうございます。確かめます。
ガブリエルJ.オドム2017

@whuber、そのスレッドをありがとう。私は統計学の博士号を持っていますが、あなたが言ったことの半分を知りませんでした。私は完全なバカのように感じます。
ガブリエルJ.オドム2017

そのように感じる必要はありません!私たちの多くがここでたむろしている理由は、私たちが彼らから多くのことを学んでいるため、私たちがほとんど知らない(またはさらに良いことに、私たちが知っていたと思っていたことがそうではない)ことを明らかにする投稿をよく読むからです。私のような大胆な(または愚かな)ものは、頻繁に答えてコメントするように冒険することで、さらに多くのことを学びます。(私は唯一の5分前に私の最後の本当に愚かなコメントをした...。)
whuber

励まし教授@whuberをありがとう。私は本当にそれを感謝します:)
ガブリエルJ.オドム19
弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.