なぜこの抜粋は、標準偏差の公平な推定は通常関係がないと言っているのですか?


14

私は標準偏差の偏りのない推定の計算について読んでいたと私が読んだソース

(...)いくつかの重要な状況を除き、タスクは、有意性検定や信頼区間の使用などの標準手順、またはベイズ分析を使用することで必要性が回避されるため、統計の適用とはほとんど関係がありません。

たとえば、信頼区間で計算の一部として標準偏差を使用していないのではないかと、このステートメントの背後にある理由を解明できる人がいるかどうか疑問に思っていました。したがって、信頼区間はバイアス標準偏差の影響を受けませんか?

編集:

これまでの回答に感謝しますが、それらの理由のいくつかに従っているのかどうか確信が持てないので、非常に簡単な例を追加します。ポイントは、ソースが正しい場合、私の結論から例に何か間違っているということです。p値標準偏差にどのように依存しないかを誰かに指摘してもらいたいです。

研究者が、自分の都市でのテストの5年生の平均スコアが、76の全国平均と有意水準0.05で異なるかどうかをテストしたいとします。研究者は20人の学生のスコアをランダムにサンプリングしました。サンプルの平均は80.85で、サンプルの標準偏差は8.87でした。つまり、t =(80.85-76)/(8.87 / sqrt(20))= 2.44。次に、tテーブルを使用して、19 dfでの2.44の両側確率値が0.025であることを計算します。これは有意水準0.05を下回っているため、帰無仮説を棄却します。

したがって、この例では、サンプルの標準偏差をどのように推定したかに応じて、p値(およびおそらくあなたの結論)は変化しませんか?


2
あなたが与える理由のために、これは奇妙に思えます。おそらく、私たちが見逃しているものがある場合に備えて、前の段落も教えてください。バイアスを大したことではないものの1つは、サンプルサイズが大きくなるにつれてかなり重要ではなくなることであり、おそらく他のすべての問題と比較して重要ではありません。あなたのソースで与えられた。
ピーターエリス

1
@PeterEllis、これは実際には「標準偏差の不偏推定」に関するウィキペディアのページ(en.wikipedia.org/wiki/Unbiased_estimation_of_standard_deviation)からのものです。
-BYS2

回答:


17

これについてGlen_bに同意します。ポイントをさらに明確にするために、いくつかの単語を追加することができます。未知の分散を持つ正規分布(iid状況)からデータが取得される場合、t統計量は、信頼区間の生成と仮説検定の実行に使用される重要な量です。その推論に重要なのは、帰無仮説(臨界値を決定するため)および代替(電力とサンプルを決定するため)の下での分布だけです。これらは、それぞれ中央および非中央のt分布です。さて、1つのサンプルの問題を少し考えてみると、t検定には、正規分布の平均の検定として最適な特性さえあります。現在、サンプル分散は母分散の不偏推定量ですが、その平方根は母標準偏差のバイアス推定量です。ありません このBIASED推定量が重要な量の分母に入ることは問題ではありません。今では、それが一貫した推定量であるという点で役割を果たしています。これが、サンプルサイズが無限大になると、t分布が標準正規に近づくことを可能にします。しかし、固定されたものに偏っているnは、テストの素晴らしい特性には影響しません。

私の意見では、入門的な統計クラスでは公平性が強調されすぎています。推定量の正確さと一貫性は、強調に値する真の特性です。

パラメトリック法またはノンパラメトリック法が適用される他の問題の場合、標準偏差の推定値は式に組み込まれません。


7
それは推定に依存しますが、19自由度のtが適用される推定は1つだけであり、その推定はサンプル分散の通常の推定の平方根です。標準偏差の異なる推定値を使用すると、帰無仮説の下で検定統計量の異なる参照分布が得られます。それはtではありません。
マイケルR.チャーニック

2
@ BYS2:与えられた例で構築された間隔に関しては、サンプルの標準偏差にスケール係数を乗算して変化しないことに注意してください(たとえば、バイアスをかけないようにするため)。この場合、検定統計量の分布は(わずかに)変化しますが、構築されたCIはまったく同じになります!ここで、データ自体に依存する「修正」を行うと、(一般的に)何か異なる結果が得られます。グレンの答えの下に私のコメントを参照してください。
枢機

4
@ BYS2:統計を使用する通常のモデルの場合、CIとp値の間には良い対応があります。したがって、サンプルの標準偏差を既知の定数で「再スケーリング」しても、p値は変化しません。レッツ:例えばT B = ˉ X - μ /B σ= T / B固定用B > 0。その後、PTの B > U = T >tppTb=バツ¯μ/bσ^=T/bb>0臨界値とそうトンの B α = B T α、すなわち、それらの間の1対1の対応があります。それは理にかなっていますか?
PTb>あなたは=PT>bあなたは
tbα=btα
枢機

1
Cardinalが正しく指摘しているのは、t統計に定数を掛けて、標準偏差の異なる推定値を本質的に使用できるということです。検定統計量にはt分布がなくなりました。定数のため、分布はわずかに異なります。平均は係数bで変化し、標準偏差も変化します。検定統計量の臨界値を計算しようとすると、上で示したように適切に変化します。
マイケルR.チャーニック

1
@ BYS2はい、そうです。
マイケルR.チャーニック

5

t統計のように、極めて重要な量に基づいて計算された間隔を考えます。標準偏差の推定量の平均値は実際には入りません。間隔は統計の分布に基づいています。それで、その文はそれに関する限り正しい。


1
はい。ただし、統計の分布はほとんどの場合不明な標準偏差に依存していないため、推定器を使用する必要がありますか?
-BYS2

4
(+1)グレン。@ BYS2へ:ここにはいくつかの重要なポイントがあります。まず、手元に極めて重要な量がある場合、信頼セットを構築するための非常に便利な手段を提供しますが、それらはしばしば存在しません。重要な量のポイントは、分布が純粋既知の量に依存することです。第二に、重要な量は基礎となるモデルに密接に結びついています。データが仮定されたモデルから逸脱する場合、検定統計量の分布も同様に重要であり、重要な量としてのその特性はあまり関連性がないかもしれません。:)
枢機

4

解釈は常に部分的な推測ですが、暗黙の意味は、標準偏差を明示的に推定することなく、多くの場合、目的の結果を得ることができるということだと思います。言い換えれば、著者は、偏った推定値ではなく、標準偏差の推定値を使用しない状況に言及していると思います。

たとえば、統計の分布全体の推定値を作成できる場合、標準偏差を使用せずに信頼区間を計算できます。実際、多くの(非正規)分布では、標準偏差自体(および平均)は信頼区間の推定値を計算するのに十分ではありません。符号検定などの他の場合では、標準偏差の推定値も必要ありません。

(もちろん、完全な分布の不偏推定値を構築することは簡単ではありません。ベイジアン統計では、事前分布を通じて明示的にバイアスを導入することは実際には非常に一般的です。)


1
最後の段落の意味をもう少し詳しく説明すると面白いかもしれません。たとえば、手元の統計の分布からサンプリングできる場合、経験的累積分布関数は、分布関数の点ごとに不偏の推定値を生成するための非常に簡単で単純な手段を提供します。:)
枢機

1
最大バツ最大バツバツ

1
XiimaxiXi

2
これは真実であり、私が引き出しようとしていたポイントに近い。最後の段落の最初の文は、例えば単一のランダムなサンプルからの非線形統計汎関数の不偏推定値の構築に関するものです。これは、関数自体のランダムサンプルから完全な分布の不偏推定値を構築することとはまったく異なります。:
枢機
弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.