どのようにして人口変動を知ることができますか?


10

仮説検定でよくある質問は、母集団の分散とは何ですか?私の質問は、どのようにして人口変動を知ることができるのでしょうか?分布全体を知っていれば、母集団全体の平均もわかるでしょう。では、仮説検定のポイントは何でしょうか。


関連資料:nber.org/papers/w20325
dv_bn

平均について何も知らなくても、分散を知ることができます。たとえば、母集団のすべての値の差の二乗から分散を回復できますが、それらの差は平均についての情報を提供しません。とにかく、この投稿のステートメントと質問が、仮説検証のポイントに関する質問自体にどのようにつながるかはわかりません。
whuber

回答:


10

この問題がStats 101(統計の概要)の外で「頻繁に」発生するかどうかはわかりません。見たことがあるかどうかわかりません。一方、入門コースを教える場合は、論理的な進歩を提供するため、その方法で資料を提示します。グループが1つしかなく、分散がわかっている単純な状況から始めて、次に、自分がいない場所に進みます。分散を知ってから、2つのグループがある(ただし、分散は等しい)などに進みます。

少し異なる点に対処するために、分散を知っている場合に、仮説検定に煩わされる理由を尋ねます。したがって、平均も知る必要があるからです。後者の部分は合理的ですが、最初の部分は誤解です。私たちが知っている平均は、帰無仮説の下の平均です。それが私たちがテストしているものです。@StephanKolassaのIQスコアの例を検討してください。平均が100で標準偏差が15であることはわかっています。私たちがテストしているのは、私たちのグループ(たとえば、左利きの赤毛、またはおそらく入門的な統計の学生)がそれと異なる場合です。


2
(+1)おそらく、「母集団からのサンプリング」が文字どおりに解釈されるものではなく、データ生成プロセスについて考える方法である場合に、より多く発生します。たとえば、測定器の精度を知る。
Scortchi-モニカの回復

ガンは、20年以上のキャリアを持つ実務家として、この問題は私の経験であなたが示唆するよりも頻繁に発生しました。議論が起こったというだけで「頻繁に」取り上げられるとは言っていません。ただし、Stats 101については、研究やプロジェクトの詳細に関してほとんどまたはまったく何も解決されなかったレッドニシンに関する議論が何倍もありました。
マイクハンター

1
@DJohnson、それはあなたが取り組んでいるトピックに依存すると思います。
ガン-モニカの回復

4

多くの場合、このような母分散はわかりません、別のサンプルからの非常に信頼できる推定があります。たとえば、ペンギンの平均体重が減少したかどうかを評価する例を次に示します。ここでは、小さめのサンプルからの平均を使用していますが、より大きな独立したサンプルからの分散を使用しています。もちろん、これは分散が両方の母集団で同じであることを前提としています。

別の例として、従来のIQスケールがあります。これらは、非常に大きなサンプルを使用して、平均が100で標準偏差が15になるように正規化されています。次に、特定のサンプル(たとえば、50の左利きの赤毛)を取り、15 ^ 2を「既知の」分散として使用して、平均IQが100より大きいかどうかを尋ねます。もちろん、これもまた、2つのサンプル間で分散が本当に等しいかどうかという疑問を投げかけます。結局、すでに平均が異なるかどうかをテストしているので、なぜ分散が等しいのでしょうか。

結論:あなたの懸念は正当であり、通常、既知の瞬間を持つテストは、教訓的な目的にのみ役立ちます。統計コースでは、通常、すぐ後に推定モーメントを使用したテストが行​​わます。


2

母分散を知る唯一の方法、母集団全体を測定することです。

ただし、母集団全体を測定することは現実的ではありません。資金、ツール、人員、アクセスなどのリソースが必要です。このため、母集団をサンプリングします。それは母集団のサブセットを測定しています。サンプリングプロセスは、注意深く、母集団を代表するサンプル母集団を作成することを目的として設計する必要があります。2つの重要な考慮事項-サンプルサイズとサンプリング手法。

おもちゃの例:スウェーデンの成人人口の体重の分散を推定するとします。約950万人のスウェーデン人がいるため、外出してすべてを測定することはできません。したがって、母集団内の真の分散を推定できるサンプル母集団を測定する必要があります。

あなたはスウェーデンの人口をサンプリングするために向かいます。これを行うには、ストックホルムの市内中心部に立ち、人気のスウェーデンのハンバーガーチェーン、バーガークンゲンのすぐ外に立ちます。実は雨が降っていて寒いので(夏だと思います)、店内に立ちます。ここでは、4人の体重を測定します。

可能性としては、サンプルがスウェーデンの人口をあまり反映していない可能性があります。あなたが持っているのは、ハンバーガーレストランにいるストックホルムの人々のサンプルです。これは、推定しようとしている母集団の公平な表現を提供しないことによって結果にバイアスをかける可能性があるため、不適切なサンプリング手法です。さらに、サンプルサイズが小さいなので、極端な人口の4人を選ぶリスクが高くなります。非常に軽いか非常に重い。1000人をサンプリングした場合、サンプリングバイアスが発生する可能性は低くなります。珍しい4人を選ぶよりも、珍しい1000人を選ぶほうがはるかに少ないです。サンプルサイズが大きいほど、少なくともバーガークンゲンの顧客間の重量の平均と分散のより正確な推定が得られます。

ここに画像の説明を入力してください

ヒストグラムはサンプリング手法の効果を示しています。灰色の分布はバーガークンゲンで食事をしていないスウェーデンの人口(平均85 kg)を表し、赤はバーガークンゲンの顧客の人口(平均100 kg)を表しています。 、そして青いダッシュはあなたがサンプリングした4人かもしれません。正しいサンプリング手法では、母集団を適切に計量する必要があります。この場合、母集団の約75%、つまり測定されるサンプルの75%は、バーガークンゲンの顧客であってはなりません。

これは多くの調査で大きな問題です。たとえば、顧客満足度の調査や選挙での世論調査に回答する可能性が高い人々は、極端な見解を持つ人々に偏って表れる傾向があります。あまり強い意見を持たない人々は、それらを表現することにおいてより控えめになる傾向があります。

仮説検定のポイントは(常にではありませんが)、たとえば、2つの母集団が互いに異なるかどうかを検定することです。たとえば、バーガークンゲンのお客様は、バーガークンゲンで食事をしないスウェーデン人よりも体重が重いですか?これを正確にテストする能力は、適切なサンプリング技術と十分なサンプルサイズに依存しています。


テストするRコードは、これをすべて実現します。

df1 = data.frame(rnorm(9500000, 85, 15), sample(c("Y","N","N","N"), replace = T))
colnames(df1) = c("weight","customer")
df1$weight = ifelse(df1$customer == "Y", df1$weight + rnorm(length(df1$weight[df1$customer =="Y"]), 15, 2), df1$weight)
subsample = sample(df1$weight[df1$customer=="Y"], size = 4)

png(paste0(path,"SwedenWeight.png"), res =1000, width = 4, height = 4, units = "in")
par(mar=c(5,6,2,2))
hist(df1$weight[df1$customer=="N"], xlab = "Kilograms", col = rgb(0,0,0,0.5), main ="")
hist(df1$weight[df1$customer=="Y"], add = T, col = rgb(1,0,0,0.5))
axis(side = 1, at = c(subsample), labels = c("","","",""), tck = -0.03, col = "blue")
axis(side = 1, at = c(0,150), labels = c("",""), tck = -0)
dev.off()

t.test(df1$weight~df1$customer)

結果:

> t.test(df1$weight~df1$customer)

        Welch Two Sample t-test

data:  df1$weight by df1$customer
t = -1327.7, df = 4042400, p-value < 2.2e-16
alternative hypothesis: true difference in means is not equal to 0
95 percent confidence interval:
 -15.04688 -15.00252
sample estimates:
mean in group N mean in group Y 
       84.99555       100.02024 

1

はい、そうですが、これらの場合は固定平均へのスケーリングもあるので、未知の平均と既知の分散がある状況にはなりません。また、すべての値が判明した後でスケーリングが行われます。
ベン-モニカを

1

平均が不明であるが分散がわかっている唯一の現実的な例は、固定半径と不明な中心を持つ超球(任意の次元)上の点のランダムサンプリングがある場合です。この問題には、平均(球の中心)は不明ですが、分散(球の二乗半径)は固定されています。未知の平均であるが既知の分散がある他の現実的な例は知りません。(そして明確にするために、他のデータからの外部分散推定値を持つことは既知の分散の例ではありません。また、他のデータからこの分散推定値がある場合、同じように対応する平均推定値もないのはなぜですか?データ?)

私の見解では、平均が不明で分散が既知のテストを教える入門的な統計コースは時代遅れであり、現代の教育ツールとして誤解されています。教育学的に、平均と分散が不明な場合のT検定から直接開始し、自由度が大きい(またはそうでない場合に保持される)これに対する漸近近似としてz検定を扱うのがはるかに優れています。 Zテストを教えるのも面倒です)。既知の分散があるが未知の平均値である状況の数は非常に少なく、一般に、この(非常にまれな)ケースを導入することは学生を誤解させることになります。


0

時々、応用問題では、物理学、経済学などによって提示された、分散について説明し、不確実性のない理由があります。また、人口が限られている場合もあり、たまたま皆についていくつかのことを知っているかもしれませんが、残りを学習するには統計をサンプリングして実行する必要があります。

一般的に、あなたの懸念はかなり有効です。


5
物理学や経済学の例を描くのに苦労しますが、平均はわかりません。離散分布についても同様です。具体的な例を挙げてください。
Stephan Kolassa、2016年

@StephanKolassa物理実験の測定は一例だと思います-既知の分散(測定誤差)を持つ測定のプロセスまたはデバイスがあるかもしれません。そのため、特定のイベントを測定するとき、分散は同じであると仮定できますが、真の平均のみを推定できます。
Peteris

2
@Peteris:それは理にかなっていますが、以前の「校正サンプル」で推定された(測定器の)分散については、が気付いたケースのように聞こえます。理論的に導き出された不確実性のない分散(!)は別のものになると思います。
Stephan Kolassa、2016年
弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.