サンプルサイズ、サンプル平均、母平均のみがわかっているスチューデントのt検定を実行する方法は?


28

スチューデントのは、サンプルの標準偏差sが必要です。ただし、サンプルサイズとサンプル平均のみがわかっている場合、sの計算方法は?tss

たとえば、サンプルサイズがでサンプル平均が112の場合、それぞれ112の値を持つ49個の同一サンプルのリストを作成しようとします。予想どおり、サンプルの標準偏差は0です。これにより、t検定でゼロ除算の問題が発生します。49112491120t

追加データ:
ACME North Factoryの労働者の平均収入は200 です。ACMEサウスファクトリーの49人の労働者のランダムサンプルの年間収入は112 ドルでした。この違いは統計的に有意ですか?$20049$112

人口平均が200 だと言ってもいいですか?$200


どのような問題を解決しようとしていますか?あなたがもっと私たちに言ったら、それはあなたを助けるのに役立つでしょう。
-pmgjones

はい。サンプルの問題を追加しました。
キット

回答:


32

これは多くの人を驚かせるかもしれませんが、この問題を解決するためにsを推定する必要は必ずしもありません。実際には、あなたが知っている必要はありません。何も(それはもちろん、参考になるが)データの広がりについてを。たとえば、2001年の記事のWall、Boen、およびTweedieは、単一の描画に基づいた単峰分布の平均の有限信頼区間を見つける方法を説明しています。

今回のケースでは、112のサンプル平均をほぼ正規分布(つまり、49の給与の単純なランダムサンプルの平均のサンプリング分布)からの引き分けと見なすための何らかの根拠があります。かなり多くの工場労働者がおり、給与の分配が中央限界定理を動作不能にするほど歪んでいないか、またはマルチモーダルではないことを暗黙のうちに想定しています。次に、平均の保守的な90%CIは、

112+5.84 |112|,

200の真の平均を明確にカバーします(Wall 等の式3を参照)。利用可能な情報が限られており、ここで行われた仮定を考慮すると、112は200と「大幅に」異なると結論付けることはできません。

参照:「サイズ1および2のサンプルの平均の有効な信頼区間」。アメリカ統計学者、2001年5月、Vol。55、No。2:pp。102-105。pdf


4
はい、そうです!だからこそ、勉強する価値があるのです。直観への挑戦は非常に教育的です。カルロス・ロドリゲス(SUNYアルバニー)のWebページに関する明確なペーパーからこのことを最初に知りましたが、今朝は見つけることができませんでした。サーバーがダウンしているようです。後でグーグル「カルロス・ログリゲス統計」を試してください。(彼の論文はomega.albany.edu/8008/confint.htmlにあるはずですが、これは古いURLかもしれません。)
whuber

4
すごい。私はそれを知りませんでした。参照いただきありがとうございます。
ロブハインドマン

4
ありがとう-これはあなたが考えているロドリゲス紙ですか? arxiv.org/abs/bayes-an/9504001
ars

2
これは素晴らしい。しかし、Wallらが「必要以上に広い」と表現している式(3)(Edelmanから来ています)を適用した理由が不思議です。(3)に言及する直前の段落の終わりに向かって、方程式(4)から得られる90%の間隔で4.84(正確には5.84より小さい1)を使用します。間違いなく私は何かを見逃した。
Glen_b-モニカの復活14

2
@Glen_bそれどころか、私は何かを逃した可能性が高いです。次回この論文が必要になったときに注意しますが、それまでは定数の違いは分析に影響しません。
whuber

13

これは少し不自然な質問のように見えます。49は7の正確な2乗です。p<0.05の両側検定の48 DoFのt分布の値は、ほぼ2(2.01)です。

| sample_mean-popn_mean |の場合、平均値の等しいという帰無仮説を棄却します。> 2 * StdError、つまり200-112> 2 * SEなのでSE <44、つまりSD <7 * 44 = 308。

平均賃金が112で標準偏差が308(またはそれ以上)の正規分布を、負の賃金なしで得ることは不可能です。

賃金が下に制限されていることを考えると、彼らはゆがんでいる可能性が高いので、対数正規分布がより適切であると仮定しますが、t検定でp <0.05を避けるためには依然として高度に変動する賃金が必要です。


3

μ=0.999112+0.00188112=200.49/1000<0.05サンプル平均は112です。実際、労働者/ CEOの比率、およびCEOの給与を調整することにより、49人の従業員のサンプルがCEOを引き寄せる可能性をarbitrarily意的になくすことができます。そして、サンプルの平均は112です。したがって、基礎となる分布についていくつかの仮定を行わないと、母平均についての推論を引き出すことができません。


2
$

1
(1)良いキャッチ。(2)、はい、私は、固定された結果、のために漸近的あまのじゃく問題のセットアップを行うことができます事後。私の悪い。ただし、OPが何をテストしようとしているかはわかりません。母集団の平均が200であることがわかっている場合、なぜそれをテストしようとしているのですか?
みすぼらしいシェフ

1
ところで、明らかにCEOの給与/最低給与の比率は400で、米国では極端とは見なされていません。ただし、800は少し歪んでいます。
みすぼらしいシェフ

2

私はあなたが1つのサンプルt検定に言及していると思います。その目標は、サンプルの平均を仮想の平均と比較することです。次に、この質問に答えるP値を計算します(母集団がガウス分布であると仮定します):母平均が実際に仮想値である場合、平均がその値から(またはそれ以上)離れているサンプルを描画する可能性はどれほど低いでしょうか観察した?もちろん、その質問への答えはサンプルサイズに依存します。しかし、それはまた変動性にも依存します。データに大量の散布がある場合、それらは広範囲の母集団平均と一致しています。データが非常にタイトである場合、人口平均の範囲が狭いことに一貫性があります。

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.