サンプル平均のサンプリング分布は、母平均をどのように近似しますか?


16

統計を習得しようとしているのは、統計があまりにも普及しているため、適切に理解しなければ、いくつかのことを学ぶことができないからです。サンプル平均のサンプリング分布のこの概念を理解するのに苦労しています。一部の書籍やサイトで説明されている方法がわかりません。私は理解していると思いますが、正しいかどうかはわかりません。以下はそれを理解しようとする私の試みです。

正規分布をとる現象について話すとき、それは一般に(常にではないが)母集団に関するものです。

推測統計を使用して、特定の母集団に関する情報を予測したいのですが、すべてのデータがありません。ランダムサンプリングを使用し、サイズnの各サンプルが選択される可能性が等しくなります。

したがって、多くのサンプル、たとえば100を取得すると、これらのサンプルの平均の分布は中心極限定理に従ってほぼ正規になります。サンプル平均の平均は母平均に近似します。

さて、私が理解していないのは、「100人のサンプル...」と表示されることが多いことです。平均の人口を概算するために、100人のサンプルを10から100枚必要としないでしょうか。それとも、十分な大きさの単一のサンプル(たとえば1000)を取得し、その平均が母平均に近似すると言うことができるのでしょうか?または、1000人のサンプルを取得してから、元の1000人のサンプルから各サンプルの100人のランダムなサンプルを100個取得し、それを近似値として使用しますか?

(ほぼ)平均を近似するのに十分な大きさのサンプルを取得することは常に機能しますか?これが機能するためには、人口も正常である必要がありますか?

回答:


9

平均の予想されるサンプリング分布(単一のサンプルに基づいて計算します)と、同じ母集団から複数回繰り返しサンプリングした場合に何が起こるかをシミュレートする(通常は仮定の)プロセスと混同していると思います。

任意のサンプルサイズ(n = 2でも)について、サンプル平均(2人から)は母平均を推定すると言います。しかし、推定精度、つまり、平均の標準誤差に反映されるように、サンプルデータに基づいて母平均を推定する仕事がどれほど優れているかは、20または200の場合よりも劣りますサンプルの人々。これは比較的直感的です(サンプルが大きいほど推定精度が向上します)。

次に、標準誤差を使用して信頼区間を計算します。信頼区間は(この場合)正規分布に基づいています(母集団の標準偏差はしばしば過小評価されるため、小さなサンプルではt分布を使用します)サンプルが少ないため、楽観的な標準エラーが発生しすぎます。)

最後の質問への答えとして、これらの推定方法を適用するために正規分布母集団は必ずしも必要ではありません-中心極限定理は、平均のサンプリング分布(再び、単一のサンプルから推定)が傾向があることを示します基礎となる母集団に非正規分布がある場合でも、正規分布に従います。これは通常、「大きい」サンプルサイズに適しています。

そうは言っても、サンプリング対象の非正規母集団がある場合、その平均のサンプリング分布が信頼できると考えられても、平均は適切な要約統計量ではない可能性があります。


だから私は本質的に、このようなもののいくつかがどのように機能するかのこの理論的基盤を理解することにあまりにも夢中になっていますか?ここで本当に興味深いのは信頼区間ですか?言い換えれば、米国の平均的な大人が眠る時間を言ってみましょう、そして私が5,000のサンプルを取り、私の信頼区間が99.9%で、平均が6.46から6.54の間にある場合、私は行くことができますアメリカの成人の平均は6.5時間眠るという「自信を持って」研究を発表しますか?
マージソート

2
あなたが言ったところ:「米国の成人の平均は6.5時間眠ると「自信を持って言っている」。まあ、いや、あなたはそれ実際に平均6.5時間ではないと確信することできます。あなたはそれが6.5時間に非常に近いと確信することができるだけです、または、それは「最も近い5分までの6.5時間」、またはそのようなものであると確信することができます。範囲のみに、ある程度の信頼レベルが関連付けられます。
Glen_b -Reinstateモニカ

1
@Glen_bが問題の核心になります-人口値を正確に推定したと確信しているとは決して言えませんが、推定プロセスの精度についてはある程度の考えがあります。
ジェームズスタンリー

@angrymonkey(シミュレートされた)繰り返しサンプリングアプローチの基礎となる概念を取得することは、まだ有用だと思います。また、推定のために、「巨大な」サンプルサイズは必要ありません-平均の標準誤差の式sample std deviation / square root(n)は-n部分の平方根は、サンプルサイズとして固定増分の推定精度が低下することを示していますより大きな(例えばサンプルに10〜20人からの移動は210〜220人から行くよりも多くの推定精度を向上させます。)を取得
ジェームズ・スタンリー・

素晴らしい...助けてくれてありがとう。だからCIは、平均的な人が一晩6.45から6.56時間寝ていることを95%確信していると言うだけですか?では、なぜ平均的な人が1日4.5時間テレビを見るような決定的な主張をする記事があるのでしょうか?確実に信頼区間は95%で4.43と4.56のようなものです
マージソート

10
  • σ2/nnn
  • 複数の独立したサンプルを取得する場合、各サンプルの平均は正常になり、平均の平均は正常になり、真の平均になります。
  • サンプルが本当に同じ分布からのものである場合(たとえば、各10個の100個のサンプル)、1000個の大きなサンプルを1つ採取した場合と同じ推論を行います(しかし、現実の世界では、無視できません。「ランダム化ブロック設計」を参照してください。)
  • n
  • 各10個のサンプルを100個取得すると、サンプル平均の分布は元のデータよりも正規分布に近くなりますが、全体の平均の分布よりも正規分布は低くなります。
  • 大きなサンプルを採取することで、正常に近づきます。
  • 母平均を推定する場合、1000の大きなサンプルまたは10の100サンプルを取得しても、(理論的には)違いはありません。
  • しかし、実際には、サンプリング理論の人々は、クラスタリング、層別化、その他の問題のためにサンプルを分割する場合があります。次に、推定を行う際にサンプリングスキームを考慮します。しかし、それは別の質問にとって本当に重要です。

ほとんどの教科書では、サンプル平均のサンプリング分布というこの概念を説明しています。これは本質的に、「ちょっと見なさい。サンプルをたくさん取ったら、それは正常である傾向があり、母集団の平均に近いだろう」。それから彼らはあなたが十分に大きいサンプルを取るなら、あなたはたった一つしかとれないとあなたに言う。サンプルのサンプリング分布は、1つの大きなサンプルを取得できると思わせるという意味ですか?言い換えれば、それを理解する目的は何ですか?大量のサンプルを採取する背後にある直感を理解するのを助けるためだけですか?テオのサンプリングのアイデアを無視
マージソート

@ "James Stanley"が非常によく答えていると思います。実際のケースでは、サンプルを取得し、サンプルの平均を計算します。これが推定値です。
プラキディア

1

平均のサンプリング分布は、特定のサイズのすべてのサンプルの分布です。サンプリング距離の平均は、母集団の平均に等しくなります。与えられたサイズのサンプルの平均のサンプリングdistについて話すとき、私たちは1個のサンプルや1000個のサンプルでさえ、すべてのサンプルについて話しているのではありません。


0

平均のサンプリング距離は、信頼区間とは関係ありません。それは別の概念です。サンプリングdistの場合、母集団は正常または非正常になります。a)popが正常な場合、平均のsamp distはどのサンプルサイズでも正常です。b)ポップが正常でない場合、1)平均のサンプリング距離は、サンプルサイズが30以上でない限り、正常とは見なされません。次に、中央極限定理は、サンプリング距離が正常であると考えることができることを示しています。

あなたは予測について話します。予測もこれとは関係ありません。samp distに挿入しすぎています。samp distは単純にすべてのサンプルであり、平均値が取得されます。そして、これらすべてのサンプルの平均、mu sub x barは母集団の平均、muおよび標準dev odサンプリングdist、sigma sub x bar = sigmaをnの平方根で割ったものです。(有限のポップ補正係数については説明しません。額面の統計を取ります。概念を読みすぎないでください。拳は基本概念を理解します。

PS平均のサンプdistには何もありません。


この回答は、別の回答として入力するのではなく、最初の回答と組み合わせることができるのでしょうか。通常、スレッドごとに1つの回答が必要です。(ただし、例外があります。)左下の灰色の「編集」をクリックして、既存の回答に資料を追加したり、変更したりできます。
GUNG -復活モニカ

0

私はビッグデータの問題について考えていて、今朝これらの投稿のいくつかを見ました。これは些細な問題ではないと思います。1000個のデータを1セットとして分析することと、100個の10セットを分析することの違いは、理論的には違います。差。ただし、データのクラスタリングとパターンは、1000個のデータの平均を取り、推定平均と関連する標準誤差を引用するだけではまったく対処されません。

stackexchangeとwikipediaのいくつかのページを見て、私が思いついた結論は、ビッグデータが明白なものを見ることができるということです。人口全体に興味深い特徴がある場合、ビッグデータセットはそれらを日として明確に示します。したがって、視覚的に見ることができる非常に大きなデータセットがある場合、最初に非常に明白な機能を探すことなく、飛び込んで簡単な要約測定を行うことはありません。統計的推論の最初のレッスンから、最初のパスとしてデータのグラフと視覚化を見るように教えられました。それを十分に強調することはできません。データセットが大きすぎて人間が画面上で見ることができない場合、人間が読める解像度でサブサンプリングする必要があります。


投稿に署名しないでください。投稿の右下にあるユーザー名の目的です。
Glen_b -Reinstateモニカ
弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.