母集団とサンプルの違いは何ですか？

38

母集団とサンプルの違いは何ですか？どの共通変数と統計がそれぞれに使用され、それらは互いにどのように関連していますか？

1

義務的な読書：クリーガー、N。（2012）。「人口」とは誰で何ですか？歴史的な議論、現在の論争、および「人口の健康」を理解し、健康格差を是正するための影響。The Milbank Quarterly、90（4）：634–681。

— アレクシス

36

人口は調査中のエンティティのセットです。たとえば、男性の平均身長。これは、生きていて、生きていて、将来生きるすべての男性を含むため、仮想の人口です。この例が好きなのは、分析者として、研究したい母集団を選択するという点を理解できるからです。一般的に、すべてのメンバーが観察可能であるわけではないため、人口全体を調査/測定することは不可能です（たとえば、将来存在する男性）。人口全体を列挙することが可能である場合、それを行うにはコストがかかることが多く、多大な時間がかかります。上記の例では、人口「男性」と、関心のあるパラメーターである身長があります。

代わりに、サンプルと呼ばれるこの母集団のサブセットを取得し、このサンプルを使用して、いくつかの条件が与えられた場合、調査中の母集団に関する推論を描画できます。したがって、統計と呼ばれる母集団のサンプルの男性の平均身長を測定し、これを使用して、母集団の関心のあるパラメーターに関する推論を導き出すことができます。サンプルに基づいて母集団について結論を出すには、不確実性と不正確さが伴うため、これは推論です。これは明らかなはずです-サンプルに含まれるメンバーは母集団よりも少ないため、一部の情報が失われています。

サンプルを選択するには多くの方法があり、この研究はサンプリング理論と呼ばれます。一般的に使用される方法は、Simple Random Sampling（SRS）と呼ばれます。SRSでは、母集団の各メンバーがサンプルに含まれる確率が等しいため、「ランダム」という用語が使用されます。層化サンプリング、クラスターサンプリングなど、他にも多くのサンプリング方法がありますが、これらにはすべて長所と短所があります。

母集団から抽出するサンプルは、多数の潜在的なサンプルからのサンプルであることに注意してください。10人の研究者がすべて同じ母集団を研究しており、独自のサンプルを採取している場合、異なる回答が得られる場合があります。前の例に戻ると、10人の研究者はそれぞれ、男性の平均身長が異なる可能性があります。つまり、問題の統計（平均身長）はサンプルごとに異なります。サンプリング分布と呼ばれる分布があります。この分布を使用して、母集団パラメーターの推定値の不確実性を理解できます。

サンプル平均のサンプリング分布は、標準偏差がサンプルの標準偏差をサンプルサイズで割ったものに等しい正規分布であることが知られています。これは簡単に標本分布の標準偏差を呼び出すことが、より一般的なサンプルの標準偏差と混同される可能性があるため、標準誤差。

— グラハム・クックソン
ソース

7

人口として「これまですべての男性」を少し無意味に使用していませんか？つまり、ホモ・サピエンスがどれくらい古いのか、ホモ・ネアンデルタレンシスが別の種であったのか、ホモ・ハビリスを使った石器の男性が「男性」とみなされるのかは、コンセンサスさえありません。おそらく、同じ問題が将来私たちにも直面するでしょう。

— -naught101

最後の段落では、ちょっとした手作業があると思います。標準誤差を参照して、「サンプルの標準偏差をサンプルサイズの[平方根]で割った値に等しい」と読みます。

— アントニ・パレラダ

13

母集団は、関心のある値のセット全体または個人です。サンプルは母集団のサブセットであり、推定で実際に使用する値のセットです。

したがって、たとえば、中国の居住者の平均身長、つまりあなたの人口、つまり中国の人口を知りたい場合。問題は、これは非常に大きな数であり、そこにいる全員のデータを取得できないことです。したがって、サンプルを描画します。つまり、いくつかの観測値、または中国の一部の人々（人口のサブセット、サンプル）を取得し、それに基づいて推論を行います。

— ビビ
ソース

いい答えだ。「それに基づいて推論を行う」ことで、あなたが意味することをさらに進めるべきだと思います。それは私の質問の第二部のようなものです。

— バルティマーク

mmm ...一般的な変数と統計が何を意味するのか本当に理解していませんでした。サンプルサイズは小さいですか？それらの線に沿って何か？

— ビビ

私が得ていたのは、平均と標準偏差が母集団に関連するパラメーターであるということでしたが、それらはサンプル平均（（1 / N）* \ sum（x_i））とサンプル標準偏差（（1 /（ N-1））* \ sum（x_i-x ^ bar）^ 2）。

— バルティマーク

8

人口は研究グループのすべてです。たとえば、Appleの株価を調べている場合、それは過去の株価、現在の株価、さらにはすべての将来の株価です。または、卵工場を運営している場合、それは工場で作られたすべての卵です。

必ずしもサンプリングして統計的テストを行う必要はありません。人口があなたの直近の家族である場合、人口が少ないため、サンプリングする必要はありません。

サンプリングは、さまざまな理由で人気があります。

国勢調査よりも安い（人口全体をサンプリングする）
将来のデータにアクセスできないため、過去をサンプリングする必要があります
あなたはそれらをテストすることによっていくつかのアイテムを破壊する必要があり、それらすべてを破壊したくない（例えば、卵）

— ニール・マクギガン
ソース

2

「人口」という用語を考えるとき、私たちは通常、私たちの町、地域、州または国の人々と、性別、年齢、婚ital状況、民族のメンバーシップ、宗教などのそれぞれの特性を考えます。統計では、「人口」という用語の意味はわずかに異なります。統計の「人口」には、データ駆動型の決定のために情報を調査または収集している定義済みグループのすべてのメンバーが含まれます。

母集団の一部はサンプルと呼ばれます。これは、人口の一部、その一部、一部、およびすべての特性です。サンプルは、科学的に描かれたグループであり、実際に母集団と同じ特性を持っています-ランダムに描かれた場合（これは信じがたいかもしれませんが、本当です！）

ランダムに描画されたサンプルには、次の2つの特性が必要です。

*すべての人があなたのサンプルのために選択される機会を平等に持っています; そして、

*ある人物の選択は、別の人物の選択とは無関係です。

ランダムサンプルの優れている点は、関心のある人口に一般化できることです。したがって、コミュニティで500世帯をサンプリングすると、そこに住む50,000世帯に一般化できます。500の人口統計特性の一部を50,000と一致させると、驚くほど類似していることがわかります。

— バラ
ソース

2

適切に解釈される場合、これは基本的に正しいです。一部の読者は、単純なランダムサンプルを置換（これは説明するランダムサンプルの一種です。他の種類もあります）が母集団のすべての特性を正しく再現していると誤解されるのではないかと心配しています。実際、彼らはめったに行いません。ランダムサンプリングのポイントは、サンプルの特性と母集団の特性との間の（避けられない）差異が、ランダム選択プロセスに起因する可能性があることです。

— whuber

0

母集団には、一連のデータのすべての要素が含まれます。サンプルは、母集団からの1つ以上の観測で構成されます。BOA、A.（2012、17）

— user91513
ソース

2

「データのセット」のすべての要素が母集団と見なされる場合、そのデータセットは母集団の人口調査と呼ばれます。国勢調査であるデータセットはごくわずかです。

— whuber