「ランダムサンプル」と「iidランダム変数」は同義語ですか。


18

「ランダムサンプル」と「iidランダム変数」の意味を理解するのに苦労しています。私はいくつかの情報源から意味を見つけようとしましたが、ますます混乱しました。私がここに投稿したのは、私が試し、知ったものです:

Degrootの確率と統計によると:

ランダムサンプル/ iid /サンプルサイズ:pfまたはpdfいずれかで表すことができる実線上の特定の確率分布を考慮します。これは、と言われての確率変数、これらのランダム変数が独立しており、それぞれの周辺のpfまたはpdfが場合、この分布からランダムサンプルを形成します。このようなランダム変数は、独立しており、同じように分布していると言われています。略してiidランダム変数の数nをサンプルサイズと呼びます。nはX 1X n ffnX1,...,Xnf

しかし、私が言っている他の統計書の1つ:

ランダムサンプリングでは、母集団内のすべてのユニットが選択される確率(確率)が等しくなることを保証します。

したがって、iidはランダムサンプルを構成する要素であり、ランダムサンプルを取得する手順はランダムサンプリングであると感じています。私は正しいですか?

PS:私はこのトピックについて非常に混乱しているので、私は精巧な返事を感謝します。ありがとう。


6
独立我々はすべての変数が同一分布(同じ周辺分布を持つ)が、あるされているサンプル持つことができるので、一部は非常に重要であるないに独立を。このようなサンプルは、ランダムサンプルと見なすことができますが、ランダムサンプルであると思われる実験のサンプルではありません。この質問をご覧ください。
ディリップサルワテ

質問は統計的な意味をなさないようです。iidとrandomサンプルは、文学者によって確立された明確に異なる概念です。
サブハッシュC.ダバール

2
@ subhashc.davarそれらですか?1つの定義によると、「ランダムサンプルとは、独立した同一分布(IID)のランダム変数のシーケンスです」。iidとランダムサンプルは同じもののようです。Degrootの確率と統計の引用段落は基本的に同じことを言っています。「サンプル」は個人または個人の集合である場合があり、ランダム変数のシーケンスである場合があるため、混乱します。
ゲイリーチャン14

@Gary Changあなたが引用した定義は、pdfに関連しています。ランダム変数のサンプルは、心理測定の分野で人気があります。一般的に、信頼性または妥当性の推定を参照して、因子分析に使用されます。心理測定では、ドメインのテストの等価性を確立することに関心があります。iidの概念は線形代数に由来するようです。サンプルは、研究の目的に応じて、特定の個体集団および/または(ランダムな)変数集団からのものである可能性があります。現在の統計は、測定理論から借用したようです。
サブハッシュC.ダバール14

回答:


9

他の統計の本が何であるかは言うまでもありませんが、有限の人口サンプリングに関する本(またはセクション)であると思います。

いつサンプルのランダム変数、すなわちあなたは、セットを考えると のの確率変数は、あなたがいることを知って、彼らは独立している場合、、および同じように分散されています。特に、すべてのについておよび場合、 ここで、は2番目です中心の瞬間。 N F X 1··· XのN= F X 1F X N E X I= μ ヴァーX I= σ 2 I ¯ X = Σ i X iX1,,Xnnf(x1,,xn)=f(x1)f(xn)E(Xi)=μVar(Xi)=σ2i σ2

X¯=iXin,E(X¯)=μ,Var(X¯)=σ2n
σ2

有限母集団のサンプリングは多少異なります。母集団のサイズが場合、置換なしのサンプリングでは、サイズサンプルがあり、それらは同等である可能性があります たとえば、および場合、サンプル空間は および可能性のあるサンプルは次のとおりです。 N(Nn) n p s i= 1sin

p(si)=1(Nn)i=1,,(Nn)
N=5n=3{s1,,s10}、SIE[X]
s1={1,2,3},s2={1,2,4},s3={1,2,5},s4={1,3,4},s5={1,3,5},s6={1,4,5},s7={2,3,4},s8={2,3,5},s9={2,4,5},s10={3,4,5}
各個体の出現回数を数えると、それらが6個であることがわかります。つまり、各個体は同じ選択のチャンス(6/10)を持っています。したがって、各は2番目の定義によるランダムサンプルです。個人は、ランダムな変数ではありませんので、大雑把に、それはiid確率サンプルではありません:あなたは一貫して推定することができる。サンプルの平均ではなく、その正確な値を知ることはありませんが、あなたができる場合は、正確な人口の平均を知って(LET繰り返します:おおよそ。)siE[X]n=N1

してみましょう、いくつかのpolulation平均(平均身長、平均収入、...)とします。場合 あなたが推定できる確率変数のサンプルのように: が、サンプルを平均分散が異なります: ここで集団準分散である: 。係数は、通常「有限母集団補正係数」と呼ばれますN < N μ ¯ Y S = N Σ iは= 1、Y Iμn<Nμヴァー¯ Y、S= σ 2

y¯s=i=1nyi,E(y¯s)=μ
σ 2Σ N iは= 1YI- ¯ Yの2
Var(y¯s)=σ~2n(1nN)
σ~21n/Ni=1N(yiy¯)2N1(1n/N)

これは、(ランダム変数)iidランダムサンプルと(有限母集団)ランダムサンプルがどのように異なるかを示す簡単な例です。統計的推論は主にランダム変数サンプリングに関するものであり、サンプリング理論は有限母集団サンプリングに関するものです。


1電球を製造していて、その平均寿命を知りたいとします。少なくとも電球を製造し続けている場合、「人口」は単なる理論上のまたは仮想的なものです。したがって、データ生成プロセスをモデル化する必要があります電球のセットを(ランダム変数)サンプルとして解釈します。1000個の電球の箱を見つけて、それらの平均寿命を知りたいとします。少数の電球(有限の人口サンプル)を選択できますが、それらすべてを選択できます。小さなサンプルを選択した場合、これは電球をランダム変数に変換しません。「すべて」と「小さなセット」の選択はユーザー次第であるため、ランダム変数はユーザーによって生成されます。ただし、有限の人口が非常に大きい場合(国の人口など)、「すべて」を選択できない場合は、2番目の状況を最初の状況として処理する方が適切です。


1
「個人はランダム変数ではない」とはどういう意味ですか?Whuberは、いくつかの本当に素敵な答えがあるここここ確率変数の概念を説明するために、有限母集団のサンプリングを使用しています。
jsk

私が言ったことを意味します:なら不確実性はありません。n=N
セルジオ

これは、リンクで作成されたステートメントと直接矛盾していると思われるステートメントを明確にするのに役立ちませんでした。どうか、守備する必要はありません。についてのポイントは、私が興味を持っている文とは関係ありません。また、縮退したランダム変数はランダム変数ではありませんか?n=N
jsk

守備?あなたはそれらのリンクを理解していませんでした。whubnerが言うように、a)チケットインボックスモデルは、「これは大学院レベルのものだ」という文句を避けるための単なるおもちゃの例です。b)彼ボックス内のチケットを「人口」と呼ぶことを避け、その理由を説明します。だから矛盾はありません。whubnerが言ったことを理解できるなら。ところで、私はランダム変数ではありませんよね?
セルジオ

もちろん、私見。
セルジオ

2

確率論的な定義と式は、あなたを退屈させません。これらは、教科書で簡単に取り上げることができます(または、ここから始めるのがよいでしょう)

これを直感的に考えてみてください。ランダムサンプルはランダムな値のセットです。一般に、値のそれぞれは、同一または異なる分布のいずれかです。サンプルはランダムサンプルの特殊なケースであり、すべての値は他の値と同じ分布に由来し、その値は他の値に影響を与えません。独立性は、値の生成扱いますH O Wi.i.d.how

i.i.d例:デッキからランダムなカードを引き、それを返します(これを5回行います)。5つの実現値(カード)を取得します。これらの値のそれぞれは均一な分布に由来し(各結果を得る確率は等しい)、各ドローは他のドローから独立しています(つまり、最初のドローでスペードのエースを得るという事実は影響しません)何らかの方法で、他のドローで得られる結果)。

non例:今度は同じことを行いますが、カードをデッキに戻さずに(今までに違いを埋めることを望みます)。繰り返しますが、これを行うと、5つの実現値(カード)が得られます。しかし、明らかにそれらは依存しています(最初の引き分けでスペードのエースを引くという事実は、2番目の引き分けに参加する機会がないことを意味します)。i.i.d.


1

通常Xで記述されるランダム変数は、可能な値がランダム現象の数値結果である変数です。ランダム現象は、ランダム変数によってキャプチャされた数値を持つ結果を生成する可能性があります(例:コインの10回のトスでの頭の数、またはサンプルの収入/高さなど)。
より一般的には、ランダム変数はランダムな結果を数値にマッピングする関数です。たとえば、毎日は晴れ、曇りまたは雨の可能性があります。雨の場合は値1、曇りの場合は2、晴れの場合は3の値を取るランダム変数を定義できます。ランダム変数のドメインは、可能な結果のセットです。
確率変数を確立するには、確実に予測できない可能性のある結果に関連するプロセスまたは実験が必要です。

今、独立の問題に来ています。2つのランダム変数は、一方の値が他方のPDFに影響しない場合、独立しています。他の変数について何かを知っているとき、ある変数の異なる値の確率に関する予測を修正しません。したがって、独立の場合、事後PDFは事前PDFと同一です。たとえば、公平なコインを繰り返し投げる場合、5回前の投げの結果に関する情報は、現在の投げに関する予測に影響を与えず、常に0.5になります。ただし、コインのバイアスが未知であり、ランダム変数としてモデル化されている場合、前の5回のトスの結果は、コインの未知のバイアスに関する推論を行うことができるため、現在のトスに関する予測に影響します。

今サンプリングの問題に来る。サンプリングの目的は、不明であり、推測する必要がある基礎となる分布の特性について通知することです。分布は、サンプルスペース(条件付きユニバースでもある可能性があります)で起こり得る結果の相対的な可能性を指すことに注意してください。そのため、サンプリングを行う際に、サンプルスペースから有限の数の結果を選択し、より小さく管理しやすいスケールでサンプルスペースを再現します。等確率とは、サンプルの結果の確率ではなく、サンプリングのプロセスを指します。等確率サンプリングは、サンプルが元のサンプルスペースの結果の割合を反映することを意味します。たとえば、10を尋ねると 000人が逮捕された場合、逮捕された人々は回答を拒否する可能性があるため、結果として生じる可能性の割合は(逮捕された-逮捕されていない)は、体系的な理由でサンプルと母集団で異なります。または、調査を実施するために特定の近隣を選択した場合、結果は市全体を代表するものではありません。したがって、等確率サンプリングは、純粋なランダム性以外の体系的な理由がないことを意味します。これにより、サンプルで起こり得る結果の割合は、母集団/サンプル空間の結果の割合とは異なると考えられます。したがって、体系的な理由から、起こりうる結果の割合(逮捕された-逮捕されていない)は、サンプルと母集団で異なります。または、調査を実施するために特定の近隣を選択した場合、結果は市全体を代表するものではありません。したがって、等確率サンプリングは、純粋なランダム性以外の体系的な理由がないことを意味します。これにより、サンプルで起こり得る結果の割合は、母集団/サンプル空間の結果の割合とは異なると考えられます。したがって、体系的な理由から、起こりうる結果の割合(逮捕された-逮捕されていない)は、サンプルと母集団で異なります。または、調査を実施するために特定の近隣を選択した場合、結果は市全体を代表するものではありません。したがって、等確率サンプリングは、純粋なランダム性以外の体系的な理由がないことを意味します。これにより、サンプルで起こり得る結果の割合は、母集団/サンプル空間の結果の割合とは異なると考えられます。


-2

ランダムサンプルは、ランダム変数のシーケンスの実現です。これらのランダム変数はiidでもそうでなくてもかまいません。

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.