してみましょうによるすなわち次元ランダムベクトル、ランダム変数の固定位置のコレクション(測定可能な実関数)。x=(X1,...,Xj,...,Xk)k−
このような多くのベクトル、たとえば考慮し、これらのベクトルにインデックスを付けるため、たとえばni=1,...,n
xi=(X1i,...,Xji,...,Xki)
そしてそれらを「サンプル」と呼ばれるコレクションと見なします。次に、各次元ベクトルを「観測」と呼びます(ただし、関与するランダム変数の実現を測定して記録すると、実際に1つになります)。
S=(x1,...,xi,...,xn)k−
最初に、確率質量関数(PMF)または確率密度関数(PDF)のいずれかが存在する場合を扱い、そのような関数を結合します。表すジョイントPMF又は各ランダムベクトルの関節PDF、およびこれらすべてのベクトルのジョイントPMFまたはジョイントPDF。 fi(xi),i=1,...,nf(x1,...,xi,...,xn)
次に、以下の数学的等式が成り立つ場合、サンプルは「独立サンプル」と呼ばれます。S
f(x1,...,xi,...,xn)=∏i=1nfi(xi),∀(x1,...,xi,...,xn)∈DS
ここで、 は、ランダムなベクトル/観測によって作成されたジョイントドメインです。 nDSn
これは、「観測」が「共同で独立」していることを意味します(統計的な意味で、または今日でも時々見られる古いことわざのように「確率で独立」)。習慣は、単にそれらを「独立した観測」と呼ぶことです。
ここでの統計的独立性は、インデックス超えている、つまり観測間であることに注意してください。各観測の確率変数間の確率的/統計的関係とは無関係です(一般的な場合、ここでは、各観測が多次元である場合を扱います)。i
また、密度のない連続ランダム変数がある場合、上記は分布関数の観点から表現できることに注意してください。
これが「独立した観測」の意味です。これは、数学用語で表現される正確に定義されたプロパティです。それが意味するもののいくつかを見てみましょう。
独立した観測結果のいくつかの結果
A. 2つの観測値が共同で独立した観測値のグループの一部である場合、「ペアワイズ独立」(統計的に)、
f(xi,xm)=fi(xi)fm(xm)∀i≠m,i,m=1,...,n
これは、条件付きPMF / PDFが「限界」のものと等しいことを意味します。
f(xi∣xm)=fi(xi)∀i≠m,i,m=1,...,n
これは、条件付きまたは条件付きの多くの引数に一般化されます。
f(xi,xℓ∣xm)=f(xi,xℓ),f(xi∣xm,xℓ)=fi(xi)
など、左側のインデックスが垂直線の右側のインデックスと異なる限り。
これは、1つの観測値を実際に観測しても、サンプルの他の観測値を特徴付ける確率は変わらないことを意味します。そのため、予測に関しては、独立したサンプルは私たちの親友ではありません。各観測が他の観測について何かを言うのに役立つように、我々は依存関係を持つことを好むでしょう。
B.一方、独立したサンプルには最大の情報コンテンツがあります。独立したすべての観測は、サンプル内の他の観測によって全体的または部分的に推測できない情報を運びます。そのため、いくつかの観測値の間に統計的依存性が存在する比較可能なサンプルと比較して、合計は最大になります。しかし、予測の改善に役立たない場合、この情報はどのような用途に役立ちますか?
さて、これはサンプル内のランダム変数を特徴付ける確率に関する間接的な情報です。サンプルが独立している場合、これらの観測値が共通の特性(この場合は共通の確率分布)を持っているほど、それらを明らかにするためのより良い位置にいます。
つまり、サンプルが独立しており、「同一に分布している」場合は、
fi(xi)=fm(xm)=f(x),i≠m
共通の同時確率分布でなく、各観測値を構成するランダム変数の周辺分布、たとえばについての情報を取得するための最良のサンプルです。 f(x)fj(xji)
したがって、たとえであるため、実際の実現に関して、独立した同じ分布のサンプルで追加の予測力はゼロですが、関数(またはそのプロパティの一部)、すなわち周辺分布を明らかにする位置。f(xi∣xm)=fi(xi)xi fi
したがって、推定(これは包括的用語として使用されることもありますが、ここでは予測の概念とは区別する必要があります)に関して、「同一の分布」と組み合わせた場合、独立したサンプルが「ベストフレンド」になります「プロパティ。
C.また、それぞれがまったく異なる確率分布で特徴付けられ、共通の特性をまったく持たない観測の独立したサンプルは、得ることができる情報のコレクションと同じくらい価値のないことです(もちろん、すべての情報はふさわしい、ここでの問題は、これらを組み合わせて有用なものを提供することはできないということです)。3つの観測値を含むサンプルを想像してください。1つは南アメリカの果物(の量的特性)を含み、もう1つはヨーロッパの山を含み、3つ目はアジアの衣服を含みます。これらの3つすべては非常に興味深い情報ですが、サンプルとしては、統計的に有用なことは何もできません。
別の言い方をすれば、独立したサンプルが有用であるための必要十分条件は、観測に共通の統計的特徴があることです。これが、統計では、「サンプル」という言葉が「情報の収集」一般と同義ではなく、「いくつかの共通の特徴を持つエンティティに関する情報の収集」と同義語である理由です。
OPのデータ例への適用
ユーザー@gungからのリクエストに応答して、上記に照らしてOPの例を調べてみましょう。私たちは、2人以上の教師と6人以上の生徒がいる学校にいると合理的に想定しています。したがって、a)生徒と教師の両方をサンプリングし、b)データセットに各教師と生徒の組み合わせに対応するグレードを含めます。
つまり、評点は「サンプリング」されたものではなく、教師や生徒に対して行ったサンプリングの結果です。したがって、ランダム変数(= grade)を「従属変数」として扱い、生徒()と教師は「説明変数」(すべての可能な説明変数ではなく、一部だけ)として扱うのが合理的です。サンプルは、として明示的に記述する6つの観測で構成されGPTS=(s1,...,s6)
s1=(T1,P1,G1)s2=(T1,P2,G2)s3=(T1,P3,G3)s3=(T2,P4,G4)s4=(T2,P5,G5)s5=(T2,P6,G6)
「生徒は互いに影響を与えない」という前提の下で、変数は独立して分布していると考えることができます。Gradeに影響を与える可能性のある「他のすべての要因」は互いに独立しているという述べられていない仮定の下では、変数も互いに独立していると考えることができます。
最後に、教師はお互いに影響を与えないという述べられていない仮定の下で、変数をそれらの間で統計的に独立していると考えることができます。G i T 1、T 2PiGi
T1,T2
しかし、教師と生徒の間の関係に関してどのような因果関係/構造的仮定を行うかに関係なく、観察には同じランダム変数()が含まれ、観察も同じランダム変数()が含まれています。 s1,s2,s3T1s4,s5,s6T2
「同じランダム変数」と「同じ分布を持つ2つの異なるランダム変数」の違いに注意してください。
我々は上で定義した、まだそれから、私たちのサンプルを「教師が生徒に影響を与えない」ことを前提としていた場合でものでので、独立したサンプルではありませんを通じて統計的に依存しているながら、は介して統計的に依存しています。 s1,s2,s3T1s4,s5,s6T2
サンプルからランダム変数「教師」を除外するとします。6つの観測の(生徒、成績)サンプルは独立したサンプルですか?
ここでは、教師、生徒、学年の構造的関係について何をするかという仮定が重要です。
第一に、教師は、おそらく異なる「格付け態度/スタイル」を通じて、ランダム変数「Grade」に直接影響しますか?たとえば、は「タフなグレーダー」ですが、はそうではない場合があります。このような場合、変数「Teacher」が「見えない」ため、サンプルは独立しません。これは、共通の影響源(および他の3つについても同様に)に依存するのはであるためです)。 T1T2G1,G2,G3T1
しかし、教師はその点で同一であると言います。次に、「教師は生徒に影響を与える」という仮定の下で、最初の3つの観察結果は相互に依存していることが再びわかります。なぜなら、教師は成績に影響を与える生徒に影響を与え、この場合は間接的ではあるが、同じ結果に到達するからです(同様に、他の3)。この場合も、サンプルは独立していません。
ジェンダーの場合
ここで、6人の生徒全員が実際に同じ教師を持っていると仮定して、「教師に関して条件付きで独立した」(生徒、学年)6観察サンプルを作成しましょう(他の回答を参照)。しかし、それに加えて、サンプルにランダム変数 " = Gender"を含めましょう。これは、従来2つの値()を取りますが、最近はさらに多くの値を取り始めました。もう一度、3次元6観測サンプルがGeM,F
s1=(Ge1,P1,G1)s2=(Ge2,P2,G2)s3=(Ge3,P3,G3)s3=(Ge4,P4,G4)s4=(Ge5,P5,G5)s5=(Ge6,P6,G6)
我々はよろしく性別などの試料の説明に含まれてどのような、あることに注意して、慎重ではない、それはそれぞれの瞳のにかかる実際の値、しかし、確率変数「性別」。この非常に長い答えの最初を振り返ってみましょう。サンプルは、数値の集合(または固定の数値または一般的な値ではない)としてではなく、ランダム変数(つまり関数)の集合として定義されます。
さて、ある生徒の性別は、別の生徒の性別に(構造的または統計的に)影響しますか?そうではないと合理的に主張できます。したがって、その点から、変数は独立しています。瞳の性別い、、直接、他のいくつかの方法で他のいくつかの瞳に影響を与える()?うーん、私が問題について思い出すならば、教育理論と戦っています。そうならば、我々はそれがないことを前提としない、それをオフ観測間の依存関係の別の可能なソースになります。最後に、生徒の性別は他の生徒の成績に直接影響しますか?そうでないと主張する場合は、独立したサンプルを取得します 1Gei1、P 2、P 3、。。。Ge1P2,P3,... (同じ教師を持つすべての生徒に条件付き)。