「独立した観測」とはどういう意味ですか?


28

私は、独立した観測仮定が意味するものを理解しようとしています。いくつかの定義は次のとおりです。

  1. 「2つのイベントは、場合にのみ独立しています。」(統計用語辞書P(ab)=P(a)P(b)
  2. 「あるイベントが発生しても、別のイベントの確率は変わりません」(ウィキペディア)。
  3. 「1つの観測値のサンプリングは、2番目の観測値の選択に影響しません」(David M. Lane)。

しばしば与えられる従属的な観察の例は、以下のように教師内にネストされた学生です。教師は生徒に影響を与えますが、生徒はお互いに影響を与えないと仮定しましょう。

では、これらのデータの定義はどのように違反されますか?[student = 1]のサンプリング[grade = 7]は、次にサンプリングされるグレードの確率分布に影響しません。(または、もしそうなら、観測1は次の観測に関して何を予測しますか?)

gender 代わりに 測定した場合、観測はなぜ独立しているteacher_idでしょうか?同じように観測に影響しませんか?

teacher_id   student_id   grade
         1            1       7
         1            2       7
         1            3       6
         2            4       8
         2            5       8
         2            6       9

4
教師1の評点の分布は、教師2の評点よりも低い「平均」値を持ち、したがって、教師1の生徒はすべて、教師2の生徒よりも平均して低い評点を持つ傾向があることを示唆します。 、2人の教師の生徒/学年の分布は異なる分布になる可能性があります。観測を従属させるにはこれで十分です。
モニカの復活-G.シンプソン14

1
@GavinSimpson:私はこの正確な推論の行について考えてきました。しかし、私は何を交換した場合teachergender?性別は、ほとんどの社会科学データに存在し、ほぼあらゆるものとある程度相関しています。
ルーベンゲルト14

1
応答に確実に依存する必要があります。英国の科学の学生の学年を見ると、おそらくあなたが勉強している母集団全体で、2つの性別の達成度の分布が異なるという影響があるでしょう。とにかく、これらのすべては、残差に対してのみ(統計モデルにおいて)重要であるか、または適合モデルに条件付けられた応答に対して異なって置かれます。つまり、観測値が独立していない場合、残差が独立するようにモデルがこれを説明する限り、それは問題ありません。
モニカの復職-G.シンプソン14

4
(統計)独立性の定義として(1)または(2)のいずれかを取ることはできません。なぜなら、独立性は因果関係に関係なく定義できるからです。3つの引用はすべて、非公式で直感的な例を提供するための努力にすぎません。((3)情報量の定量的で厳密な定義にアクセスできれば、定義と見なされる可能性があります。)したがって、「定義」という見出しの下に表示されるような実際の定義を参照することをお勧めします。あなたが参照するウィキペディアの記事で。
whuber

1
いいえ、残差を独立させることができます(または、少なくとも残差が独立して見える程度まで依存関係を減らします)。これは、線形モデルの仮定から来ています。ここで、は相関行列です。通常の仮定では、は単位行列であるため、非対角要素はゼロであるため、独立性の仮定は残差に基づいています。別の言い方をすれば、これは近似モデルを条件とするに関するステートメントです。Λ Λ YεN(0,σ2Λ)ΛΛy
モニカの復職-G.シンプソン14

回答:


11

確率理論では、統計的独立性(因果的独立性とは異なります)はあなたの財産(3)として定義されますが、(1)は結果としてとして続きます。イベントおよびは、次の場合にのみ統計的に独立していると言われます。A BAB

P(AB)=P(A)P(B).

場合場合はそれを次のP(B)>0

P(A|B)=P(AB)P(B)=P(A)P(B)P(B)=P(A).

これは、統計的な独立性は、1つのイベントの発生が他のイベントの確率に影響しないことを意味することを意味します。別の言い方をすれば、あるイベントが発生しても、他のイベントに対するあなたの信念が変わるべきではないということです。統計的独立性の概念は一般に、連続ランダム変数(特定の結果の確率がゼロ)を含むランダム変数に対して類似のステートメントを作成できるように、イベントからランダム変数に拡張されます。ランダム変数の独立性の扱いには、基本的に分布関数に適用される同じ定義が含まれます。


独立性は非常に強力な特性であるということを理解することが重要です。イベントが統計的に独立している場合、(定義により)一方を観察することから他方を学習することはできません。このため、一般的に統計モデルには、基礎となる分布またはパラメーターがある場合、条件付き独立性の仮定が含まれます。正確な概念フレームワークは、ベイジアン法を使用しているか、古典的な方法を使用しているかによって異なります。前者には、観測可能な値間の明示的な依存関係が含まれ、後者には、(複雑で微妙な)暗黙的な依存関係が含まれます。この問題を適切に理解するには、古典的統計とベイジアン統計の少しの理解が必要です。

統計モデルは、多くの場合、ランダム変数のシーケンスが「独立かつ同一分布(IID)」であるという仮定を使用すると言います。たとえば、観測可能なシーケンスがあります。これは、各観測可能なランダム変数が平均正規分布することを意味しますおよび標準偏差X I μ σX1,X2,X3,...IID N(μ,σ2)Xiμσ。シーケンス内の各ランダム変数は、その結果が他の値の指定された分布を変更しないという意味で、他のランダム変数とは「独立」しています。この種のモデルでは、シーケンスの観測値を使用してモデル内のパラメーターを推定し、次にシーケンスの未観測値を予測できます。これには必然的に、いくつかの観測値を使用して他の値を知ることが含まれます。

ベイジアン統計:すべては概念的にシンプルです。が条件付きIIDで、パラメーターおよび与えられていると仮定しそれらの未知のパラメーターをランダム変数として扱います。これらのパラメーターの非縮退事前分布が与えられると、観測可能なシーケンスの値は(無条件に)依存し、一般に正の相関があります。したがって、観察された結果を使用して、後で観察されない結果を予測することは完全に理にかなっています。それらは条件付きで独立していますが、無条件に依存しています。μ σX1,X2,X3,...μσ

古典統計:これは非常に複雑で微妙です。は、パラメーターおよびが与えられたIIDであると仮定しが、これらのパラメーターを「不明な定数」として扱います。パラメーターは定数として扱われるため、この場合、条件付き独立と無条件独立の間に明確な違いはありません。それでも、観測値を使用してパラメーターを推定し、観測値の予測を行います。したがって、観察された結果を使用して、概念的には互いに「独立」していても、後で観察されない結果を予測します。この明らかな不一致については、O'Neill、B.(2009)Exchangeability、Correlation and Bayes 'Effectで詳しく説明されています。 μ σX1,X2,X3,...μσ国際統計レビュー 77(2)、pp。241-250


あなたの生徒の成績データにこれを適用すると、あなたはおそらくモデルであろうと仮定して、このようなものgradeである条件付き独立した与えられましたteacher_id。このデータを使用して、各教師の評定分布(これは同じとは想定されません)について推論を行い、これによりgrade、他の生徒の未知について予測を行うことができます。grade変数は推論で使用されるため、grade他の生徒の未知の変数の予測に影響します。に置き換えteacher_idgenderもこれは変わりません。どちらの場合でも、予測変数として使用できる変数がありますgrade

ベイジアン法を使用する場合、条件付き独立性の明示的な仮定と教師の成績分布の事前分布があり、これにより成績の無条件(予測)依存性が生じ、ある成績を別の成績の予測に合理的に使用できます。古典的な統計を使用している場合、(「不明な定数」であるパラメーターに基づいて)独立の仮定があり、あるグレードを使用して別のグレードを予測できる古典的な統計予測方法を使用します。


条件付き確率ステートメントを介して独立性を定義し、結果として結合確率ステートメントを与える確率理論の基本的なプレゼンテーションがいくつかあります。これはあまり一般的ではありません。


6
統計的独立性は、あなたが答えの最初の部分で説明するものです。しかし、あなたの文章は「...イベントが統計的に独立している場合、(定義により)一方を観察することで一方について学ぶことはできません。」ある露骨に間違っています。世界は統計的に独立していますが、類似したイベントとランダム変数でいっぱいです。
アレコスパパドプロス

1
「学習」とは、別のものの観察に基づいて、あるものについての私たちの信念を変えることを意味しませんか?もしそうなら、独立は(定義上)これを排除しませんか?
モニカの復活

6
@Alecosのコメントと同様のコメントをするつもりでした。全体的な印象としては、ランダム変数の1つの実現を観察してもその分布については何もわからないため、2番目の独立した実現については何も予測できないと主張しているということです。これが当てはまる場合、サンプリングと推定の理論のほとんどを開発することは不可能です。しかし、を知っていて、1つの実現を観察した場合、他の独立した実現に関する追加情報は提供されないという意味で、あなたは正しいです。FFF
whuber

4
ここでの問題は、分布持つ標準的なIIDモデルが知識が与えられた場合に条件付き独立性の仮定を暗黙的に使用していることだと思います。知識を条件として、観測は独立していますが、無条件で各観測がに関する情報を提供する状況があり、それが他の観測に関する信念に影響を与えます。F F FFFFF
モニカの復活

2
この問題の難点は、古典的な統計が基礎となる分布とパラメーターを「未知の定数」として扱い、したがってこの場合、条件付きまたは無条件の独立性を明確に区別しないことです。ベイジアン統計では、すべて非常に単純です。
モニカを

4

してみましょうによるすなわち次元ランダムベクトル、ランダム変数の固定位置のコレクション(測定可能な実関数)。x=(X1,...,Xj,...,Xk)k

このような多くのベクトル、たとえば考慮し、これらのベクトルにインデックスを付けるため、たとえばni=1,...,n

xi=(X1i,...,Xji,...,Xki)
そしてそれらを「サンプル」と呼ばれるコレクションと見なします。次に、各次元ベクトルを「観測」と呼びます(ただし、関与するランダム変数の実現を測定して記録すると、実際に1つになります)。S=(x1,...,xi,...,xn)k

最初に、確率質量関数(PMF)または確率密度関数(PDF)のいずれかが存在する場合を扱い、そのような関数を結合します。表すジョイントPMF又は各ランダムベクトルの関節PDF、およびこれらすべてのベクトルのジョイントPMFまたはジョイントPDF。 fi(xi),i=1,...,nf(x1,...,xi,...,xn)

次に、以下の数学的等式が成り立つ場合、サンプルは「独立サンプル」と呼ばれます。S

f(x1,...,xi,...,xn)=i=1nfi(xi),(x1,...,xi,...,xn)DS

ここで、 は、ランダムなベクトル/観測によって作成されたジョイントドメインです。 nDSn

これは、「観測」が「共同で独立」していることを意味します(統計的な意味で、または今日でも時々見られる古いことわざのように「確率で独立」)。習慣は、単にそれらを「独立した観測」と呼ぶことです。

ここでの統計的独立性は、インデックス超えている、つまり観測間であることに注意してください。観測の確率変数間の確率的/統計的関係とは無関係です(一般的な場合、ここでは、各観測が多次元である場合を扱います)。i

また、密度のない連続ランダム変数がある場合、上記は分布関数の観点から表現できることに注意してください。

これが「独立した観測」の意味です。これは、数学用語で表現される正確に定義されたプロパティです。それが意味するもののいくつかを見てみましょう。

独立した観測結果のいくつかの結果

A. 2つの観測値が共同で独立した観測値のグループの一部である場合、「ペアワイズ独立」(統計的に)、

f(xi,xm)=fi(xi)fm(xm)im,i,m=1,...,n

これは、条件付きPMF / PDFが「限界」のものと等しいことを意味します。

f(xixm)=fi(xi)im,i,m=1,...,n

これは、条件付きまたは条件付きの多くの引数に一般化されます。

f(xi,xxm)=f(xi,x),f(xixm,x)=fi(xi)

など、左側のインデックスが垂直線の右側のインデックスと異なる限り。

これは、1つの観測値を実際に観測しても、サンプルの他の観測値を特徴付ける確率は変わらないことを意味します。そのため、予測に関しては、独立したサンプルは私たちの親友ではありません。各観測が他の観測について何かを言うのに役立つように、我々は依存関係を持つことを好むでしょう。

B.一方、独立したサンプルには最大の情報コンテンツがあります。独立したすべての観測は、サンプル内の他の観測によって全体的または部分的に推測できない情報を運びます。そのため、いくつかの観測値の間に統計的依存性が存在する比較可能なサンプルと比較して、合計は最大になります。しかし、予測の改善に役立たない場合、この情報はどのような用途に役立ちますか?

さて、これはサンプル内のランダム変数を特徴付ける確率に関する間接的な情報です。サンプルが独立している場合、これらの観測値が共通の特性(この場合は共通の確率分布)を持っているほど、それらを明らかにするためのより良い位置にいます。

つまり、サンプルが独立しており、「同一に分布している」場合は、

fi(xi)=fm(xm)=f(x),im

共通の同時確率分布でなく、各観測値を構成するランダム変数の周辺分布、たとえばについての情報を取得するための最良のサンプルです。 f(x)fj(xji)

したがって、たとえであるため、実際の実現に関して、独立した同じ分布のサンプルで追加の予測力はゼロですが、関数(またはそのプロパティの一部)、すなわち周辺分布を明らかにする位置。f(xixm)=fi(xi)xi fi

したがって、推定(これは包括的用語として使用されることもありますが、ここでは予測の概念とは区別する必要があります)に関して、「同一の分布」と組み合わせた場合、独立したサンプル「ベストフレンド」になります「プロパティ。

C.また、それぞれがまったく異なる確率分布で特徴付けられ、共通の特性をまったく持たない観測の独立したサンプルは、得ることができる情報のコレクションと同じくらい価値のないことです(もちろん、すべての情報はふさわしい、ここでの問題は、これらを組み合わせて有用なものを提供することはできないということです)。3つの観測値を含むサンプルを想像してください。1つは南アメリカの果物(の量的特性)を含み、もう1つはヨーロッパの山を含み、3つ目はアジアの衣服を含みます。これらの3つすべては非常に興味深い情報ですが、サンプルとしては、統計的に有用なことは何もできません。

別の言い方をすれば、独立したサンプルが有用であるための必要十分条件は、観測に共通の統計的特徴があることです。これが、統計では、「サンプル」という言葉が「情報の収集」一般と同義ではなく、「いくつかの共通の特徴を持つエンティティに関する情報の収集」と同義語である理由です。

OPのデータ例への適用

ユーザー@gungからのリクエストに応答して、上記に照らしてOPの例を調べてみましょう。私たちは、2人以上の教師と6人以上の生徒がいる学校にいると合理的に想定しています。したがって、a)生徒と教師の両方をサンプリングし、b)データセットに各教師と生徒の組み合わせに対応するグレードを含めます。

つまり、評点は「サンプリング」されたものではなく、教師や生徒に対して行ったサンプリングの結果です。したがって、ランダム変数(= grade)を「従属変数」として扱い、生徒()と教師は「説明変数」(すべての可能な説明変数ではなく、一部だけ)として扱うのが合理的です。サンプルは、として明示的に記述する6つの観測で構成されGPTS=(s1,...,s6)

s1=(T1,P1,G1)s2=(T1,P2,G2)s3=(T1,P3,G3)s3=(T2,P4,G4)s4=(T2,P5,G5)s5=(T2,P6,G6)

「生徒は互いに影響を与えない」という前提の下で、変数は独立して分布していると考えることができます。Gradeに影響を与える可能性のある「他のすべての要因」は互いに独立しているという述べられていない仮定の下では、変数も互いに独立していると考えることができます。 最後に、教師はお互いに影響を与えないという述べられていない仮定の下で、変数をそれらの間で統計的に独立していると考えることができます。G i T 1T 2PiGi
T1,T2

しかし、教師と生徒の間の関係に関してどのような因果関係/構造的仮定を行うかに関係なく観察には同じランダム変数()が含まれ観察も同じランダム変数()が含まれています。 s1,s2,s3T1s4,s5,s6T2

「同じランダム変数」と「同じ分布を持つ2つの異なるランダム変数」の違いに注意してください。

我々は上で定義した、まだそれから、私たちのサンプルを「教師が生徒に影響を与えない」ことを前提としていた場合でものでので、独立したサンプルではありませんを通じて統計的に依存しているながら、は介して統計的に依存しています。 s1,s2,s3T1s4,s5,s6T2

サンプルからランダム変数「教師」を除外するとします。6つの観測の(生徒、成績)サンプルは独立したサンプルですか? ここでは、教師、生徒、学年の構造的関係について何をするかという仮定が重要です。

第一に、教師は、おそらく異なる「格付け態度/スタイル」を通じて、ランダム変数「Grade」に直接影響しますか?たとえば、は「タフなグレーダー」ですが、はそうではない場合があります。このような場合、変数「Teacher」が「見えない」ため、サンプルは独立しません。これは、共通の影響源(および他の3つについても同様に)に依存するのはであるためです)。 T1T2G1,G2,G3T1

しかし、教師はその点で同一であると言います。次に、「教師は生徒に影響を与える」という仮定の下で、最初の3つの観察結果は相互に依存していることが再びわかります。なぜなら、教師は成績に影響を与える生徒に影響を与え、この場合は間接的ではあるが、同じ結果に到達するからです(同様に、他の3)。この場合も、サンプルは独立していません。

ジェンダーの場合

ここで、6人の生徒全員が実際に同じ教師を持っていると仮定して、「教師に関して条件付きで独立した」(生徒、学年)6観察サンプルを作成しましょう(他の回答を参照)。しかし、それに加えて、サンプルにランダム変数 " = Gender"を含めましょう。これは、従来2つの値()を取りますが、最近はさらに多くの値を取り始めました。もう一度、3次元6観測サンプルがGeM,F

s1=(Ge1,P1,G1)s2=(Ge2,P2,G2)s3=(Ge3,P3,G3)s3=(Ge4,P4,G4)s4=(Ge5,P5,G5)s5=(Ge6,P6,G6)

我々はよろしく性別などの試料の説明に含まれてどのような、あることに注意して、慎重ではない、それはそれぞれの瞳のにかかる実際の値、しかし、確率変数「性別」。この非常に長い答えの最初を振り返ってみましょう。サンプルは、数値の集合(または固定の数値または一般的な値ではない)としてではなく、ランダム変数(つまり関数)の集合として定義されます。

さて、ある生徒の性別は、別の生徒の性別に(構造的または統計的に)影響しますか?そうではないと合理的に主張できます。したがって、その点から、変数は独立しています。瞳の性別い、、直接、他のいくつかの方法で他のいくつかの瞳に影響を与える()?うーん、私が問題について思い出すならば、教育理論と戦っています。そうならば、我々はそれがないことを前提としない、それをオフ観測間の依存関係の別の可能なソースになります。最後に、生徒の性別は他の生徒の成績に直接影響しますか?そうでないと主張する場合は、独立したサンプルを取得します 1Gei1、P 2P 3Ge1P2,P3,... (同じ教師を持つすべての生徒に条件付き)。


私はあなたのポイントBに同意しません。平均を推定するなどの目的のために、負の相関は独立よりも優れています。
kjetil bハルヴォルセン

@kjetilどんな意味でベター?
アレコスパパドプロス

これをテキスト内のOPの質問に具体的に結びつけることができれば助かります。これを考えると、リストされた観察結果が独立していないことをどのように理解できますか?&教師を辞めることはセックスを辞めることとどのように違いますか?
GUNG -復活モニカ

@gungあなたが提案した行に沿っていくつかの詳細を含めました。
アレコスパパドプロス

分散を減らすという意味で良い
kjetil b halvorsen

2

投稿で提供する統計的独立性の定義はすべて本質的に正しいですが、統計モデルでの独立性の前提の中心にはなりません。統計モデルの独立した観測値の仮定が意味することを理解するには、統計モデルが概念レベルで何であるかを再検討することが役立ちます。

「自然のサイコロ」の近似としての統計モデル

おなじみの例を使用してみましょう:成人のランダムなサンプルを収集し(明確に定義された人口-たとえば地球上のすべての成人の人間から)、身長を測定します。成人の人口の平均身長を推定したいと思います。これを行うには、人々の身長が正規分布から生じると仮定して、単純な統計モデルを構築します。

自然が人々の身長をどのように「ピッキング」するかについて、正規分布が適切な近似を提供する場合、我々のモデルは良いモデルになります。つまり、通常のモデルでデータをシミュレートする場合、結果のデータセットは、(統計的な意味で)自然界で観察されるものによく似ていますか?モデルのコンテキストでは、乱数ジェネレーターは、ランダムに選択された人間の大人の身長を決定するために自然が使用する複雑な確率過程(「自然のサイコロ」)の優れたシミュレーションを提供しますか?

単純なモデリングコンテキストでの独立性の仮定

正規分布から乱数を引くことで「自然のサイコロ」に近づけることができると仮定した場合、正規分布から1つの数値を引いて、その高さをすべての人に割り当てるという意味ではありません。私たちは、同じ正規分布から全員に独立して数字を引くことを意味しました。これが私たちの独立の前提です。

今、私たちの大人のサンプルはランダムなサンプルではなく、少数の家族から来たと想像してください。一部の家族では背が高くなり、他の家族では背が低くなります。すべての成人の身長は、1つの正規分布に由来すると仮定したいと既に述べています。ただし、正規分布からのサンプリングでは、サンプルのように見えるデータセットは提供されません(サンプルはポイントの「塊」、短いもの、高いものを示します-各塊はファミリです)。サンプルの人々の身長は、全体的な正規分布から独立したものではありません。

より複雑なモデリングコンテキストにおける独立性の仮定

しかし、すべてが失われるわけではありません!サンプルのより優れたモデル、つまり高さの独立性を保持するモデルを書き留めることができるかもしれません。たとえば、身長が正規分布から生じる線形モデルを書き出すことができ、その平均は被験者が属する家族に依存します。この文脈では、正規分布は、家族の影響を考慮した後の残留変動を表します。そして、正規分布からの独立したサンプルは、この残留変動の良いモデルかもしれません。

全体として、私たちが行ったことは、研究の文脈で自然のサイコロがどのように振る舞うと予想されるかについて、より洗練されたモデルを書き留めることです。良いモデルを書き留めることで、モデルのランダムな部分(つまり、家族の平均を取り巻くランダムな変動)が母集団の各メンバーに対して独立してサンプリングされると仮定することを正当化できます。

一般的なモデリングコンテキストにおける(条件付き)独立性の仮定

一般に、統計モデルは、データが何らかの確率分布から生じると仮定して機能します。その分布のパラメーター(上記の例の正規分布の平均など)は、共変量(上記の例の族のような)に依存する場合があります。しかし、もちろん無限のバリエーションが可能です。分布は正規ではないかもしれません。共変量に依存するパラメーターは平均ではないかもしれません。依存関係の形式は線形ではないかもしれません。これらのモデルはすべて、自然のサイコロの合理的な近似を提供するという仮定に依存しています振る舞い(ここでも、モデルの下でシミュレートされたデータは、自然から得られた実際のデータと統計的に類似しているように見えます)。

モデルの下でデータをシミュレートする場合、最後のステップは常に、モデル化された確率分布に従って乱数を描画することです。これらは、互いに独立していると想定されるドローです。共変量またはモデルの他の特徴により、異なる描画(または描画のセット)に異なる確率分布を使用するように指示される可能性があるため、取得する実際のデータは独立しているようには見えません。ただし、この情報はすべてモデル自体に組み込む必要があります。他のデータポイントに対してどの値を使用したかに応じて、最終的な乱数を描画することはできません。したがって、独立している必要があるイベントは、モデルのコンテキストでの「自然のサイコロ」のロールです。

この状況を条件付き独立と呼ぶと便利です。つまり、共変量が与えられている(つまり条件付けられている)データポイントは互いに独立しているということです。私たちの身長の例では、私の身長と私の家族に条件付けられている私の兄弟の身長は互いに独立しており、あなたの身長とあなたの家族に条件付けられている妹の身長にも依存していないと仮定します。誰かの家族がわかれば、身長をシミュレートするためにどの正規分布から引き出されるかがわかります。また、異なる個人の引き分けは、家族に関係なく独立しています(どの正規分布から引き出すかは家族によって異なります)。データの家族構造を扱った後でも、条件付き独立性が十分に達成されない可能性があります(たとえば、性別をモデル化することも重要です)。

最終的に、観測の条件付き独立性を仮定することが理にかなっているかどうかは、特定のモデルのコンテキストで実行する必要がある決定です。これが、たとえば、線形回帰では、データが正規分布に由来することを確認しませんが、RESIDUALSが正規分布に由来することを確認します(そして、データ)。線形回帰は、共変量の影響(回帰直線)を考慮した後、元の投稿の独立性の厳密な定義に従って、データが正規分布から独立してサンプリングされることを前提としています。

あなたの例の文脈で

データの「先生」は、身長の例の「家族」のようになります。

最後のスピン

多くの馴染みのあるモデルは、残差が正規分布から生じると仮定しています。非常に明らかに正常ではないデータをいくつか与えたとします。たぶん、それは強く歪んでいるか、あるいは二峰性です。そして、これらのデータは「正規分布からのものです」と言いました。

「まさか」とあなたは言う、「それらが正常ではないことは明らかです!」

「データが正常であると言ったのは誰ですか?」私は言う。「それらは正規分布からのものだと言っただけです。」

「同じもの!」あなたは言う。「正規分布からの適度に大きいサンプルのヒストグラムは、ほぼ正規に見える傾向があることを知っています!」

「しかし、私は、データが正規分布から独立してサンプリングされたとは決して言いませんでした。DOは正規分布から得られますが、独立した描画ではありません。」

統計モデリングにおける(条件付き)独立性の仮定は、私のようなスマートアレックが残差の分布を無視してモデルを誤って適用するのを防ぐためにあります。

最後の2つのメモ

1)「自然のサイコロ」という用語はもともと私のものではありませんが、いくつかの参考文献を参照したにもかかわらず、この文脈でどこで入手したのかわかりません。

2)一部の統計モデル(自己回帰モデルなど)は、このように観測値の独立性を必要としません。特に、特定の観測値のサンプリング分布は、固定共変量だけでなく、その前のデータにも依存することができます。


これをありがとう。私はそれが非常にアクセスしやすい方法で置かれているのが好きです。教師にとってこれがどのように機能するかという問題に対処しますが、ディスカッションを拡張して、共変量としてのセックスの考え方にも対処できますか?
GUNG -復活モニカ
弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.