データがIIDであると結論付けるのは、データそのものではなく、外部情報からのものです。科学者としてのあなたは、データの収集方法やその他の外部情報に基づいて、データIIDを想定することが妥当かどうかを判断する必要があります。
いくつかの例を考えてみましょう。
シナリオ1:2つの正規分布が混在する単一の分布から独立してデータのセットを生成します。
シナリオ2:最初に二項分布から性別変数を生成し、次に男性と女性の中で正規分布から独立してデータを生成します(ただし、男性と女性では正規分布が異なります)。その後、性別情報を削除または失います。
シナリオ1ではデータはIIDであり、シナリオ2ではデータは明らかに同一ではありませんが(男性と女性の異なる分布)、2つのシナリオの2つの分布はデータと区別がつかないため、データがどのようにあるかを知る必要があります違いを決定するために生成されました。
シナリオ3:私は自分の都市に住んでいる人々の簡単なランダムなサンプルを取り、調査を管理し、結果を分析して都市のすべての人々について推論します。
シナリオ4:私は自分の都市に住んでいる人々の簡単なランダムなサンプルを取り、調査を管理し、その結果を分析して、国内のすべての人々について推論します。
シナリオ3では、被験者は独立と見なされます(関心のある母集団の単純なランダムサンプル)が、シナリオ4では、関心のある母集団の小さなサブセットから選択されたため、独立とは見なされません。依存。ただし、2つのデータセットは同一です。この場合、データが独立しているか依存しているかを判断するのは、データを使用する方法です。
そのため、データのみがIIDであることを示すためにデータのみを使用してテストする方法はありません。プロットおよびその他の診断は非IIDの一部のタイプを示すことができますが、これらの欠如はデータがIIDであることを保証しません。特定の仮定と比較することもできます(IIDの方がIIDだけよりも反証しやすいです)。すべてのテストはまだ除外されていますが、テストを拒否しなければ、それがIIDであることを証明することはありません。
IID条件が成立すると仮定するかどうかの決定は、データの収集方法、他の情報との関係、および使用方法の科学に基づいて行う必要があります。
編集:
ここに、同一でない別の例のセットがあります。
シナリオ5:データは、不均一分散が存在する回帰の残差です(分散は等しくありません)。
シナリオ6:データは、平均が0で分散が異なる法線の混合物からのものです。
シナリオ5では、近似値または他の変数(予測子、または潜在的な予測子)に対して残差をプロットした場合、残差は同一に分布していないことがわかりますが、残差自体(外部情報なし)はシナリオ6と区別できません。