IIDサンプリングのテスト


16

サンプリングがIID(独立および同一分散)であることをどのようにテストまたはチェックしますか?ガウス分布および同一分布を意味するのではなく、単にIIDであることに注意してください。

そして、思い浮かぶのは、サンプルを同じサイズの2つのサブサンプルに繰り返し分割し、Kolmogorov-Smirnov検定を実行して、p値の分布が均一であることを確認することです。

そのアプローチに関するコメント、および提案を歓迎します。

バウンティを開始した後の明確化: 非時系列データに適用できる一般的なテストを探しています。


時系列データですか?
danas.zuokas

@ gui11aume「眼球」テストを試しましたか?つまり、データをプロットし、IIDに見えるかどうかを確認します。
マクロ

私はしていません。私はあなたが何を意味するのか分かりません:値をそれらが来る順にプロットします(おそらくランダム)そして、印象的なパターンの欠如を確認しますか?
-gui11aume


1
ごめんなさい。私は心の中で次の実行テスト持っていた:apprendre-en-ligne.net/random/run.htmlを(これはフランス語で書かれている)
ステファン・ローラン

回答:


14

データがIIDであると結論付けるのは、データそのものではなく、外部情報からのものです。科学者としてのあなたは、データの収集方法やその他の外部情報に基づいて、データIIDを想定することが妥当かどうかを判断する必要があります。

いくつかの例を考えてみましょう。

シナリオ1:2つの正規分布が混在する単一の分布から独立してデータのセットを生成します。

シナリオ2:最初に二項分布から性別変数を生成し、次に男性と女性の中で正規分布から独立してデータを生成します(ただし、男性と女性では正規分布が異なります)。その後、性別情報を削除または失います。

シナリオ1ではデータはIIDであり、シナリオ2ではデータは明らかに同一ではありませんが(男性と女性の異なる分布)、2つのシナリオの2つの分布はデータと区別がつかないため、データがどのようにあるかを知る必要があります違いを決定するために生成されました。

シナリオ3:私は自分の都市に住んでいる人々の簡単なランダムなサンプルを取り、調査を管理し、結果を分析して都市のすべての人々について推論します。

シナリオ4:私は自分の都市に住んでいる人々の簡単なランダムなサンプルを取り、調査を管理し、その結果を分析して、国内のすべての人々について推論します。

シナリオ3では、被験者は独立と見なされます(関心のある母集団の単純なランダムサンプル)が、シナリオ4では、関心のある母集団の小さなサブセットから選択されたため、独立とは見なされません。依存。ただし、2つのデータセットは同一です。この場合、データが独立しているか依存しているかを判断するのは、データを使用する方法です。

そのため、データのみがIIDであることを示すためにデータのみを使用してテストする方法はありません。プロットおよびその他の診断は非IIDの一部のタイプを示すことができますが、これらの欠如はデータがIIDであることを保証しません。特定の仮定と比較することもできます(IIDの方がIIDだけよりも反証しやすいです)。すべてのテストはまだ除外されていますが、テストを拒否しなければ、それがIIDであることを証明することはありません。

IID条件が成立すると仮定するかどうかの決定は、データの収集方法、他の情報との関係、および使用方法の科学に基づいて行う必要があります。

編集:

ここに、同一でない別の例のセットがあります。

シナリオ5:データは、不均一分散が存在する回帰の残差です(分散は等しくありません)。

シナリオ6:データは、平均が0で分散が異なる法線の混合物からのものです。

シナリオ5では、近似値または他の変数(予測子、または潜在的な予測子)に対して残差をプロットした場合、残差は同一に分布していないことがわかりますが、残差自体(外部情報なし)はシナリオ6と区別できません。


特に、この答えの最初の部分は、少し混乱(または混乱)しているようです。IIDであることは明確に定義されている数学的な性質確率変数の有限集合。2番目のケースのランダム変数が「性別情報を失った後に」取得される場合、シナリオ1と2 は同一です。どちらの場合も彼らはiidです!
枢機

GregSnow私はあなたの主張に完全には同意しません。データが同じ分布のランダム変数のシーケンスから来ていることを知っているかもしれません。どのモデルがそれを生成したのか正確にはわかりません。それは、それらが独立して生成されるか、あるいは定常時系列から交互に生成される可能性があります。どちらが当てはまるかを判断するには、同一の分布が正規分布であることを知っていると仮定します。次に、両方の可能性が定常シーケンスのカテゴリに分類され、ゼロ以外のラグ自己相関がすべて0である場合にのみiidになります。相関関係を確認するテストは完全に合理的です-Michael
R.

2
@cardinal、シナリオ2のデータが性別情報を失う前に同じように分散されないことに同意しますか?したがって、それらが同一ではない場合がありますが、違いを確認する唯一の方法は、調べている変数の外側の情報を使用することです(この場合は性別)。はい、IIDであることは明確に定義された数学的プロパティですが、整数であるため、データポイント3が浮動小数点数として格納された整数か、それがどこから来たかについての外部情報なしに丸められた連続値であるかどうかをテストできますから。
グレッグスノー

2
ZXiXj,ijXi|ZXj|ZZZ

ただし、上記のすべてのことは、データ自体だけでなく、データの収集/生成方法に関する情報を使用しています。また、時系列の自己相関が存在しないことをサポートするデータがある場合でも、空間相関や他のタイプの非独立性については何もわかりません。あらゆる種類の依存関係を実際にテストして、意味のある結果を得ることができますか?または、どのテストが有意義である可能性が最も高いかを示すために、データの収集方法に関する情報を使用する必要がありますか?
グレッグスノー

5

データにインデックスの順序がある場合、時系列にホワイトノイズテストを使用できます。本質的には、ゼロ以外のすべてのラグでの自己相関が0であることをテストすることを意味します。これにより、独立部分が処理されます。あなたのアプローチは、仮定の同一の分散部分に主に対処しようとしていると思います。あなたのアプローチにはいくつか問題があると思います。均一性をテストするのに十分なp値を得るには、多くの分割が必要だと思います。その後、各KSテストは電力を失います。データセットの一部で重複する分割を使用している場合、テストは相関されます。分割数が少ない場合、均一性のテストにはパワーがありません。しかし、多くの分割では、均一性テストは強力ですが、KSテストは強力ではありません。また、このアプローチは変数間の依存関係を検出する助けにはならないようです。

@ gu11aume非時系列の一般的なテストで何を求めているのかわかりません。空間データは、非時​​系列データの1つの形式を提供します。そこでは、バリオグラムと呼ばれる機能を見ることができます。1次元シーケンスの場合、時間順に並べられたシーケンスと、データを並べ替える他の方法との間に大きな違いは見られません。自己相関関数は引き続き定義およびテストできます。サンプリングの独立性をテストしたいと言うとき、サンプルが収集される順序があると思います。したがって、すべての1次元のケースは同じように機能すると思います。


2
(+1)これは私が考えていたことですが、「データにインデックスの順序がある場合、時系列にホワイトノイズテストを使用できます。本質的には、ゼロ以外のすべてのラグでの自己相関が0であることをテストすることを意味します」-この論理は、定常時系列を扱っている場合にのみ適用されますか?そうしないと、遅延相関について誤解を招く結果が得られる可能性があります。たとえば、時系列の「後の」部分だけが自己相関された場合はどうなりますか?
マクロ

1
@Macro OPへの質問に基づいて、それがあなたの心にあるものだと思いました。しかし、彼の反応がこれを指摘するのを待つ必要はないと思いました。独立を求めている場合に適用されます。しかし、私はあなたの主張を理解しています。実際には、最初のkラグのみをチェックします。シリーズが定常である場合、相関はkで低下しますが、非定常シリーズでは低下しません。そのため、少なくとも理論的には、非定常系列の大きな遅れで相関関係を見逃すことになります。
マイケルR.チャーニック

2
cor(yt,ys)=f(s,t)f(s,t)|st|

マイケルに答えてくれてありがとう!そのとおりです。データが時系列の場合、自己相関を確認するのが最善の方法です。スプリットKSアプローチに対するあなたの批判についても、あなたはポイントを持っています。そのため、一般的な(時系列ではない)場合のテストはまだ行われていません。
gui11aume

2
最初の非ゼロの自己相関はラグ60で、60の他の倍数でのみです。時系列の長さが55の場合、2つのポイント60ラグを隔てて観測することさえできません。したがって、ラグ60の相関が0かどうかを確認することはできません。系列の長さが65である場合、ラグ60の相関関係を推定できますが、5つのラグ60ペアのみに基づいています。したがって、推定の分散は大きく、この非ゼロの相関を検出する能力はありません。
マイケルR.チェルニック
弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.