統計的学習におけるiid仮定の重要性について

54

統計的学習では、暗黙的または明示的に、トレーニングセットは、同じ結合分布から独立して描画される入力/応答タプルで構成されると常に仮定しますと $\mathcal{D} = \{ \bf {X}, \bf{y} \}$ $N$ $({\bf{X}}_i,y_i)$ $\mathbb{P}({\bf{X}},y)$

p (X, y) = p (y | X) p (X)

$p({\bf{X}},y) = p( y \vert {\bf{X}}) p({\bf{X}})$

および $p( y \vert {\bf{X}})$ 特定の学習アルゴリズムを介して取得しようとしている関係。数学的には、このiidの仮定は次のように記述します。

\begin{matrix} (X_{i}, y_{i}) \sim P (X, y), \forall i = 1, . . ., N \\ (X_{i}, y_{i}) independent of (X_{j}, y_{j}), \forall i \neq j \in {1, . . ., N} \end{matrix}

$\begin{gather} ({\bf{X}}_i,y_i) \sim \mathbb{P}({\bf{X}},y), \forall i=1,...,N \\ ({\bf{X}}_i,y_i) \text{ independent of } ({\bf{X}}_j,y_j), \forall i \ne j \in \{1,...,N\} \end{gather}$

私たちは皆、この仮定が実際にはめったに満たされないことに同意できると思います。この関連するSEの質問と@Glen_bと@Lucaの賢明なコメントを見てください。

したがって、私の質問は次のとおりです。

実際にiidの仮定はどこで重要になりますか？

[状況]

特定のモデル（線形回帰法など）をトレーニングするためにこのような厳しい仮定が必要でない多くの状況を考えることができるか、少なくとも1つがiid仮定を回避してロバストな結果を得ることができるため、これを求めています。実際、結果は通常同じままであり、変化するのはむしろ描画できる推論です（たとえば、線形回帰における不均一分散性および自己相関整合HAC推定量：考えは古き良きOLS回帰重みを再利用するが、ガウスマルコフ仮定の違反を説明するためのOLS推定器の有限サンプル動作）。

私の推測では、ことがあるIID仮定は、特定の学習アルゴリズムを訓練することはできないことが要求されるのではなく、このような相互検証などの技術が実際にうまく一般化のモデルの性能の信頼性の高い測定を推測するために使用することができることを保証する、これ統計学習で1日の終わりに関心があるのは、データから実際に学習できることを示しているためです。直観的には、依存データでクロス検証を使用すると楽観的にバイアスがかかる可能性があることを本当に理解できます（この興味深い例で説明/説明されているように）。

したがって、私にとってiidは特定のモデルのトレーニングとは関係なく、そのモデルの一般化可能性に関係するすべてのものです。これは、Huan Xuらが見つけた論文と一致しているようです。ここで、「マルコフ標本のロバスト性と一般化可能性」を参照してください。

あなたはそれに同意しますか？

[例]

これは議論を助けることができる場合は、間でスマートな選択を行うためにLASSOアルゴリズムを使用することの問題を検討与えられています学習サンプルとさらに次のことを仮定できます。 $P$ $N$ $({\bf{X}}_i,y_i)$ $\forall i=1,...,N$

X_{i} = [X_{i 1}, . . ., X_{i P}]

${\bf{X}}_i=[X_{i1},...,X_{iP}]$

入力は、従ってIID仮定の違反をもたらす依存している（各特徴のために、例えば我々が観察、したがって時間的自己相関を導入し、ポイント時系列） ${\bf{X}}_i$ $j=1,..,P$ $N$
条件付き応答は独立しています。 $y_i \vert {\bf{X}}_i$
我々は持っている。 $P \gg N$

その場合、（完全なデータセットで）交差検証アプローチを使用してLASSOのペナリゼーション係数を決定することを計画している場合、iid仮定の違反が問題を引き起こす可能性があります+ネストされた交差検証を使用してこの学習戦略の一般化エラーを感じてください（有用である場合を除き、LASSOの固有の長所/短所に関する議論は無視できます）。 $\lambda$

— Quantuple
ソース

1

興味のある参照フレームワークを提供してください。そうすれば、議論はすべての方法にわたって広すぎることはありません。ここで線形回帰について話していますか？または、MLEを使用したパラメーターのポイント推定について話しているのでしょうか？それとも、CLTフレームワークについて話しているのでしょうか？

— グリーンパーカー

2

依存すると仮定する場合、ペナルティ付きロジスティック回帰では、対数尤度にペナルティを科します。データが独立していない場合、結合対数尤度を書き留めることができないため、関連する最適化問題を完了できません。

y_{i}

$y_i$

— グリーンパーカー

1

いいえ、私は逆に考えています-iidの仮定にすばやくジャンプすると、

ラグを、それらが必要ないと信じて（不偏性などの目的のために、予測力を損なうために）誤って含めることができない場合があります。

y

$y$

— クリストフハンク

3

私は、独立性の仮定が「一般に違反する」ことに同意しません。時系列は非常に特殊なケースであり、典型的な例ではなく例外です。Iidの仮定により、モデルを簡素化し、よりpar約的なモデルを構築できます。また、頻繁に作成することもできます（たとえば、ケースはランダムに描画されるため、独立と見なすことができます）。

— ティム

2

y_{i}

$y_i$

X_{i}

$\mathbf{X}_i$

i

$i$

32

$(\mathbf{X}_i, y_i)$ $i = 1, \ldots, N$

基本的な仮定

$y$ $\mathbf{X}$ $p(y \mid \mathbf{X})$

$y_i$ $X_i$ $p(y_i \mid X_i)$

$y_i$ $i$ $X_i$ $\mathbf{X}_i$

以下では、主に独立の役割に焦点を当てます。

モデリング

$y$ $\mathbf{X}$

$p(y \mid \mathbf{X})$ $y_i$ $\mathbf{X}_i$ $\mathbf{X}_i$
$p(\mathbf{X}, y)$ $(\mathbf{X}, y)$ $p(\mathbf{X} \mid y)$ $p(y)$ $p(y \mid \mathbf{X})$

$p(y \mid \mathbf{X})$

一貫性とエラーの限界

$p(y \mid \mathbf{X})$ $p(y \mid \mathbf{X})$ $N$

$\mathbf{X}_i$ $\frac{1}{N} \mathbb{X}^T \mathbb{X} \to \Sigma$ $N \to \infty$ $\mathbb{X}$ $\mathbf{X}_i^T$

$N$

依存構造に関する詳細な知識がある場合は、モデリングに使用される作業独立性の仮定を、依存構造もキャプチャするモデルに置き換えることを選択できます。多くの場合、これは時系列で行われます。より良い作業モデルは、より効率的な方法をもたらすかもしれません。

モデル評価

$p(y \mid \mathbf{X})$ $p(y \mid \mathbf{X})$

バギングと同様に、データセットをランダムに分割すると、依存構造が「混乱」します。ただし、作業独立性の仮定に基づく方法の場合、評価の推定値が合理的であるためにはiidよりも弱いエルゴード性の仮定で十分です。ただし、これらの推定値の標準誤差を見つけるのは非常に困難です。

[ 編集：変数間の依存関係により、学習モデルの分布がiid仮定の分布とは異なります。交差検定によって生成された推定値は、一般化誤差とは明らかに関係していません。依存性が強い場合、推定値が低い可能性が高いでしょう。]

要約（tl; dr）

$p(y \mid \mathbf{X})$ $\mathbf{X}$

$y$ $\mathbf{X}$

学習方法を導き出すことができる有用な作業モデリングの仮定
一貫性を証明し、エラーの範囲を提供するための十分だが必須ではない仮定
学習用のバギングや評価用の相互検証などのランダムデータ分割手法を使用するための十分だが必須ではない仮定。

iidの代替として十分なものを正確に理解することは、自明ではなく、ある程度研究テーマです。

— NRH
ソース

2

これは非常に洗練された答えです。それはスポットであり、自習のための十分な参照を私に与えてくれます。その@NRHにとても感謝しています。質問に対する他の受験者を奨励するために賞金を残しますが、元の懸念事項をすべて美しく解決するため、すでに受け入れられた回答としてマークしました。

— クォンタップ

10

何IID仮定の状態は確率変数であるということである独立のかつ同一分布します。それが何を意味するかを正式に定義できますが、非公式には、すべての変数が互いに独立して同じ種類の情報を提供すると言います（関連する交換可能性についても読むことができます）。

抽象概念から少し具体的な例を見てみましょう。ほとんどの場合、データは行列に格納され、行ごとに変数が、列ごとに変数が格納されます。データがiidであると仮定する場合、列間の関係のみを気にする必要があり、行間の関係については気にする必要がないことを意味します。両方について悩んだ場合、列の列への依存と行の行、つまりすべてのすべての依存をモデル化することになります。単純化して、すべてに依存するすべての統計モデルを構築することは非常に困難です。

拡張性により、交差検証やブートストラップなどの方法を使用できるようになったことに気づきましたが、中心極限定理を使用することもでき、モデル化に役立つ簡素化を行うことができます（列方向の考え方））。

LASSOの例でお気づきのように、独立性の仮定はしばしば条件付き独立性に軟化されます。そのような場合でも、独立した同一の分散「パーツ」が必要です。あなたが言及した時系列モデルについても同様に、より柔軟な仮定がしばしば行われます。これは、定常性を前提としています（依存性がありますが、時間とともに一般的な分布と系列が安定します-再び「iid」部分）。それは、いくつかの一般的な現象について同じ考えを持つ多くの類似したものを観察することの問題です。多くの明確で依存するものがある場合、一般化することはできません。

覚えておく必要があるのは、これは単なる仮定であり、厳密ではないということです。それは、すべてが独立して、いくつかの一般的な現象に関する同様の情報を伝えるのに十分なものを持つことです。物事が互いに影響しあう場合、それらは明らかに同様の情報を伝えるので、それらはそれほど有用ではありません。

あなたが教室で子供たちの能力について学びたいと思ったので、彼らにいくつかのテストを与えてください。テスト結果を子供の能力の指標として使用できるのは、互いに独立して、自分でテストを行った場合のみです。彼らが相互作用した場合、おそらく最も賢い子供、または最も影響力のある子供の能力を測定するでしょう。それはあなたが子供たちの間に相互作用や依存関係が全くなかったと仮定する必要があることを意味するのではなく、彼らが自分でテストを行ったというだけです。また、子供は「同一に分散」する必要があるため、結果を解釈するのが難しくなるため、異なる国から来たり、異なる言語を話したり、異なる年齢になったりすることはできません（質問を理解せず、ランダムに答えたかもしれません）。データがiidであると仮定できる場合その後、一般的なモデルの構築に集中できます。非iidデータを扱うことはできますが、データの「ノイズ」をさらに心配する必要があります。

主な質問に加えて、非iidデータとの相互検証についても質問しています。iidの仮定の重要性を過小評価しているように見えますが、同時に、この仮定を満たしていないという問題が相互検証の原因であることを誇張しています。ブートストラップや相互検証などのリサンプリング方法を使用する場合、このようなデータを処理する方法は複数あります。時系列を処理している場合、値が独立していると仮定することはできません。そのため、値のランダムな部分を取得することは、データの自己相関構造を無視するため、悪い考えです。そのため、時系列では一般に1段階先の相互検証を使用しますつまり、次の値を予測するために系列の一部を取ります（モデリングには使用されません）。同様に、データにクラスター構造がある場合、クラスター全体をサンプリングして、データの性質を保持します。だから、モデリングと同じように、私たちは非を扱うことができるIID -snessもクロスバリデーションを行うとき、私たちは、のために設計された方法ので、データの性質に私達の方法を適応させる必要があるIIDデータは、このような場合には適用されません。

— ティム
ソース

y_{i} | X_{i}

$y_i \vert {\bf{X}}_i$

X_{i}

$\bf{X}_i$

（ctd）...言い換えれば、あなたの答えは間違いなくiidの概念にいくらかの光を当てるものですが、私は技術的にもっと知りたいと思います。

— クォンタップル

@Quantupleあなたは、ブートストラップなどのデータの時系列サンプルブロック全体では例えば、非IIDデータのためのメソッドを使用

— ティム

再度、感謝します。実際、そのようなテクニックについてどこかで読んだことを覚えています。すべての潜在的な候補メソッドを説明するソースはありますか？私はC. Bergmeir、R。Hyndman、B。Kooの論文に偶然出会ったばかりです。

— クォンタップ

1

@Quantupleは、ブートストラップについて読むために、EfronとTibshiraniによる古典的な「ブートストラップ入門」とDavisonとHinkleyによる「ブートストラップメソッドとその応用」をチェックします（クロス検証にも同じ考えが当てはまります）。時系列ハンドブックでは、このようなデータの相互検証とブートストラップの使用方法を説明しています（つまり、相互検証の一歩先）。編集内容も確認してください。

— ティム

3

iidを安全に無視できる唯一の場所は、学部統計と機械学習コースです。あなたはそれを書いた：

iidの仮定を回避して、堅牢な結果を得ることができます。実際、結果は通常同じままであり、描画することができるのはむしろ推測である...

これは、モデルの機能形式が基本的に正しいと想定される場合にのみ当てはまります。しかし、そのような仮定はiidよりももっともらしくありません。

モデリングの適用に関してiidが非常に重要になるには、少なくとも2つの方法があります。

あなたがあなたの質問で指摘しているように、それはほとんどの統計的推論における明示的な仮定です。ほとんどの実際のモデリングでは、変数の選択時やモデルの比較時など、ある段階で推論を使用して仕様をテストする必要があります。そのため、特定の各モデルの適合はiid違反にもかかわらず問題ないかもしれませんが、いずれにしても間違ったモデルを選択してしまう可能性があります。
iidの違反を通して考えることは、データ生成メカニズムを考えるのに役立つ方法であり、モデルの適切な仕様を先験的に考えるのに役立ちます。2つの例：
- データがクラスター化されている場合、これはiidの違反です。これに対する解決策は混合モデルかもしれません。混合モデルから描画する推論は、一般に、OLSから描画する推論とは完全に異なります。
- iidの調査の一環として残差を検査する場合、従属変数と独立変数の間の非線形関係がしばしば現れます。

もちろん、これまでに作成したほとんどのモデルでは、残差の分布を真の正規分布に近いものに減らすという探求に失敗しました。しかし、それにもかかわらず、私は本当に、本当に、それを一生懸命やろうとすることで、多くのことを常に得ています。

— ティム
ソース

非常に洞察に満ちた答えをありがとう。（1）の最後の文では、観測されたデータに適切にフィットする複数のモデルを使用できることを意味しますが、標準のモデル選択手法（クロス検証など）を使用する場合、最適なモデルを選択しません（一般化可能性の観点から）IID違反のために、あなたが描く推論は偏っているからですか？（2）あなたが書いたもの（ctd）を無効にしない機能仕様（例：回帰残差）の一部としてのIID残差についてのあなたの話のように思えます...

— Quantuple

（ctd）...しかし、元の質問は、モデルを推定した後の非iid残差ではなく、非iidトレーニングの例（x、y）に関連していました。私の質問は、非iidトレーニングの例（例：時系列）がある場合、前処理ステップを追加してiidにする必要があると思いますか？そうでない場合は、標準手順を適用してモデルを推定/相互検証しますが、注意点はどこですか？

— クォンタップル

1

非iidトレーニングの例がある場合、非iidの性質を考慮してiidである残差を生成するモデルを見つけることがアイデアです。データを前処理することが理にかなっている問題（線形回帰での変数の変換など）がありますが、多くのiid問題は、明示的にiid問題に対処するモデルを見つけることで対処できます。たとえば、時系列の伝達関数、または断面データの階層モデル。

— ティム

時系列データは通常何らかの形の依存関係を示すため、伝達関数などのように調整された統計モデルを介してこれをキャプチャすることを目指すのが自然であるという事実に同意します。これは、トレーニングに関する限りです。さて、相互検証（CV）に関する限り、私は非iid-nessを説明する特別な方法も必要だと思いますか？伝達関数を使用しても、そもそもデータがiidではないという事実は変わりませんでした。そのような特別なメソッドのリストはどこかにありますか？非iidデータで標準CVメソッドを使用する場合の楽観的バイアスはどのくらいですか？

— クォンタップル

1

それは、相互検証方法の性質と問題に依存します。私はトリックがiidの周りに暗黙的に構造化されていない相互検証メソッドを使用することだと思います。たとえば、ジャックナイフはほとんど意味がありません。しかし、サンプルを推定、テスト、および検証サンプルに分割すると、おそらくそうなります。しかし、これは実際には元の質問とは異なる質問であり、私の専門分野ではありません。

— ティム

2

私の意見では、iidの仮定が統計学習（または一般的な統計）で重要である2つのかなり一般的な理由があります。

舞台裏の数学の多くは、この仮定に依存しています。学習方法が実際に複数のデータセットで機能することを証明したい場合、最終的にiidの仮定が生じます。それを避けることは可能ですが、数学は数倍難しくなります。
データから何かを学びたい場合、学ぶべきことがあると仮定する必要があります。すべてのデータポイントが異なるメカニズムで生成される場合、学習は不可能です。そのため、特定のデータセットが何かで統一されると想定することが不可欠です。データがランダムであると仮定すると、確率分布は確率変数に関するすべての情報を含むため、これは当然確率分布です。

$x_1,...,x_n$ $x_i$ $F_n$

$(x_{1}, . . ., x_{n}) \sim F_{n} .$ $(x_1,...,x_n)\sim F_n.$
$F_n$ $F_m$ $n$ $m$ $n$ $F_n$ $F_n$ $n$ $F_n=F^n,$ $x_i\sim F$ $F_n$ $F_m$ $n$ $F$

— mpiktas
ソース

x

$x$

y

$y$

x

$x$

（ctd）...しかし、最初の箇条書きで述べたように、LASSOの一般化の特性を見ると、iidトレーニングの例の仮定が戻ってきます。いいと思うのは（そして私が必死に探しているのは推測だ）は、iidの仮定の違反がクロス検証推定器に楽観的なバイアスを導入する方法を示す参照/簡単な技術的説明です。

— クォンタップ

y_{i} = α + β_{1} x_{1 i} + ε_{i}

$y_i = \alpha + \beta_1 x_{1i} + \varepsilon_i$

i = 1, . . ., n / 2

$i=1,...,n/2$

y_{i} = α + β_{2} x_{2 i} + ε_{i}

$y_i=\alpha+\beta_2x_{2i}+\varepsilon_i$

i = n / 2 + 1, . . ., n

$i=n/2+1,...,n$

x_{1 i}

$x_{1i}$

x_{2 i}

$x_{2i}$

i = 1, . . ., n / 2

$i=1,...,n/2$

i = n / 2 + 1, . . ., n

$i=n/2+1,...,n$

x

$x$

E [y | X]

$E[y \vert X]$

1

状況によっては、データがiid ではなく、統計学習がまだ可能であることを強調したいと思います。すべての観測の共同分布のための識別可能なモデルを持つことが重要です。観測値がiidの場合、この結合分布は単一の観測値の周辺分布から簡単に取得できます。しかし、場合によっては、周辺分布に頼ることなく、共同分布が直接与えられます。

Y = X α + Z u + ε

$\let\epsilon\varepsilon Y = X \alpha + Z u + \epsilon$

Y \in R^{n}

$\def\R{\mathbb{R}}Y \in \R^n$

X \in R^{n \times p}

$X \in \R^{n\times p}$

α \in R^{p}

$\alpha \in \R^p$

Z \in R^{n \times q}

$Z \in \R^{n\times q}$

u \in R^{q}

$u \in \R^q$

ε \in R^{n}

$\epsilon\in\R^n$

X

$X$

Z

$Z$

α

$\alpha$

u

$u$

u \sim N (0, τ I_{q})

$\def\N{\mathcal{N}} u\sim \N(0,\tau I_q)$

ε \sim N (0, σ^{2} I_{n})

$\epsilon \sim \N(0,\sigma^2 I_n)$

τ

$\tau$

σ^{2}

$\sigma^2$

$Y$

Y \sim N (X α, τ Z Z^{'} + σ^{2} I_{n}) .

$Y \sim \N(X\alpha, \tau ZZ' + \sigma^2 I_n).$

α

$\alpha$

τ

$\tau$

σ^{2}

$\sigma^2$

Y

$Y$

n

$n$

— エルビス
ソース