反復期待法則の一般化

43

私は最近このアイデンティティに出会いました：

E [E (Y | X, Z) | X] = E [Y | X]

$E \left[ E \left(Y|X,Z \right) |X \right] =E \left[Y | X \right]$

もちろん、そのルールのより単純なバージョン、つまり $E \left[ E \left(Y|X \right) \right]=E \left(Y\right)$ には精通していますが、その一般化の正当性を見つけることができませんでした。

誰かがその事実についてそれほど技術的ではない参考文献を教えてくれたり、さらに良いことに、誰かがこの重要な結果の簡単な証拠を提示してくれたら、ありがたいです。

self-study conditional-probability conditional-expectation

— JohnK
ソース

2

自体がいくつかの条件付けられていた場合、これはより単純なバージョンから正確に外れませんか？

y

$y$

x

$x$

— Mehrdad

36

非公式の治療

ランダム変数を条件とする表記は不正確ですが、経済的ではありますが表記として不正確であることを覚えておく必要があります。実際には、これらのランダム変数が生成するシグマ代数を条件としています。つまり、を意味するように意図された。このコメントは「非公式の扱い」では場違いに見えるかもしれませんが、条件エンティティはセットのコレクションであることを思い出させます（そして、単一の値を条件とする場合、これはシングルトンセットです）。そして、これらのセットには何が含まれていますか？情報が含まれています $E[Y\mid X]$ $E[Y\mid \sigma(X)]$ ランダム変数の可能な値は、の実現で何が起こるかについて私たちに提供します。情報の概念を取り入れることで、反復的な期待の法則（「タワープロパティ」と呼ばれることもある）を非常に直感的な方法で考える（使用する）ことができます。2つのランダム変数によって生成されるシグマ代数は、少なくとも一個のランダム変数によって生成されるような大適切な集合論的意味で。だから、情報について中に含まれる $X$ $Y$

$\sigma (X) \subseteq \sigma(X,Z)$ $Y$ は対応する情報と少なくとも同じくらい大きいです。今、表記ほのめかしとして、セット及び。次に、私たちが見ている方程式のLHSを書くことができます $\sigma(X,Z)$ $\sigma (X)$
$\sigma (X) \equiv I_x$ $\sigma(X,Z) \equiv I_{xz}$

上記の表現を口頭で説明します：「利用可能な情報のみがある場合、{情報与えられたの期待値}の期待は？」

E [E (Y | I_{x z}) | I_{x}]

$E \left[ E \left(Y|I_{xz} \right) |I_{x} \right]$

Y

$Y$

I_{x z}

$I_{xz}$

I_{x}

$I_x$

どういうわけか「考慮する」ことができますか？いいえ- しか知りません。しかし、（解決したい表現によって義務付けられているように）持っているものを使用する場合、基本的に期待演算子の下でについて物事を言っています。つまり、「」と言います。情報を使い果たしました。 $I_{xz}$ $I_x$ $Y$ $E(Y\mid I_x)$

したがって、

E [E （ Y | 私_{バツ z} ） | 私_{バツ}] = E （ Y | 私_{バツ} ）

$E \left[ E \left(Y|I_{xz} \right) |I_{x} \right] = E\left(Y|I_{x} \right)$

他の誰かがそうしない場合、私は正式な治療のために戻ります。

A（もう少し）正式な治療

確率理論の2つの非常に重要な本、P。ビリングスリーの確率と測定（3d ed.-1995）およびD.ウィリアムズ「Probability with Martingales」（1991）が、「反復期待法則」を証明する問題をどのように扱うかを見てみましょう。
ビリングスリーは、証拠に正確に3行を費やしています。ウィリアムズ、私は引用します、と言います

「（タワープロパティ）は、条件付き期待値の定義から事実上即時です」。

これは1行のテキストです。ビリングスリーの証明は、それほど不透明ではありません。

当然です：条件付き期待のこの重要で非常に直感的なプロパティは、その定義から本質的に直接（そしてほぼ即座に）派生します-唯一の問題は、この定義は通常、確率の外側で教えられていないか、少なくとも強調されていないことですまたは理論円を測定します。ただし、（ほぼ）3行で反復期待値の法則が成り立つことを示すために、条件付き期待値の定義、またはむしろその定義プロパティが必要です。

確率空間と積分可能な確率変数考えます。してみましょう、サブも -代数の、。そこ関数存在である、-measurableを積分であり（これは、定義特性です） $(\Omega, \mathcal F, \mathbf P)$ $Y$ $\mathcal G$ $\sigma$ $\mathcal F$ $\mathcal G \subseteq \mathcal F$ $W$ $\mathcal G$

E (W \cdot 1_{G}) = E (Y \cdot 1_{G}) \forall G \in G [1]

$E(W\cdot\mathbb 1_{G}) = E(Y\cdot \mathbb 1_{G})\qquad \forall G \in \mathcal G \qquad [1]$

ここで、は集合インジケーター関数です。私たちは、と言う（「バージョン」）の条件付き期待である与えられた、と私たちは書き込み $1_{G}$ $G$ $W$ $Y$ $\mathcal G$ ここで注意すべき重要な詳細は、との条件付き期待が、同じ期待値を有することである、全体にわたりだけではなく、ない、しかし、すべてのサブセット内のの。 $W = E(Y\mid \mathcal G) \;a.s.$
$Y$ $\mathcal G$ $G$ $\mathcal G$

（Towerプロパティが条件付き期待値の定義からどのように派生するかを提示しようとします）。

は測定可能なランダム変数です。いくつかのサブそして、考えてみましょ -代数、言う。次いで、。したがって、以前と同様の方法で、与えられた場合のの条件付き期待値があり。たとえば、 $W$ $\mathcal G$ $\sigma$ $\mathcal H \subseteq \mathcal G$ $G\in \mathcal H \Rightarrow G\in \mathcal G$ $W$ $\mathcal H$ それが特徴です $U=E(W\mid \mathcal H) \;a.s.$

E (U \cdot 1_{G}) = E (W \cdot 1_{G}) \forall G \in H [2]

$E(U\cdot\mathbb 1_{G}) = E(W\cdot \mathbb 1_{G})\qquad \forall G \in \mathcal H \qquad [2]$

以来、、式及び私たちを与えます $\mathcal H \subseteq \mathcal G$ $[1]$ $[2]$

E (U \cdot 1_{G}) = E (Y \cdot 1_{G}) \forall G \in H [3]

$E(U\cdot\mathbb 1_{G}) = E(Y\cdot \mathbb 1_{G})\qquad \forall G \in \mathcal H \qquad [3]$

しかし、これは与えられたの条件付き期待値の定義プロパティです。 $Y$ $\mathcal H$ したがって、と書く権利があります。も構築しているため、タワープロパティ、または反復期待値の法則の一般的な形式を8行で証明しました。 $U=E(Y\mid \mathcal H)\; a.s.$
$U = E(W\mid \mathcal H) = E\big(E[Y\mid \mathcal G]\mid \mathcal H\big)$

— アレコスパパドプロス
ソース

6

（+1）これは、抽象的で難しい概念を記述するのに役立つ方法です。しかし、「...は大きくない...」というフレーズは「小さくない」べきだと思います。いっそ、そのセクションは、ネガを除去し、並列構造を用いることによってより明確行うことができる、二つの変数によって生成された「シグマ代数におけるような少なくとも1つのランダム変数によって生成されるような大きいようである...だからに関する情報

含まれますで

内の対応する情報として大きなとして少なくともある

「。

Y

$Y$

σ (X, Z)

$\sigma(X,Z)$

σ (X)

$\sigma(X)$

— whuber

cc @whuber、ありがとうございます。これは非常に有用な定理です。

— JohnK

@ whuberこれを見つけてくれて、そして提案をありがとう。

— アレコスパパドプロ14

24

条件付き期待を理解し、生徒に教える方法は次のとおりです。

条件付き期待値は、解像度カメラで撮影された写真です。 $E[Y|\sigma(X)]$ $\sigma(X)$

Alecos Papadopoulosが述べたように、表記法は。カメラのラインに沿って、を元のオブジェクト、たとえば風景、風景などと考えることができます。は、解像度カメラで撮影された写真です $E[Y|\sigma(X)]$ $E[Y|X]$ $Y$ $E[Y|\sigma(X,Z)]$ $\sigma(X,Z)$ 。期待値は平均化演算子です（「ぼやけ」演算子？）。シーンには多くのものが含まれている可能性がありますが、低解像度のカメラを使用して撮影した写真は、確かにいくつかの詳細が消えてしまいます。たとえば、空にUFOがあり、肉眼で見ることができますが、（iphone 3？）が撮影した写真に表示されます

ように解像度が非常に高い場合、この写真は実際の風景のあらゆる詳細をキャプチャできます。この場合、。 $\sigma(X,Z)=\sigma(Y)$ $E[Y|\sigma(Y)]=Y$

今、は、次のように表示できます。解像度（たとえば、iphone 1）が（たとえば、iphone 3）よりも低い別のカメラを使用し、解像度を有するカメラ、それはことは明らかです $E[E[Y|\sigma(X,Z)]|\sigma(X)]$ $\sigma(X)$ $\sigma(X,Z)$ $\sigma(X,Z)$ 写真上のこの写真は、もともと風景で低解像度カメラを使用している場合と同じである必要があります。 $\sigma(X)$

これにより、。実際、この同じ直観から、 $E[E[Y|X,Z]|X]=E[Y|X]$ $E[E[Y|X]|X,Z]=E[Y|X]$ まだ。これは、最初の写真がiphone 1（低解像度）で撮影され、より良いカメラ（iphone 3など）を使用して最初の写真に別の写真を生成したい場合、方法がありません。最初の写真の品質を改善できます。

— ケビンキム
ソース

2

大好きです！:)素晴らしい説明。

— ジェシカ

1

@jessica私はそれが助けてくれてうれしいです:-)この説明を思い付くのに私はしばらく時間がかかりました

— ケビンキム

21

反復期待の法則（LIE）、では、その内部期待は偶然関数であるランダム変数であり、例えばではなく関数。のこの関数への期待がの期待に等しくなることは、LIEの結果です。これはすべて、手を振って、の平均値は平均化によって見つけることができるという主張にすぎません。 $E\left[E[Y \mid X]\right] = E[Y]$ $X$ $g(X)$ $Y$ $X$ $Y$ $Y$ さまざまな条件下でのの平均値。実際には、それはすべて総確率の法則の直接的な結果です。たとえば、とが、ジョイントpmf 持つ離散確率変数である場合、 $Y$ $X$ $Y$ $p_{X,Y}(x,y)$ 、最後の期待値がに関するものであることに注意してください。はではなく関数ですが、それでもその平均はの平均と同じです。

\begin{aligned} E [Y] & = \sum_{y} y \cdot p_{Y} (y) & definition \\ = \sum_{y} y \cdot \sum_{x} p_{X, Y} (x, y) & write in terms of joint pmf \\ = \sum_{y} y \cdot \sum_{x} p_{Y ∣ X} (y ∣ X = x) \cdot p_{X} (x) & write in terms of conditional pmf \\ = \sum_{x} p_{X} (x) \cdot \sum_{y} y \cdot p_{Y ∣ X} (y ∣ X = x) & interchange order of summation \\ = \sum_{x} p_{X} (x) \cdot E [Y ∣ X = x] & inner sum is conditional expectation \\ = E [E [Y ∣ X]] & RV E [Y ∣ X] has value E [Y ∣ X = x] when X = x \end{aligned}

$\begin{align} E[Y] &= \sum_y y\cdot p_Y(y) &\scriptstyle{\text{definition}}\\ &= \sum_y y \cdot \sum_x p_{X,Y}(x,y) &\scriptstyle{\text{write in terms of joint pmf}}\\ &= \sum_y y \cdot \sum_x p_{Y\mid X}(y \mid X=x)\cdot p_X(x) &\scriptstyle{\text{write in terms of conditional pmf}}\\ &= \sum_x p_X(x)\cdot \sum_y y \cdot p_{Y\mid X}(y \mid X=x) &\scriptstyle{\text{interchange order of summation}}\\ &= \sum_x p_X(x)\cdot E[Y \mid X = x] &\scriptstyle{\text{inner sum is conditional expectation}}\\ &= E\left[E[Y\mid X]\right] &\scriptstyle{\text{RV}~E[Y\mid X]~\text{has value}~E[Y\mid X=x]~\text{when}~X=x} \end{align}$

X

$X$

E [Y ∣ X]

$E[Y\mid X]$

X

$X$

Y

$Y$

Y

$Y$

$E\left[E[Y \mid X, Z] \mid X\right]$ $h(X,Z)$ $X$ $Z$ $E[Y\mid X]$ $E[Y\mid X]$ $X$ $x$

\begin{aligned} E [Y ∣ X = x] & = \sum_{y} y \cdot p_{Y ∣ X} (y ∣ X = x) \\ = \sum_{y} y \cdot \frac{p_{X, Y} (x, y)}{p_{X} (x)} \\ = \sum_{y} y \cdot \frac{\sum_{z} p_{X, Y, Z} (x, y, z)}{p_{X} (x)} \\ = \sum_{y} y \cdot \frac{\sum_{z} p_{Y ∣ X, Z} (y ∣ X = x, Z = z) \cdot p_{X, Z} (x, z)}{p_{X} (x)} \\ = \sum_{z} \frac{p_{X, Z} (x, z)}{p_{X} (x)} \sum_{y} y \cdot p_{Y ∣ X, Z} (y ∣ X = x, Z = z) \\ = \sum_{z} p_{Z ∣ X} (z ∣ X = x) \cdot \sum_{y} y \cdot p_{Y ∣ X, Z} (y ∣ X = x, Z = z) \\ = \sum_{z} p_{Z ∣ X} (z ∣ X = x) \cdot E [Y ∣ X = x, Z = z) \\ = E [E [Y ∣ X, Z] ∣ X = x] \end{aligned}

$\begin{align} E[Y \mid X = x] &= \sum_y y\cdot p_{Y\mid X}(y\mid X = x)\\ &= \sum_y y \cdot \frac{p_{X,Y}(x,y)}{p_X(x)}\\ &= \sum_y y \cdot \frac{\sum_z p_{X,Y,Z}(x,y,z)}{p_X(x)}\\ &= \sum_y y \cdot \frac{\sum_z p_{Y\mid X,Z}(y \mid X=x, Z=z)\cdot p_{X,Z}(x,z)}{p_X(x)}\\ &= \sum_z \frac{p_{X,Z}(x,z)}{p_X(x)}\sum_y y \cdot p_{Y\mid X,Z}(y \mid X=x, Z=z)\\ &= \sum_z p_{Z\mid X}(z \mid X=x)\cdot \sum_y y \cdot p_{Y\mid X,Z}(y \mid X=x, Z=z)\\ &= \sum_z p_{Z\mid X}(z \mid X=x)\cdot E[Y \mid X=x, Z=z)\\ &= E\left[E[Y\mid X,Z]\mid X = x\right] \end{align}$

E [Y ∣ X, Z]

$E[Y \mid X, Z]$

X

$X$

Z

$Z$

X

$X$

X

$X$

x

$x$

E [Y ∣ X, Z]

$E[Y \mid X, Z]$

Z

$Z$

X

$X$

$x$ $X$ $E[Y\mid X]$ $X$ $Y$ $E\left[E[Y \mid X,Z]\mid X\right]$

— ディリップ・サルワテ
ソース