ジェンセンの不等式以外の


21

場合f凸関数であり、次いで、ジェンセンの不等式の状態そのf(E[x])E[f(x)]、及び必要な変更を加えたときf凹状です。明らかに最悪の場合、凸ff E [ x ] に関して上限を設定することはできませんが、fの場合、この方向に向かう境界がありますE[f(x)]f(E[x])ff凸であるが「あまり凸でない」?凸関数で条件を与えることいくつかの標準的な限界がありfあなたがその結論できるようになること(必要であれば、同様に、おそらく分布)E[f(x)]φ(f)f(E[x])ここで、φ(f)fの曲率/凸度のfですか?おそらく、リプシッツの状態に似たものでしょうか?


トピック外として終了する投票。math.stackexchange.comかもしれませんか?
アルヤバタ

7
この質問はオープンのままにしておくべきだと思います。これは、多くの働く理論家が定期的に役に立つと思うような不平等です。
アーロンロス

10
これはこれまでに投稿されたほとんどの質問よりも純粋な数学に近いことを知っていますが、このようなことはランダム化されたアルゴリズムの分析で頻繁に出てくるので、私はこれがトピックであると主張します(私が持っているアプリケーションです)マインド)。私は、コンピューターサイエンスで頻繁に使用されている数学は、質問に対する公正なゲームと見なされるべきだと思います。
イアン

6
開いたままにしてください。間違いなく話題に
スレシュヴェンカト

1
私もオープンに投票します。
ジェフ

回答:


21

編集:元のバージョンは絶対値を逃しました。ごめんなさい!!

こんにちはイアン。2つのサンプル不等式の概要を簡単に説明します。1つはリプシッツ限界を使用し、もう1つは2次導関数の限界を使用してから、この問題のいくつかの問題について説明します。私は冗長ですが、1つの導関数を使用するアプローチは(Taylorを介して)より多くの導関数で何が起こるかを説明しているため、2番目の導関数バージョンは非常に優れていることがわかります。

まず、リプシッツに縛られ、標準のジェンセンの不等式を単純に作り直します。同じトリックが適用されます:期待値でテイラー展開を計算します。

具体的には、に対応する測度μを持たせ、m = Ex )を設定します。fにリプシッツ定数Lがある場合、テイラーの定理によりXμm:=E(x)fL

f(x)=f(m)+f(z)(xm)f(m)+L|xm|,

ここで、(なお、X MX > mが可能です)。これを使用してJensenの証明を作り直しました(私は偏執的であり、標準的なものがウィキペディアにあることを確認しました)。z[m,x]xmx>m

E(f(X))=f(x)dμ(x)f(m)dμ(x)+L|xm|dμ(x)=f(E(X))+LE(|XE(X)|).

さて、仮定。この場合、|f(x)|λ

f(x)=f(m)+f(m)(xm)+f(z)(xm)22f(m)+f(m)(xm)+λ(xm)22,

など

E(f(X))f(m)+f(m)(E(X)m)+λE((Xm)2)2=f(E(X))+λVar(X)2.

いくつか簡単に触れたいと思います。明らかな場合は申し訳ありません。

One is that, you can't merely say "wlog E(X)=0" by shifting the distribution, because you are changing the relationship between f and μ.

Next is that the bound must depend on the distribution in some way. To see this, imagine that XGaussian(0,σ2) and f(x)=x2. Whatever the value of σ, you still get f(E(X))=f(0)=0. On the other hand, E(f(X))=E(X2)=σ2. Thus, by changing σ, you can make the gap between the two quantities arbitrary! Intuitively, more mass is pushed away from the mean, and thus, for any strictly convex function, E(f(X)) will increase.

Lastly, I don't see how to get a multiplicative bound like you suggest. Everything I have used in this post is standard: Taylor's theorem and derivative bounds are bread&butter in statistics bounds, and they automatically give additive, not multiplicative errors.

I will think about it though, and post something. Vague intuition is it will need very strenous conditions on both the function and the distribution, and that the additive bound is actually at the heart of it.


Every time i edit, the answer gets bumped. So I'll point out: the second derivative bound is tight for the example I gave.
matus

I think you're right in that additive bounds are the best possible without much stronger conditions on the function.
Ian

Dear Ian, I thought about this problem quite a bit more, but the main difficulty in my mind is hinted at by the example I gave, where f(E(X))=0, but E(f(X))>0. You can constrain both the function family (bounded, bounded derivatives, integrable) and the distribution (smooth, bounded, bounded momemts), and you still have these examples. It suffices to have a symmetric, nonnegative function equal to zero at the mean of the distribution. That said, everything depends on the constraints in your exact problem. In the general case, I think the additive nature is fundamental.
matus

@Ian: The proofs of the Chernoff and Azuma-Hoeffding inequalities use arguments reminiscent of this, so you may wish to read those for inspiration. See e.g. Mitzenmacher and Upfal's book on randomization in computing.
Warren Schudy

3

For insight, consider a distribution concentrated on two values; say, with equal probabilities of 1/2 that it equal 1 or 3, whence E[x]=2. Take N>>0 and ϵ>0. Consider functions f for which f(1)=f(3)=Nϵ and f(E[x])=f(2)=ϵ. By making ϵ sufficiently small and connecting f continuously among these three points we can make the curvature of f as small as desired. Then

E[f(x)]=Nϵ, yet

N=Nϵ/ϵ=E[f(x)]/f(E[x])φ(f).

This shows φ(f) must be arbitrarily large.

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.