収縮が巧妙な方法で適用される場合、それは常により効率的な推定量に対してよりよく機能しますか?


11

私は2つの推定量があるとと同じパラメータの一致推定量であるとなるように psdの意味 でのしたがって、漸近的にはよりも効率的です。これらの2つの推定量は、異なる損失関数に基づいています。 β 2β0β^1β^2β0V1V2 β 1 β 2

n(β^1β0)dN(0,V1),n(β^2β0)dN(0,V2)
V1V2β^1β^2

ここで、私の推定量の有限標本特性を改善するために、いくつかの縮小手法を探したいと思います。

私は推定向上収縮技術見出さ仮定する有限のサンプル中にに等しい私MSEの値を与えるγ 2。これは私がして適用するための適切な収縮技術見つけることができることを意味するものではないβ 1 MSEに私に与えないだろう以下でγ 2をβ^2γ^2β^1 γ^2

言い換えると、縮小が巧妙に適用されている場合、より効率的な推定量に対しては常により効果的に機能しますか?

回答:


4

確かに少し退屈な反例を提案させてください。言うβ 1がよりちょうど漸近的に、より効率的ではありませんβ 2が、また、クラメール・ラオ下限はバウンドとなります。以下のための巧妙な収縮技術β 2は、のようになり ますβ * 2 = W β 2 + 1 - W β 1W 0 1 。漸近分散β * 2β^1β^2β^2

β^2=wβ^2+1wβ^1
w01β^2ある 最後の等式で補題を使用する
V=varwβ^2+1wβ^1=varwβ^2β^1+β^1=V1+w2V2V1
ハウスマンの論文。我々は ように漸近リスクの改善は、(無バイアス項が存在しない)があります。上のいくつかの漸近を与える収縮法(したがって、うまくいけば、有限のサンプル)の改善を発見し、私たちはそうβ 2。しかし、全く同様の収縮推定量は存在しないβ * 1この手順に従います。
V2V=V21w2V11w20
β^2β^1

もちろん、ここでのポイントは、縮小は効率的な推定量に向かって行われるため、効率的な推定量自体には適用されないということです。これは高レベルではかなり明白に思われますが、特定の例ではこれはそれほど明白ではないと思います(MLEと均一分布のモーメント法推定が例になることがありますか?)。


1
面白い例をありがとう!(1)は、しかし、これは反例を考慮すべきであると私にははっきりしていない:それは両方の漸近的だし、その表示されませんβ 1が同じまたはより低いリスクを持っているように改善することはできません。(実際には、あなたのβは * 2自動的に最高の、同じ危険にさらされて、持っているβ 1。)反例を提供するために、修正推定のリスクβ * 2は、以下の危険性よりもする必要がありますβ 1、及びこれがこの方式で可能であることは明らかではありません。β^1β^2β^1β^2β^1
user795305 2017年

ありがとうございました。私はしかし、どこにも問題になっていることが指定されていないことを指摘してみましょうその修正のMSE β 2のそれよりも低くする必要があるだろうβ 1。だから、 β2は、このコンテキストで有効な収縮技術です。しかし、これは部分的な答えにすぎないことには同意し、他の人々がこの質問について何を言わなければならないかを楽しみにしています。β^2β^1β^2
Matthias Schmidtblaicher 2017年

1
「Suppose I found ...」で始まる段落で、OPはそれを指定しているようです。私は誤解していますか?以下では、星がように改変推定量を示すものとβ * J = F Jβ Jいくつかの(おそらく収縮)機能のためのF 、J。私たちが見つけたとβ * 2をするようにR iのS K β 2R iのS K β * 2β^j=fj(β^j)fjβ^2rskβ^2rskβ^2。参照の段落で、OPは、我々はいくつか見つけることができるかどうかを確認するように、R I S K β * 1R I S K β * 2f1rskβ^1rskβ^2
user795305 2017年

そうですか。これが問題である場合、は単にアイデンティティであり、例では答えは肯定です。我々は関数を見つけることができれば、私は」との質問を読み取るF β Xがように、R iがS K F β 2X < R iがS K β 2、そこに存在するグラムβ x したがって、r i s kf1f(β,x)rskfβ^2バツ<rskβ^2gβバツ「?rskgβ^1バツ<rskβ^1
マティアスSchmidtblaicher

1
私があなたの質問に本当に答えなかったとしても、これらのクレジットを共有してくれてありがとう...
Matthias Schmidtblaicher '27 / 06/27

-2

これは興味深い質問で、最初にいくつかのハイライトを指摘したいと思います。

  • 2つの推定量は一貫しています
  • より効率的である β 2がより少ない変化を達成するためβ^1β^2
  • 損失関数は同じではありません
  • 1つの収縮方法が1つに適用されるため、それ自体がより良い推定量になるばらつきを低減します
  • 質問:言い換えると、収縮がうまく適用されている場合 、より効率的な推定量に対しては常により効果的に機能しますか?

基本的に、不偏クラスの推定器など、特定のフレームワークで推定器を改善することが可能です。ただし、ご指摘のとおり、1つの損失関数が2次損失を最小化し、もう1つの損失関数がエントロピーを最小化する可能性があるため、異なる損失関数は状況を困難にします。さらに、「常に」という言葉を使用することは非常にトリッキーです。なぜなら、1つの推定量がクラスで最高のものである場合、論理的に言えば、それ以上の推定量を要求することはできないからです。

単純な例(同じフレームワーク内)の場合、2つの推定量、つまりBridge(ノルムペナルティによるペナルティ付き回帰)とLasso(最初のノルムペナルティ付き尤度)、およびパラメーターのスパースセット、つまりβ、線形モデルy = x β + E、誤差項の正常、E N 0 σ 2 < は、公知のσ、二次損失関数(最小二乗誤差)とで共変量の独立Xp = 3のl pを選択しましょうlpβy=バツβ+eeN0σ2<σバツlpp=最初の推定量では2番目の推定量で。次に、p 1を選択することにより、推定量を改善できます。これにより、分散が小さくなり、より良い推定量になります。次に、この例では、推定量を改善する可能性があります。p=2p1

ですから、あなたが同じ推定器群と同じ損失関数と仮定を仮定しているのであれば、あなたの質問に対する私の答えは「はい」です。


p1p=p=2p

lpl1

β^1β^2pα^jp=argααβ^j22+λαpj{12}p=2

@Benに感謝します。収縮の定義にコンセンサスがないと思います。あなたはそれを後処理のように扱いますが、私はインライン処理として扱います。質問は収縮の種類を考慮していないので、どちらも正しいと思います。PS:収縮からあなたが意味することは難しいしきい値のようなものだと思います。
TPArrow 2017年

β^1β^2 β^1β^2
弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.