分布の分析形式が不明な場合の変位値関数の取得方法


8

問題は、この[0]論文の377〜379ページにあります。

連続分布と固定与えられた場合、以下を考慮してください:FzR

Lz(t)=PF(|zZ|t)

そして

H(z)=Lz1(0.5)=medZF|zZ|

ここで、は正しい連続逆行列です。したがって、固定zの場合、これはすべてのZ \ sim Fからzまでの距離の中央値です 。次に、関数について考えます。zLz1(u)=inf{t:Lz(t)>u}zZZFz

L(t)=PF(H(Z)t)

今、私はH(z)の分析式を持っていませんH(z)(実際、そのための分析式は不可能だと確信しています)が、CDF Fが与えられればF、ルート探索アルゴリズムを使用してH(z)任意のz

このアプリケーションでは、興味があります:

L1(0.5)=medZFH(Z)

これは、中央値であるH(Z)のために、再度、ZF

を取得するために、グリッド上で多くの値に対応する値をルート検索アルゴリズムを使用して上記で説明したように)計算し、これらの値の重み付き中央値を取ります推定値としての(重み付き。H z z H z f z L 10.5 L1(0.5)H(z)zH(z)f(z)L1(0.5)

私の質問は:

  • を取得するためのより正確な方法はありますか(この論文の執筆者は、計算方法を述べていません)L 10.5 L1(0.5)L1(0.5)
  • の値のグリッドはどのように選択する必要がありますか?z

    [0] OlaHössjer、Peter J. Rousseeuw、Christophe Croux。ロバストなスプレッド汎関数の推定量の漸近。Statistica Sinica 6(1996)、375-388。


表記法と用語によれば、「」は、任意のを数値マッピングするものとして理解されるはずこれが「機能」が行うこと、結局)。しかし、「」はどういう意味でしょうか。これは、どちらかの可能性分布(文字通り、逆の)、または、より多くの可能性が高い、(我々は修正する場合して閲覧として機能機能!--not)が、私はどのような方法が表示されませんこれを分布持つ確率変数として解釈します。作ることF LのZT [ F ] = P F| Z - Z |T L - 1つの ZQ のL ZT F L Z F MのQT Lz(t)F Lz(t)[F]=PF(|zZ|t)Lz1(q)Lz(t)FLzFMq(t)かなり神秘的です。
whuber

ほんの少しですが、まだタイプミスがあるはずです。おそらく、定義では、「」の代わりに「」(その分布にはを持つ確率変数を使用するつもりでしたか?結局のところ、とは両方とも数値であるため、「」に確率を割り当てることはできませんあなたはここで大きなリスクを負っています。あらゆる方程式の単一の小さなタイプミスがあなたの質問を完全に意図しない無関係なものに変えるということです。さらに悪いことに、あなたはあなたが誤って解釈する正しい答えを得るかもしれません!それぞれの公式が何を表現するかについての英語の説明を含めることは(多くの)助けになるでしょう。Z F Z H Z T H Z TL(t)ZFzH(z)tH(z)t
whuber

回答:


1

中央値は、予想される距離を最小にする点です。L1

medZf(Z)=argminmEz|f(Z)m|

したがって、式を簡略化できます。

medz1Fmedz2F|z1z2|=argminm1Ez1F|m1argminm2Ez2F|m2|z1z2|||

これはバイレベルの最適化問題だと思いますが、あまり詳しくはありませんが、適用できる標準的な手法があると思います。次に、収束するまで、より大きなサンプルの中央値のサンプル中央値を計算するよりも速くなることはありません。


1
ここでは実現ではなく自体を扱っているので、これで問題が解決されるとは思いません(サンプルサイズがとき、これらのオブジェクトの値に興味があります)。しかし、おそらく私はあなたの答えを誤解していますか?F FF
user603、2015年

1
とにかく、私はとにかく私が導出で間違いを犯したことに気づきました-最適化は実際にはネストされています。使用できる最適化手法はまだあると思いますが、これまでのように大きなサンプルで2番目の中央値を取るよりも優れているかどうかはわかりません。
Ben Kuhn、

良いので、同じことを今
考え

1

分位数関数を推定するための簡単なデータ駆動型アプローチは、次のとおりです。

  • 観測をブートストラップして、元のサンプルよりもはるかに多くの値(特に、最初の制限されたサンプルの範囲を超える値)を生成します。基本的なノンパラメトリックブートストラップの主な制限を回避するために、平滑化されたブートストラップシミュレーションスキームを使用することをお勧めします。これは、カーネル密度推定からのシミュレーションと同等です。
  • これから、シミュレーション値(ecdfRの関数)の経験的累積分布関数(CDF)を取得できます。CDFの逆は、分位関数(quantile Rの関数)に他なりません。値を取得して分位関数をプロットするには、ここを参照してください。信頼帯を取得することもできます。

ただし、前提条件として、少なくとも基礎となるPDFの形状を十分に理解するのに十分な観測値をサンプルから抽出する必要があります。


なぜブートストラップする方が精度が上がると思いますか?
kjetil b halvorsen 2015年

すべての有限サンプルの運命は、発生する可能性がある観測の完全なスペクトルが含まれていないことです。たとえば、100年以上にわたって観測された河川の最大水流は、発生する可能性のある絶対最大ではありません。したがって、限られたサンプルに基づく500年の洪水(0.998分位数)または1000年の洪水(0.999分位数)の推定は偏っています(リスクは過小評価されます)。反対に、シミュレーション(平滑化されたブートストラップまたはその他の手法による)によって数十万の新しい観測を生成すると、推定はより正確になります
Antoine

それは誤解です!ブートストラップされたサンプルの値はすべて、同じ限定された有限のサンプルに由来し、サンプル自体よりも多くの情報を含みません。ブートストラップ(他の分析手法と同様)は、サンプルに含まれる情報の理解を深めるだけであり、その情報を増やすことはできません。
kjetil b halvorsen 2015年

番号!平滑化されたブートストラップについて話しています。元のサンプルの範囲を超える、目に見えない観測を生成します。上記の回答のリンクをクリックしてください。
Antoine

@アントワーヌ:わかりましたが、私のコメントは何も変わりません。これらの平滑化された「obs」は、フェモネノン自体ではなく、現象のモデルから生成されるため、「データ」ではありません。
kjetil b halvorsen 2015年

1

だから、私は入手する最良の方法は

medZFH(Z)

することです:

  1. エントリ計算ベクトルの値ののグリッドに対応するの値はに均一に配置されますn{H(zi)}i=1nH(zi)n{zi}i=1n(FZ1(ϵ),FZ1(1ϵ))
  2. の重み付き中央値を重みします 。 F Zz i{H(zi)}i=1nFZ(zi)
弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.