どの二項予測区間がテール確率に適しているか、つまり


7

私は以下の性質を持つ問題に取り組んでいます。

  • 利用可能なデータは多数ありますオーダーバツ106
  • CDFは、非負の実数をサポートしています。FX
  • ません。FX
  • データはiidであると想定できます。
  • から抽出された将来のサンプルがサンプルの最小値下回る確率を推定しようとしています。要点は、この確率を特定の値未満に保つことですFXx(1α

信頼区間に関心がある場合、アプローチは値を選択し(は負でないサポートを持っているため)、場合、CLTカゼッラ、ジェフリーズ、アグレスティ、またはその他の多くの方法を適用するなど、いくつかのオプションのいずれかを使用して、左裾の 2項信頼区間を導出します。k>0バツFバツ^k=p^=バツk

これは、特にため、大きなと小さなは脆弱に見えます。さらに、私の場合、将来の観測の予測区間を推定しています。これらの状況でうまく機能する二項予測間隔はありますか?kk=バツ1

ベイジアンアプローチは直接推定し、そこから機能します。これは、この問題の狭い範囲に厳密に必要なものよりも難しいようです。F

「いや、人生は不公平であり、この問題の良い解決策はありません」という答えは、それに添えるいい引用がある場合にも役立ちます。


2
4番目(最後)の箇条書きは、信頼区間を計算していないことを示しています。予測限界のカバレッジを求めているようです。それは正しい解釈ですか?
whuber

@whuberはい、それは正しいです。将来のデータがいくつかあるので、これらの新しい値の1つが今日のサンプルの最小値を下回る確率を推定したいと思います。
Sycoraxによると、モニカは2017

2
あなたはこのスレッドstats.stackexchange.com/questions/82720/…に精通していると思いますが、参考のために投稿します(引用論文も参照)。
Tim

@Timはい、ありがとうございます。私は実際に編集の1つでそのリンクを編集しました。AC間隔の推奨は、(1)大きなアドレスのみに対処するように見えます 状態ではなく小さい p条件と(2)信頼区間と予測区間の関係。私の読書には欠陥があります。
Sycoraxによると、モニカは2017

1
@Sycoraxあなたの読書には欠陥がありません、それは関連しているので参考のために私はこれを提供しますが、あなたは正しいのはCIについてのみです。
Tim

回答:


8

単純なノンパラメトリック予測制限があります。 予測限界は2つの独立したサンプルで構成される手順であることを思い出してください。バツ=バツ1バツ そして Y=y1yメートル2つの統計t そして sサイズ 1α。その機会はsY よりも少ない tバツ です α 以下、私たちはそれを言います t一方的な予測下限ですs サイズの 1α。問題のPLは、バツ ために tバツ。これは、ことが意図されているすべてのyj高い確率でPLと同じかそれを超える必要があります。同様に、sY すべての最小です yj

このPLは、 観測は独立しており、同じように分散され、 メートル 追加の観測もiidであり、最初の観測から独立しています 観察。これらの仮定はすべてを意味します+メートル 観測値は交換可能です。これは、(簡単に)最初の観測値の中ですべての観測値が最小であることを意味します 少なくとも確率で /+メートル。サイズは、最小値に関連付けられたすべての観測値の(少なくとも)1つが の値 バツ。このチャンスは少なくない/+メートル。共通の基礎となる分布が継続的である場合、それは正確に/+メートル

たとえば、最小のもの =95 値は 95 予測下限 メートル=5追加の値。最小のもの=106 値は 50 予測下限 メートル=106 追加の値。

同様の考慮事項(より高度な組み合わせを必要とする)を使用して、注文統計量qua予測限界のカバレッジを計算します。概要については、Hahn&Meekerのセクション5.4を参照してください(少なくとも、kメートル 将来の観察。」)

参照

ジェラルド・J・ハーンとウィリアム・Q・ミーカー、統計的間隔、実践者向けガイド。 J.ワイリー&サンズ、1991年。


この推論の行をさらに拡張すると、これは、Hogg McKeanとCraigで概説されている変位値を推定するための2つのサンプルのブートストラップ手順に到達する方法とまったく同じである必要があります。
Sycorax氏は、モニカを2017

それは考えられます。(私はH、McK、およびCに精通していません。)しかし、ブートストラップが実行しているすべてのことである場合は、組み合わせ式を使用して(はるかに少ない計算で)正確な答えを取得することを検討する必要があります。たとえば、サンプルサイズを見つけてPLで必要なサイズを達成するために問題を反転できるという利点があります。
whuber

1
これは入門的な数学的統計テキストなので、手順は主に教育上の理由で概説されていると思います。正確な量と反転についてのあなたの要点はよく理解されています。このよく考えられた答えをありがとう。
Sycoraxは、モニカを2017

推論の一部につまずきました。次が引き出す確率F 一部以下 k です Fk。全体メートル iidドロー、以下のドローの数 k 二項式があります メートルFk分布。あなたの答えとこの二項モデルの違いは、二項モデルが仮定することですk 前もって修正されていますが、私の問題では、 バツ1
Sycoraxによると、モニカは2017

1
私はそう信じています。確かに、質問の3番目の箇条書きによると、あなたは本当に何を知りませんFk 誰のためでもあります k-(もし必要なら)あなたができる最善のことは、それを推定することです。
whuber
弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.