この単一の値はその分布と一致しますか?


10

これは非常に素朴な質問のように感じますが、私は答えを見るのに苦労しています。

30個の値のセットが1つあります。独立して私は31番目の値を得ました。帰無仮説は、31番目の値が同じ分布の一部であるというものです。代替案は、その違いです。ある種のp値または尤度の尺度が必要です。

私が持っていたいくつかの考え:

  • これは、2つのサンプルのt検定を実行するのに似ています。ただし、2番目のサンプルの場合、1つの値しかなく、30の値が必ずしも正規分布しているわけではありません。
  • 30回の測定の代わりに10000回の測定をした場合、単一の測定のランクがいくつかの有用な情報を提供する可能性があります。

この尤度またはp値を計算するにはどうすればよいですか?

ありがとう!ヤニック


4
予測間隔を求めています。あなたの2番目の考えは、ノンパラメトリックな予測区間につながります(これは、このサイトではこれまで言及されていなかったと思います)。
whuber

人口について他に何を教えてくれますか?すべての値は正ですか?対称になると思いますか?ユニモーダル?
soakley 2013年

感謝とお詫び私はもっと情報を提供すべきだった。予測間隔を確認しています。基本的に、焦点遺伝子予測の長さがあります。そして、データベースにある類似遺伝子の長さ。したがって、すべての数値は正の整数です。簡単なケースでは、長さの分布は単峰性です。実際には、彼らはしばしば逃げる。この段階では、そうであると考えることができます。ディストリビューションのいくつかのプロットがここに表示されます:github.com/monicadragan/gene_prediction/tree/master/...
ヤニックワーム

「予測間隔」が必要だとは確信していません。予測したくありません...間隔は必要ありません...?
Yannick Wurm 2013年

1
専門用語を解釈しすぎないでください。定義により、「予測間隔」は値から構成され、すべての仮定された共同分布の下で、31番目の値が内ある確率は、95%などの特定のターゲット等しくなります。実際、31番目の値が内ない場合、(i)運が悪かった(データを収集する前に発生する可能性が5%しかなかった)、または(ii)実際はそうではないと結論付けることができます。 31番目の値に、想定した分布が含まれている場合、それをテストします。I3031II
whuber

回答:


7

単峰型の場合、Vysochanskij-Petuninの不等式により、大まかな予測区間が得られます。ウィキペディアサイトは次のとおりです。http//en.wikipedia.org/wiki/Vysochanski%C3%AF%E2%80%93Petunin_inequality

を使用すると、予測間隔が約95%になります。λ=3

したがって、母集団の平均と標準偏差を推定し、サンプル平均プラスまたはマイナスを間隔として使用します。x¯3s

このアプローチにはいくつかの問題があります。平均値や標準偏差は本当にわかりません。見積もりを使用しています。そして一般的に、あなたは単峰分布を持っていません。つまり、チェビシェフの不等式の特殊なバージョンを使わなければならないでしょう。しかし、少なくともあなたには出発点があります。

一般的なケースでは、Konijn(アメリカの統計家、1987年2月)は、注文統計を予測区間として使用できると述べています。したがって、は、Konijnがサイズと呼ぶ予測区間ですサイズは、「がとる値を区間がカバーする確率の(許可された一連の共同分布に関して)最大の下限」として定義されます。このアプローチでは、93.6%の予測間隔は[x(i),x(j)]Xjin+1.X[x(1),x(30)].

彼はまた、Saw、Yang、およびMoに起因するアプローチを示します。記事に記載されているカバレッジの詳細。

[x¯λ(1+1n)1/2s , x¯+λ(1+1n)1/2s],

たとえば、を使用すると、カバレッジが90%を超えます。n=30,λ=3.2


これは、不等式の誤った適用のようです。平均と分散が既知であると想定しています。分散は、このコンテキストのデータからのみ推定できます。特に小さなデータセットの場合、違いは非常に大きくなる可能性があります。チェビシェフの不等式を使用した同様の提案のシミュレーション研究で、驚異的なパフォーマンスの低下を発見しました。直感的には、これはCIを構築するために正規分布の代わりにt分布を使用する必要があるというスチューデントの洞察に似ています。PIはテールのはるか外側にあるため、差は拡大されます。
whuber

2
編集について(+1):ノンパラメトリック予測区間は、iid帰無仮説の下での置換検定として理解できます。その場合、31番目の値がすべての31個の値の中で最大または最小になる可能性は%です。関連するテストは、31番目の値が最小または最大のいずれかである場合、他の30と矛盾していると結論付けています。このテストのサイズは(通常の意味で)%です。これは、30のデータ値を使用した(両面)テストで達成できる最小サイズです。2/316.456.45
whuber

0

私が持っていたいくつかの考え:

これは、2つのサンプルのt検定を実行するのに似ています。ただし、2番目のサンプルの場合、1つの値しかなく、30の値が必ずしも正規分布しているわけではありません。

正しい。アイデアは、単一値のt検定に少し似ています。分布は不明であり、データポイントが30個だけの正規性は飲み込むのが少し難しい場合があるため、これにはある種のノンパラメトリック検定が必要です。

30回の測定の代わりに10000回の測定をした場合、単一の測定のランクがいくつかの有用な情報を提供する可能性があります。

30回の測定でも、ランクは参考になります。

@whuberが指摘したように、ある種の予測区間が必要です。ノンパラメトリックの場合、基本的に、次のような質問があります。特定のデータポイントが、31番目の測定で観測したランクを偶然に持つ確率はどれくらいですか。

これは、単純な順列テストを通じて対処できます。以下は、15個の値と、前のものより実際に大きい小説(16番目の観測)の例です。

932
915
865
998
521
462
688
1228
746
433
662
404
301
473
647

new value: 1374

リスト内の要素の順序がシャッフルされるN順列を実行してから、(シャッフルされた)リストの最初の要素の値のランクは何ですか?

N = 1,000の順列を実行すると、リスト内の最初の要素のランクが新しい値のランクと等しいか、またはそれよりも良い608のケースが得られます(実際には、新しい値が最も良いので等しい)。1,000順列のシミュレーションを再度実行すると、658のケースが得られ、その後663 ...

N = 1,000,000の順列を実行すると、リストの最初の要素のランクが新しい値のランクと同じかそれ以上の62825ケースが得られます(さらにシミュレーションを行うと62871ケース、次に62840 ...)。条件が満たされるケースと順列の総数の間の比率を取る場合、0.062825、0.062871、0.06284 ...のような数値が得られます。

これらの値は1/16 = 0.0625(6.25%)に向かって収束していることがわかります。これは、@ whuberが指摘しているように、ランダムに描画された特定の値(16から)がその中で最高のランクを持つ確率です。

新しいデータセットの場合、新しい値は2番目に良い値(つまり、ランク2)です。

6423
8552
6341
6410
6589
6134
6500
6746
8176
6264
6365
5930
6331
6012
5594

new value: 8202

(N = 1,000,000順列の場合):125235、124883 ...ランダムに描画された特定の値(16から)が2番目に良いランクになる確率を概算する好ましいケース:2/16 = 0.125(12.5%)。

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.