私が持っていたいくつかの考え:
これは、2つのサンプルのt検定を実行するのに似ています。ただし、2番目のサンプルの場合、1つの値しかなく、30の値が必ずしも正規分布しているわけではありません。
正しい。アイデアは、単一値のt検定に少し似ています。分布は不明であり、データポイントが30個だけの正規性は飲み込むのが少し難しい場合があるため、これにはある種のノンパラメトリック検定が必要です。
30回の測定の代わりに10000回の測定をした場合、単一の測定のランクがいくつかの有用な情報を提供する可能性があります。
30回の測定でも、ランクは参考になります。
@whuberが指摘したように、ある種の予測区間が必要です。ノンパラメトリックの場合、基本的に、次のような質問があります。特定のデータポイントが、31番目の測定で観測したランクを偶然に持つ確率はどれくらいですか。
これは、単純な順列テストを通じて対処できます。以下は、15個の値と、前のものより実際に大きい小説(16番目の観測)の例です。
932
915
865
998
521
462
688
1228
746
433
662
404
301
473
647
new value: 1374
リスト内の要素の順序がシャッフルされるN順列を実行してから、(シャッフルされた)リストの最初の要素の値のランクは何ですか?
N = 1,000の順列を実行すると、リスト内の最初の要素のランクが新しい値のランクと等しいか、またはそれよりも良い608のケースが得られます(実際には、新しい値が最も良いので等しい)。1,000順列のシミュレーションを再度実行すると、658のケースが得られ、その後663 ...
N = 1,000,000の順列を実行すると、リストの最初の要素のランクが新しい値のランクと同じかそれ以上の62825ケースが得られます(さらにシミュレーションを行うと62871ケース、次に62840 ...)。条件が満たされるケースと順列の総数の間の比率を取る場合、0.062825、0.062871、0.06284 ...のような数値が得られます。
これらの値は1/16 = 0.0625(6.25%)に向かって収束していることがわかります。これは、@ whuberが指摘しているように、ランダムに描画された特定の値(16から)がその中で最高のランクを持つ確率です。
新しいデータセットの場合、新しい値は2番目に良い値(つまり、ランク2)です。
6423
8552
6341
6410
6589
6134
6500
6746
8176
6264
6365
5930
6331
6012
5594
new value: 8202
(N = 1,000,000順列の場合):125235、124883 ...ランダムに描画された特定の値(16から)が2番目に良いランクになる確率を概算する好ましいケース:2/16 = 0.125(12.5%)。