p値が正確に1(1.0000000)である場合、帰無仮説が真であることをサポートするために、信頼区間の制限はどうなりますか?[閉まっている]


12

これは純粋に仮説的な質問です。非常に一般的なステートメントは、は決して真ではなく、サンプルサイズの問題であるということです。H0

実際には、正規分布母集団(および推定両方)から 2つの平均()の間に測定可能な差はまったくないと仮定します。グループごとにと仮定し、テストを使用します。これは、値がことを意味し、の矛盾がないことをます。これは、検定統計量があることを示します。グループ間の平均差はなり。この場合の平均差の信頼区間の限界は何ですか?彼らでしょうかμ1=μ2μ=0σ=1N=16tp1.00000H00095%[0.0,0.0]

私の質問の主なポイントは、ときに我々は本当に言うことができるということでしたH0真である、すなわちμ1=μ2、この場合には?または、頻繁なフレームワークでは、2つの平均を比較するときに「差なし」と本当に言えるのでしょうか。


1
これはすでにstats.stackexchange.com/questions/275677/…で回答されていると思いますが、私はそれを主張していません。
ティム

1
正の母集団分散でを取得する方法を考え出すのに問題があります。p=1
デイブ


3
「グループごとにN = 16と仮定し、t検定を使用します。これは、p値が1.00000であることを意味し、H0との矛盾がないことを示します。」何か(「これ」が何を指しているのか)とは、p値が1であることを意味するのはなぜですか?最も一般的には、p値はH_0が真で、p = 1がほとんど発生しない場合に均一に分布します。
セクストゥスエンピリカス

2
@MartijnWeteringsは絶対に正しいです-実際に同一の2つの分布をサンプリングしているからといって、それらを比較するとp値が1になるわけではありません。定義により、5%の確率で0.05未満のp値が得られます。
原子力王

回答:


16

t検定の信頼区間は次の形式であるx¯1x¯2±tcrit,αsx¯1x¯2x¯1及びx¯2サンプル平均であり、tcrit,α重要であるt所与の値α、及びsx¯1x¯2平均の差の標準誤差です。もしp=1.0、次いでx¯1x¯2=0。式だけであるので、±tcrit,αsx¯1x¯2、及び制限がちょうど{あるtcrit,αsx¯1x¯2tcrit,αsx¯1x¯2 }。

あなたは限界があることと思うだろう、なぜ私はわからない{0,0}.臨界t値はゼロではなく、平均差の標準誤差はゼロではありません。


10

手作業で計算するのではなく、Rを使用して数値的に問題を解決する、超遅延であること:

平均が(ほぼ!)正確にゼロで、SD がちょうど 1の正規分布値を与える関数を定義します。

rn2 <- function(n) {r <- rnorm(n); c(scale(r)) }

t検定を実行します。

t.test(rn2(16),rn2(16))

    Welch Two Sample t-test

data:  rn2(16) and rn2(16)
t = 1.7173e-17, df = 30, p-value = 1
alternative hypothesis: true difference in means is not equal to 0
95 percent confidence interval:
 -0.7220524  0.7220524
sample estimates:
   mean of x    mean of y 
6.938894e-18 8.673617e-19 

浮動小数点の不正確性のため、平均は正確にゼロではありません。

より直接的には、CIは± sqrt(1/8)*qt(0.975,df=30)です。各平均の分散は1/16なので、プールされた分散は1/8です。


8

CIには任意の制限を設定できますが、ゼロを中心に正確に配置されます

2標本T検定(2つの母集団の平均の差を検定)の場合、p値が正確に1の場合、観測された標本平均が正確に等しい場合に対応します。 (サンプルの分散は任意の値をとることができます。)これを確認するには、検定のp値関数が次のとおりであることに注意してください。

pp(x,y)=P(|X¯Y¯SY/nY+SY/nY||x¯y¯sY/nY+sY/nY|).

したがって、設定x¯=y¯収率:

p(x,y)=P(|X¯Y¯SY/nY+SY/nY|0)=1.

ここで、Welch-Satterwaite近似を使用して標準(近似)信頼区間を形成するとします。この場合には、その仮定x¯=y¯(一方の正確なp値を与える)の信頼区間を与えます。

CI(1α)=[0±sXnX+tDF,α/2sYnY],

ここで、自由度DFは、Welch-Satterwaite近似によって決定されます。問題で観測されたサンプル分散に応じて、信頼区間はゼロを中心とした任意の有限区間になります。つまり、信頼区間は、ゼロを正確に中心とする限り、任意の制限を持つことができます。


もちろん、基礎となるデータが実際に連続分布から来ている場合、このイベントは確率ゼロで発生しますが、それが起こると仮定しましょう。


質問は「σ推定= 1」と言います。
蓄積

その条件は1のp値を取得するために必要ではないので、私はそれを落としました。
モニカを

3

起こる可能性が0である事柄について、説得力のある哲学的議論を持つことは困難です。そこで、あなたの質問に関連するいくつかの例を紹介します。

同じ分布からの2つの巨大な独立したサンプルがある場合、両方のサンプルにはまだある程度のばらつきがあり、プールされた2サンプルt統計値は近くなりますが、正確に 0ではなく、P値は Unif(0,1),および95%信頼区間は非常に短く、非常に近くにセンタリングされます0.

そのようなデータセットとt検定の例:

set.seed(902)
x1 = rnorm(10^5, 100, 15)  
x2 = rnorm(10^5, 100, 15)
t.test(x1, x2, var.eq=T)

        Two Sample t-test

data:  x1 and x2
t = -0.41372, df = 2e+05, p-value = 0.6791
alternative hypothesis: true difference in means is not equal to 0
95 percent confidence interval:
 -0.1591659  0.1036827
sample estimates:
mean of x mean of y 
 99.96403  99.99177 

10,000のそのような状況からの結果を要約します。まず、P値の分布。

set.seed(2019)
pv = replicate(10^4, 
   t.test(rnorm(10^5,100,15),rnorm(10^5,100,15),var.eq=T)$p.val)
mean(pv)
[1] 0.5007066   # aprx 1/2
hist(pv, prob=T, col="skyblue2", main="Simulated P-values")
 curve(dunif(x), add=T, col="red", lwd=2, n=10001)

enter image description here

次に、検定統計量:

set.seed(2019)  # same seed as above, so same 10^4 datasets
st = replicate(10^4, 
       t.test(rnorm(10^5,100,15),rnorm(10^5,100,15),var.eq=T)$stat)
mean(st)
[1] 0.002810332  # aprx 0
hist(st, prob=T, col="skyblue2", main="Simulated P-values")
 curve(dt(x, df=2e+05), add=T, col="red", lwd=2, n=10001)

enter image description here

CIの幅についても同様です。

set.seed(2019)
w.ci = replicate(10^4, 
        diff(t.test(rnorm(10^5,100,15),
         rnorm(10^5,100,15),var.eq=T)$conf.int)) 
mean(w.ci)
[1] 0.2629603

仮定が満たされている場合、連続データを使用して正確なテストを実行して、単一のP値を取得することはほとんど不可能です。賢明な統計学者は、P値1を見たときに何が間違っているのかを熟考します。

たとえば、ソフトウェアに2つの同一の大きなサンプルを与えることができます。プログラミングは、これらが2つの独立したサンプルであるかのように実行され、奇妙な結果をもたらします。ただし、それでもCIの幅は0にはなりません。

set.seed(902)
x1 = rnorm(10^5, 100, 15)  
x2 = x1
t.test(x1, x2, var.eq=T)

        Two Sample t-test

data:  x1 and x2
t = 0, df = 2e+05, p-value = 1
alternative hypothesis: true difference in means is not equal to 0
95 percent confidence interval: 
 -0.1316593  0.1316593
sample estimates:
mean of x mean of y 
 99.96403  99.96403 

ただし、正規分布は連続的であるため特定の例の確率はゼロであるため、u1 = u2でもu1-u2 = -0.977でも何でもかまいません。私は「これは決して起こらず、チャンスはその場合はwnet間違っている」という行に沿ってコメントしたいと思いましたが、私は、そうではないと思った特定の例として確率ゼロ。
レヴィアン

1
これは間違った質問に対する正しい答えです
デビッド

1
@デビッド。おそらくそうです。あなたが正しい質問であると信じるものを述べ、答えを提案できるなら、それは周りで役に立つかもしれません。私は、いくつかの誤解だと思ったもののいくつかにしか対処しようとしませんでした。
ブルース

OPは、「非常に一般的な声明は、H0は決して真実ではないということです」と述べました。@BruceETの答えは、なぜH0が受け入れられないのかを示しています。H0が真になると、より均一にランダムなPになります。つまり、H0 真の場合、(0.98,0.99)のPは(0.1、0.2)のP 同様になります。
ロンジェンセン-私たちは全員モニカです

1

簡単な答え(+1からNoah)では、平均値の信頼区間は、p値とは異なる方法でサンプルの観測された変動に依存するため、ゼロ以外の長さである可能性があります。

しかし、なぜそれがそうなのか疑問に思うかもしれません。高いp値が小さい信頼区間も意味すると想像するのはそれほど奇妙ではありません。結局、それらは両方とも帰無仮説の確認に近い何かに対応しています。では、なぜこれが正しくないのでしょうか?

高いp値は、小さい信頼区間と同じではありません。

  • p値は、特定の偏差が観測される可能性を表すことにより、特定の観測がどの程度極端であるか(何らかの仮説が与えられた場合に極端である)の指標です。これは、観察された効果の大きさの表現であるとの関係での実験は、これらの観察は、ビューの統計的/確率論的観点から極端ではないことをこのような「不正確」の場合、大きな観察された効果の大きさはあまり意味はないかもしれない実験の精度( )。p値が1である場合、これ(ゼロ)はゼロ効果を観測したことを意味します。これは、そのようなゼロ結果以上を観測する確率が1に等しいためです(ただし、これゼロ効果がある同じではありません)。

    補足:なぜp値なのか?p値は、予想される効果サイズ(確率)に関連して実際に観測された効果サイズを表します。これは、実験により、データ/保存の一般的な変動に起因する純粋な偶然によって、関連する効果サイズの観測が設計により生成される可能性があるためです。観測/実験のp値が低いことを要求するということは、実験の精度が高いことを意味します。つまり、観測された効果の大きさは、偶然/ゆらぎのためではありません。 。

    XN(0,1)P(X=0)=0

  • αα

    高いp値は(必然的に)帰無仮説の証明/サポート/なんでもないことに注意してください。p値が高いということは、特定の帰無仮説に対して観測値が顕著/極端ではないことを意味しますが、これは対立仮説の場合にも当てはまる場合があります(つまり、結果は両方の仮説yes / no効果に従います)。これは通常、データに多くの情報が含まれていない場合に発生します(例:高ノイズまたは小さなサンプル)。

p0.5pU(0,1


1

H0μ1=μ2

いいえ、「証拠の不在は不在の証拠ではない」からです。確率はロジックの拡張であり、不確実性が追加されていると考えることができます。そのため、暫定的に、単位区間の実数ではなく、仮説検定がバイナリ値0(false)または1(true)のみを返すと想像してください。そのような場合、次の例のように、ロジックの基本的なルールが適用されます

  • 外で雨が降った場合、地面が濡れている可能性があります。
  • 地面が濡れています。
  • そのため、外で雨が降りました。

雨が降ったため、地面は非常によく濡れていました。または、スプリンクラー、排水溝の清掃、水道管の破損などが原因である可能性があります。上記のリンクで、より極端な例を見つけることができます。

μ1μ20

p=1±0H0、不適切な質問に対する答えため、仮説を「証明」することはできず、「これらの不合理な仮定の下では、これはありそうもない」と言うことができます。


0

信頼区間の計算に標準のtまたはガウス式を使用することを妨げるものは何もありません。必要な情報はすべて質問に記載されています。p = 1は、何か問題があるという意味ではありません。p = 1は、H0が真であることを特に確信できるという意味ではないことに注意してください。ランダムな変動は依然として存在し、u0 = u1がH0の下で発生する可能性がある場合、u0の真の値が真のu1とわずかに異なる場合にも発生する可能性があるため、信頼区間には単なる等値以上のものがあります。


私はいくつかの編集を行いましたが、より明確になったことを望みます。
arkiaamu

わかりました。以前のバージョンで定義されていなかったものへの参照を削除しました。その間、質問は他の人によって適切に回答されました。
レヴィアン

MathJax表記を使用してください
David

0

非常に一般的なステートメントは、H0は決して真ではなく、サンプルサイズの問題であるということです。

自分が何について話しているのかを知っていて、正確に話している人の間ではありません。従来の仮説検定では、nullが真であると結論付けられることはありませんが、nullが真であるかどうかは、nullが真であると結論付けられるかどうかとは異なります。

これは、p値が1.00000であることを意味します

両側検定の場合、はい。

H0との間に矛盾がないことを示しています。

H0配布に関する声明です。で与えられた分布のモードH00、したがって、観測と分布のモードとの間に矛盾はありませんが、からの矛盾がないと言うことは全く正しくありません H0。分布から何らかの価値がもたらされる可能性があるため、個々の結果が矛盾することはありません。各p値も同様に可能性があります。正確に.01のp値を取得することは、(離散化の問題を除き)正確に1のp値を取得することと同じ可能性があります。多数の独立したサンプルがあり、それらの分布が何と一致しなかった場合H0 予測は、平均がモードと一致しない単一のサンプルを単に見るよりもはるかに合法的に「差異」と呼ばれます。

この場合の平均差の95%信頼区間の限界は何ですか?

最初の近似では、95%信頼区間の限界は、適用可能な標準偏差の約2倍です。ゼロでは不連続性はありません。機能を見つけたらfϵ 平均の差について95%の信頼区間を見つける ϵ、あなたは単に取ることができます リムϵ0fϵ 平均差ゼロの信頼区間を見つけるために。

私の質問の主なポイントは、H0が真であると本当に言えるのはいつですか、つまりこの場合はμ1=μ2ですか?

私たちは何でも言うことができます。ただし、結果に関係なく、検定でnullがtrueであると示されていると言うことは、従来の仮説検定と一致しません。そして、そうすることは、明白な観点から十分に根拠がありません。平均が同じではないという対立仮説は、平均のすべての可能な違いを網羅しています。対立仮説は「平均の違いは1、または 2、または 3、または .5、または .1、...」平均の任意の小さな差を仮定することができ、それは対立仮説と一致します。また、任意の小さな差では、平均がnullの確率に任意に近い確率が与えられます。対立仮説は、平均などの分布のパラメーターが異なる可能性だけでなく、完全に異なる分布があることも含みます。たとえば、対立仮説は、「2つのサンプルは、正確に1または正確に0のいずれかで、それぞれの確率は.5です。」結果は、nullの場合よりも一貫性があります。

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.