1つのサンプルT検定で平均の差の信頼区間を解釈する方法は?


21

SPSSは、「差分平均の信頼区間」という出力を提供します。「100回のうち95回、サンプルの平均差がこれらの境界間で異なる」ことを意味することをいくつかの場所で読んだことがありますが、これは不明瞭です。「平均の差の信頼区間」を説明するために、誰もがより明確な表現を提案できますか?この出力は、1サンプルのt検定のコンテキストで表示されます。


1
あなたの解釈は何ですか?
mpiktas

1
これがプロポーションであることについて特別なものはないことに注意してください。推定値のCIは同様の方法で解釈されます。(ただし、推定される内容に応じて、異なる手順を使用してCIを構築できます。)したがって、この質問は、CIの解釈を求める以前の質問とまったく同じです。
whuber

回答:


13

尊敬される統計学者にとってさえ、これは簡単なことではありません。ネイトシルバーの最近の試みをご覧ください。

...通勤時間が平均より10分長くなる(信頼区間の何らかのバージョンを必要とする)頻度を教えてほしいと頼んだ場合は、少し考えてみる必要があります。

(New York Times のFiveThirtyEightブログ、9/ 29/10から。)これは信頼区間ではありません。解釈方法に応じて、許容範囲または予測間隔のいずれかになります。(それ以外の場合、確率の推定に関するMr. Silverの優れた議論に問題はありません。読みやすいです。)他の多くのWebサイト(特に投資中心のサイト)は、信頼区間を他の種類の区間と同様に混同します。

New York Timesは、生成および報告する統計結果の意味を明確にする努力を行ってきました。多くの世論調査の下の細字には、次のようなものが含まれています。

理論的には、20人中19人のケースで、すべての成人のこのようなサンプルに基づく結果は、すべてのアメリカ人成人のインタビューを求めることによって得られたものと、どちらの方向でも3パーセント以下の差があります。

例えばどのようにアンケートを行った 2011年5月2日、。)

少し冗長ですが、明確かつ正確です。このステートメントは、投票結果のサンプリング分布のばらつきを特徴づけています。それは信頼区間の考え方に近づいていますが、まだ完全ではありません。ただし、多くの場合、信頼区間の代わりにそのような表現を使用することを検討するかもしれません。

インターネット上で非常に多くの潜在的な混乱がある場合、信頼できる情報源に目を向けると便利です。私のお気に入りの1つは、Freedman、Pisani、およびPurvesの昔からのテキスト、Statisticsです。 現在、第4版では、30年以上にわたって大学で使用されており、明確でわかりやすい説明と古典的な「頻度主義」手法に焦点を当てていることで注目されています。信頼区間の解釈についての説明を見てみましょう。

95%の信頼レベルは、サンプリング手順について何かを言います...

[p。384; すべての引用は、第3版(1998)からのものです。]。続きます、

サンプルの出方が異なっていた場合、信頼区間は異なっていたはずです。...すべてのサンプルの約95%の場合、間隔は母集団のパーセンテージをカバーし、他の5%の場合はカバーしません。

[p。384]。テキストは信頼区間についてより多くを述べていますが、これは役立つのに十分です。そのアプローチは、議論の焦点をサンプルに移し、同時に声明に厳密さと明確さをもたらすことです。したがって、独自のレポートで同じことを試すことができます。たとえば、仮想実験で報告された割合の差を中心に[34%、40%]の信頼区間を記述するためにこのアプローチを適用してみましょう。

「この実験では、無作為に選択した被験者のサンプルと無作為に選択したコントロールを使用しました。34%から40%の差の信頼区間を報告します。これにより、実験の信頼性が定量化されます:被験者とコントロールの選択が異なる場合このような信頼区間は、選択された被験者とコントロールの結果を反映するように変更されます。そのような場合の95%で信頼区間は真の差(すべての被験者とすべてのコントロール)を含み、他の5%の場合はそうではありませんしたがって、この信頼区間に真の差が含まれている可能性は高いですが、確かではありません。つまり、真の差は34%〜40%であると考えられます。

(これは私のテキストであり、間違いなく改善することができます。編集者に作業を依頼してください。)

このような長い声明はやや扱いにくいです。実際のレポートでは、ほとんどのコンテキスト(ランダムサンプリング、被験者、コントロール、変動の可能性)が既に確立されているため、前述のステートメントの半分は不要です。レポートがサンプリングのばらつきがあることを確立し、サンプル結果の確率モデルを示す場合、通常、聴衆が必要とするほど明確かつ厳密に信頼区間(または他のランダムな区間)を説明することは難しくありません。


Whuberに感謝します。平均値の信頼区間を非常によく理解しています。私が混乱するのは、平均の違い(サンプルとポップの間)のCIです。
アン

@Anne何を言ってるの?私の知る限り、あなたの質問も回答もサンプル平均と母集団平均の違いについて言及していません。あなたの質問は、2つのサンプル平均の違い(おそらく実験被験者のグループと対照グループの平均の違い)に言及しているようです。
whuber

私が考えている例は、サンプルと母集団の平均値の違いを見ているところです。この場合、サンプルとポップの間のCIの正確な意味は何ですか。サンプル平均を使用してポップ標準偏差を推定したため、平均推定値の周りのCIを推定しています。平均の違いは、提供したポップ平均とサンプル平均の違いではありません。それで何ですか?
アン

1
@Anne「母集団平均」はサンプリングされている母集団の仮想の未知の平均ですか、それとも徹底的にサンプリングされた別の母集団の測定された平均ですか?また、どのような意味で「標本平均」を使用して母標準偏差を推定しましたか?それはおそらくタイプミスですか?
whuber

2
@whuberありがとう。「すべてのサンプルの95%(つまり、可能なすべての複製の95%)に対して計算されたCIは、その真の違いをカバーします。」という行 「100回のうち95回、サンプルの平均差はこれらの境界の間にある」よりも明確であり、あなたの説明は理にかなっています。
アン

5

技術的な観点からは、信頼区間の解釈に「明確な表現」があるとは個人的には思いません。

私は信頼区間を次のように解釈します:95%の信頼区間が真の平均差をカバーする確率は95%です

NN

N1

しかし、これはすべて哲学にあることに注意してください。信頼区間は、私が考える説明では最も曖昧なままです。適切に使用すると、良い結果が得られます。


「N個の異なる信頼区間」の後に新しい文を開始します。「これを言っていることをさらに解釈することができます...」ではうまくいきません。3番目の段落を変更することをお勧めします。
Theta30

2
3番目の段落は2番目の段落よりもはるかに優れています。観測データを条件として、信頼区間には真のパラメーター値が含まれるか含まれません。
枢機

@probabilityislogic:この回答は受け入れられたので、2番目の段落の編集を検討してください。また、最後から2番目の段落の意味を明確にしてください。それが読むように、私はあなたがどのような議論をしているのかよくわかりません。
枢機

実験の「繰り返し」の観点から信頼区間を解釈する場合、これらの繰り返しの以前の実験を無視する必要があります。私の要点は、これらの信頼区間の「繰り返し」における以前の実験の無知が、観測されていないデータセットに適しているのに、観測したデータのデータを一緒にプールしなければならないのはなぜですか?持っているデータでできる限り多くのCIを生成することは(CIの解釈について理解していることから)あまり意味がありませんか?
確率論的

1
均一で最も正確な信頼セットには、最適な決定理論とほぼ並行した理論全体があります。多分それはあなたのために欠けているパズルのピースです。(?)
枢機

3

質問に対する大まかな答えは、95%の信頼区間により、真のパラメーター値が区間内にあることを95%確信できるということです。しかし、その大まかな答えは不完全で不正確です。

不完全性は、「95%確信」が具体的なものを意味することは明らかではないという事実にあります。もしそうなら、その具体的な意味は統計学者の小さなサンプルでさえ普遍的に合意されないでしょう。信頼の意味は、間隔を取得するために使用された方法と、使用されている推論のモデルに依存します(以下でより明確になることを望みます)。

不正確さは、多くの信頼区間が、信頼区間をもたらした特定の実験ケースの真のパラメーター値の位置について何も伝えるように設計されていないという事実にあります!これは多くの人にとって驚くべきことですが、1933年の論文「統計的仮説の最も効率的なテストの問題について」からの引用で明確に述べられているネイマン・ピアソンの哲学から直接導かれています。

特定の仮説に関する限り、確率論に基づいたテストはそれ自体ではその仮説の真実または虚偽の貴重な証拠を提供できないと考える傾向があります。

しかし、別の視点からテストの目的を見ることができます。それぞれの仮説が真であるか偽であるかを知ることを望むことなく、私たちはそれらに関する行動を支配するルールを検索するかもしれません。

したがって、NP仮説テストの「反転」に基づく間隔は、そのテストから、それらをもたらした実験のプロパティに関する推論を許可せずに、既知の長期エラープロパティを持つという性質を継承します!私の理解では、これは帰納的推論から保護するものであり、これはネイマンが明らかに憎むべきものだと考えていた。

ネイマンは、彼の1941年のBiometrika論文「信頼できる議論と信頼区間の理論」で、「信頼区間」という用語と信頼区間の理論の起源を明示的に主張しています。ある意味では、適切に信頼区間であるものはすべて彼のルールによって再生されるため、個々の区間の意味は、その方法で計算された区間が関連する真を含む(カバーする)ロングランレートの観点からのみ表現できるパラメータ値。

ここで議論を分岐する必要があります。1つのストランドは「カバレッジ」の概念に従い、もう1つのストランドは信頼区間のような非ネイマニア区間に従います。前の投稿を延期して、この投稿が長くなりすぎる前に完了できるようにします。

非ネイマン信頼区間と呼ばれる可能性のある区間を生成するさまざまなアプローチがあります。これらの最初はフィッシャーの基準間隔です。(「フィデューシャル」という言葉は多くの人を怖がらせ、他の人からばかげたにやにや笑いを誘うかもしれませんが、それは別として...)ネイマンの方法で計算される間隔。しかし、彼らは正反対の解釈を招きます。ナイマニア区間は、メソッドの長期カバレッジプロパティのみを反映しますが、フィッシャーの区間は、実行された特定の実験の真のパラメーター値に関する帰納的推論をサポートすることを目的としています。

間隔の境界の1つのセットが2つの哲学的に異なるパラダイムのいずれかに基づいた方法から得られるという事実は、非常に紛らわしい状況につながります。結果は2つの矛盾した方法で解釈できます。基準引数から、特定の95%基準間隔に真のパラメーター値が含まれる可能性は95%です。Neymanの方法から、その方法で計算された間隔の95%に真のパラメーター値が含まれることのみがわかっており、真のパラメーター値を含む間隔が1か0のいずれか不明である確率について混乱させることを言わなければなりません。

大部分において、ネイマンのアプローチはフィッシャーの方向を左右しています。私の意見では、それは間隔の自然な解釈につながらないため、それは最も残念です。(NeymanとPearsonの上記の引用を読み直し、実験結果の自然な解釈と一致するかどうかを確認します。ほとんどの場合一致しません。)

間隔をグローバルエラー率の観点から正しく解釈でき、ローカル推論の観点からも正しく解釈できる場合、インターバルユーザーが提供するより自然な解釈をインターバルユーザーに禁止する正当な理由はありません。したがって、私の提案では、信頼区間の適切な解釈は次の両方です。

  • ナイマニアン:この95%の間隔は、長期的に(統計的な経験から)95%の場合に真のパラメーター値をカバーする間隔を生成する方法によって構築されました。

  • 漁師:この95%の区間は、本当のパラメーター値をカバーする95%の確率を持っています。

(ベイジアン法と尤度法も、望ましい頻度特性を持つ区間を生成します。このような区間は、わずかに異なる解釈を招き、両方ともおそらくナイマニアンよりも自然に感じるでしょう。)


@Micheal-それらが異なる場所は、すべての付随的な量の十分な統計と条件に基づいて、司法的な間隔がなければならないということです。ネイマンの信頼区間はこのプロパティを必要としないため、サンプルの特定のサブクラスのカバレッジが異なる「95%信頼区間」の対象となります。
確率

@probability-それを拡張できますか?95%のナイマニアの信頼区間は信頼区間ですが、95%の区間ではないという状況があるということですか?それらの状況はどうなりますか?そのような状況では、フィッシャー間隔は同じ範囲になりますか?
マイケルルー

サンプルから、「95%」の信頼区間に真の値が含まれていないことを伝えることができる場合を示すことができます。 Jaynesの論文の例5と例6には、CIで十分な統計を使用しないと長期的なカバレッジが得られるが、サンプルの特定のクラスによってカバレッジが異なる2つのケースが示されています。同じ平均(長期のカバレッジ)で異なる分散(特定のケースのカバレッジ)を持つ2つの変数を持つことに似ています
確率

2

信頼区間の意味は次のとおりです。実験をまったく同じ方法で繰り返した場合(つまり、同じ数の観測値、同じ母集団からの描画など)、および仮定が正しい場合は、計算します繰り返しごとにその間隔を再度設定すると、この信頼区間には、繰り返しの95%(平均)における真の有病率が含まれます。

したがって、真の有病率を含む区間を構築したことは95%の確信があると仮定できます(仮定が正しい場合など)。

これは通常、95%の自信を持って、妊娠中に喫煙した母親の子供の4.5〜8.3%が肥満になると言われています。

これ自体は通常興味深いものではないことに注意してください。喫煙していない母親の子供の有病率(オッズ比、相対リスクなど)と比較したいと思うでしょう。


(2つのスレッドの合併後にここに届いたこの返信は、CIの割合でフレーム化された重複した質問に応答しています。)
whuber

0

真の平均差がこの間隔の外側にある場合、実験からの平均差が真の平均差から遠く離れている可能性はわずか5%です。


「これほど遠く」とはどういう意味ですか?これは、遠く離れたCIの上限ですか、それとも観測された平均ですか?
確率

真の平均値と観測された平均値の間の距離は、「これだけ遠く」という意味です。これを「遠く」に変更します。それはもう少し明確だと思います。
トーマスレヴァイン

-2

私の解釈:実験をN回(Nは無限大になります)行うと、これらの多数の実験のうち、95%の実験が95%の制限内にある信頼区間を持ちます。より明確に、それらの制限は「a」と「b」であり、サンプルの平均差は「a」と「b」の100倍のうち95であるとしましょう。全人口のうち。


@ Ayush。ありがとう。それは役に立ちます。申し訳ありませんが、最後の文にはあまり従いません。
アン

@anne-わかりました。私が言いたいのは、2つのサンプル間の平均をテストし、各サンプルに1000人の人がいると言う場合、そこから無限のサンプルを定義することができます(それぞれから40人と言うことができます)。異なる実験は互いに異なります。信頼区間を観察している実験。
アユシュビヤニ11年

2
@ayush-これは最後から2番目の文の正しい解釈ではありません。または、少なくとも「a」と「b」に添え字を追加する必要があります。これにより、これらの数量が100回にわたって変化していることが明らかになります。現在の表記では、「a」と「b」は固定数量のように見えます。
確率は

@probabilityislogic-同意します。下付き文字が必要です。
アユシュビヤニ11年

1
[ab]

-2

「100回のうち95回、あなたの値は平均の1標準偏差以内に収まります」


4
@beginnerstatサイトへようこそ。「平均の2つの標準偏差」と言うつもりだったのでしょうか。さらに、OPが他の場所で読んだ内容でこの文言がどのように改善されるかはわかりません。少し詳しく説明しますか?
GUNG -復活モニカ

1
@gungのコメントに賛成です。「平均」と「SD」がここで使用されている意味を理解することに特に興味があります。これらは、基礎となるパラメーターまたはサンプルの推定値を参照していますか?それらは、基礎となる確率変数の分布またはそのような分布からのiid変量の平均のサンプリング分布を参照していますか?
whuber
弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.