SPSSは、「差分平均の信頼区間」という出力を提供します。「100回のうち95回、サンプルの平均差がこれらの境界間で異なる」ことを意味することをいくつかの場所で読んだことがありますが、これは不明瞭です。「平均の差の信頼区間」を説明するために、誰もがより明確な表現を提案できますか?この出力は、1サンプルのt検定のコンテキストで表示されます。
SPSSは、「差分平均の信頼区間」という出力を提供します。「100回のうち95回、サンプルの平均差がこれらの境界間で異なる」ことを意味することをいくつかの場所で読んだことがありますが、これは不明瞭です。「平均の差の信頼区間」を説明するために、誰もがより明確な表現を提案できますか?この出力は、1サンプルのt検定のコンテキストで表示されます。
回答:
尊敬される統計学者にとってさえ、これは簡単なことではありません。ネイトシルバーの最近の試みをご覧ください。
...通勤時間が平均より10分長くなる(信頼区間の何らかのバージョンを必要とする)頻度を教えてほしいと頼んだ場合は、少し考えてみる必要があります。
(New York Times のFiveThirtyEightブログ、9/ 29/10から。)これは信頼区間ではありません。解釈方法に応じて、許容範囲または予測間隔のいずれかになります。(それ以外の場合、確率の推定に関するMr. Silverの優れた議論に問題はありません。読みやすいです。)他の多くのWebサイト(特に投資中心のサイト)は、信頼区間を他の種類の区間と同様に混同します。
New York Timesは、生成および報告する統計結果の意味を明確にする努力を行ってきました。多くの世論調査の下の細字には、次のようなものが含まれています。
理論的には、20人中19人のケースで、すべての成人のこのようなサンプルに基づく結果は、すべてのアメリカ人成人のインタビューを求めることによって得られたものと、どちらの方向でも3パーセント以下の差があります。
(例えば、どのようにアンケートを行った 2011年5月2日、。)
少し冗長ですが、明確かつ正確です。このステートメントは、投票結果のサンプリング分布のばらつきを特徴づけています。それは信頼区間の考え方に近づいていますが、まだ完全ではありません。ただし、多くの場合、信頼区間の代わりにそのような表現を使用することを検討するかもしれません。
インターネット上で非常に多くの潜在的な混乱がある場合、信頼できる情報源に目を向けると便利です。私のお気に入りの1つは、Freedman、Pisani、およびPurvesの昔からのテキスト、Statisticsです。 現在、第4版では、30年以上にわたって大学で使用されており、明確でわかりやすい説明と古典的な「頻度主義」手法に焦点を当てていることで注目されています。信頼区間の解釈についての説明を見てみましょう。
95%の信頼レベルは、サンプリング手順について何かを言います...
[p。384; すべての引用は、第3版(1998)からのものです。]。続きます、
サンプルの出方が異なっていた場合、信頼区間は異なっていたはずです。...すべてのサンプルの約95%の場合、間隔は母集団のパーセンテージをカバーし、他の5%の場合はカバーしません。
[p。384]。テキストは信頼区間についてより多くを述べていますが、これは役立つのに十分です。そのアプローチは、議論の焦点をサンプルに移し、同時に声明に厳密さと明確さをもたらすことです。したがって、独自のレポートで同じことを試すことができます。たとえば、仮想実験で報告された割合の差を中心に[34%、40%]の信頼区間を記述するためにこのアプローチを適用してみましょう。
「この実験では、無作為に選択した被験者のサンプルと無作為に選択したコントロールを使用しました。34%から40%の差の信頼区間を報告します。これにより、実験の信頼性が定量化されます:被験者とコントロールの選択が異なる場合このような信頼区間は、選択された被験者とコントロールの結果を反映するように変更されます。そのような場合の95%で信頼区間は真の差(すべての被験者とすべてのコントロール)を含み、他の5%の場合はそうではありませんしたがって、この信頼区間に真の差が含まれている可能性は高いですが、確かではありません。つまり、真の差は34%〜40%であると考えられます。
(これは私のテキストであり、間違いなく改善することができます。編集者に作業を依頼してください。)
このような長い声明はやや扱いにくいです。実際のレポートでは、ほとんどのコンテキスト(ランダムサンプリング、被験者、コントロール、変動の可能性)が既に確立されているため、前述のステートメントの半分は不要です。レポートがサンプリングのばらつきがあることを確立し、サンプル結果の確率モデルを示す場合、通常、聴衆が必要とするほど明確かつ厳密に信頼区間(または他のランダムな区間)を説明することは難しくありません。
技術的な観点からは、信頼区間の解釈に「明確な表現」があるとは個人的には思いません。
私は信頼区間を次のように解釈します:95%の信頼区間が真の平均差をカバーする確率は95%です
しかし、これはすべて哲学にあることに注意してください。信頼区間は、私が考える説明では最も曖昧なままです。適切に使用すると、良い結果が得られます。
質問に対する大まかな答えは、95%の信頼区間により、真のパラメーター値が区間内にあることを95%確信できるということです。しかし、その大まかな答えは不完全で不正確です。
不完全性は、「95%確信」が具体的なものを意味することは明らかではないという事実にあります。もしそうなら、その具体的な意味は統計学者の小さなサンプルでさえ普遍的に合意されないでしょう。信頼の意味は、間隔を取得するために使用された方法と、使用されている推論のモデルに依存します(以下でより明確になることを望みます)。
不正確さは、多くの信頼区間が、信頼区間をもたらした特定の実験ケースの真のパラメーター値の位置について何も伝えるように設計されていないという事実にあります!これは多くの人にとって驚くべきことですが、1933年の論文「統計的仮説の最も効率的なテストの問題について」からの引用で明確に述べられているネイマン・ピアソンの哲学から直接導かれています。
特定の仮説に関する限り、確率論に基づいたテストはそれ自体ではその仮説の真実または虚偽の貴重な証拠を提供できないと考える傾向があります。
しかし、別の視点からテストの目的を見ることができます。それぞれの仮説が真であるか偽であるかを知ることを望むことなく、私たちはそれらに関する行動を支配するルールを検索するかもしれません。
したがって、NP仮説テストの「反転」に基づく間隔は、そのテストから、それらをもたらした実験のプロパティに関する推論を許可せずに、既知の長期エラープロパティを持つという性質を継承します!私の理解では、これは帰納的推論から保護するものであり、これはネイマンが明らかに憎むべきものだと考えていた。
ネイマンは、彼の1941年のBiometrika論文「信頼できる議論と信頼区間の理論」で、「信頼区間」という用語と信頼区間の理論の起源を明示的に主張しています。ある意味では、適切に信頼区間であるものはすべて彼のルールによって再生されるため、個々の区間の意味は、その方法で計算された区間が関連する真を含む(カバーする)ロングランレートの観点からのみ表現できるパラメータ値。
ここで議論を分岐する必要があります。1つのストランドは「カバレッジ」の概念に従い、もう1つのストランドは信頼区間のような非ネイマニア区間に従います。前の投稿を延期して、この投稿が長くなりすぎる前に完了できるようにします。
非ネイマン信頼区間と呼ばれる可能性のある区間を生成するさまざまなアプローチがあります。これらの最初はフィッシャーの基準間隔です。(「フィデューシャル」という言葉は多くの人を怖がらせ、他の人からばかげたにやにや笑いを誘うかもしれませんが、それは別として...)ネイマンの方法で計算される間隔。しかし、彼らは正反対の解釈を招きます。ナイマニア区間は、メソッドの長期カバレッジプロパティのみを反映しますが、フィッシャーの区間は、実行された特定の実験の真のパラメーター値に関する帰納的推論をサポートすることを目的としています。
間隔の境界の1つのセットが2つの哲学的に異なるパラダイムのいずれかに基づいた方法から得られるという事実は、非常に紛らわしい状況につながります。結果は2つの矛盾した方法で解釈できます。基準引数から、特定の95%基準間隔に真のパラメーター値が含まれる可能性は95%です。Neymanの方法から、その方法で計算された間隔の95%に真のパラメーター値が含まれることのみがわかっており、真のパラメーター値を含む間隔が1か0のいずれか不明である確率について混乱させることを言わなければなりません。
大部分において、ネイマンのアプローチはフィッシャーの方向を左右しています。私の意見では、それは間隔の自然な解釈につながらないため、それは最も残念です。(NeymanとPearsonの上記の引用を読み直し、実験結果の自然な解釈と一致するかどうかを確認します。ほとんどの場合一致しません。)
間隔をグローバルエラー率の観点から正しく解釈でき、ローカル推論の観点からも正しく解釈できる場合、インターバルユーザーが提供するより自然な解釈をインターバルユーザーに禁止する正当な理由はありません。したがって、私の提案では、信頼区間の適切な解釈は次の両方です。
ナイマニアン:この95%の間隔は、長期的に(統計的な経験から)95%の場合に真のパラメーター値をカバーする間隔を生成する方法によって構築されました。
漁師:この95%の区間は、本当のパラメーター値をカバーする95%の確率を持っています。
(ベイジアン法と尤度法も、望ましい頻度特性を持つ区間を生成します。このような区間は、わずかに異なる解釈を招き、両方ともおそらくナイマニアンよりも自然に感じるでしょう。)
信頼区間の意味は次のとおりです。実験をまったく同じ方法で繰り返した場合(つまり、同じ数の観測値、同じ母集団からの描画など)、および仮定が正しい場合は、計算します繰り返しごとにその間隔を再度設定すると、この信頼区間には、繰り返しの95%(平均)における真の有病率が含まれます。
したがって、真の有病率を含む区間を構築したことは95%の確信があると仮定できます(仮定が正しい場合など)。
これは通常、95%の自信を持って、妊娠中に喫煙した母親の子供の4.5〜8.3%が肥満になると言われています。
これ自体は通常興味深いものではないことに注意してください。喫煙していない母親の子供の有病率(オッズ比、相対リスクなど)と比較したいと思うでしょう。
私の解釈:実験をN回(Nは無限大になります)行うと、これらの多数の実験のうち、95%の実験が95%の制限内にある信頼区間を持ちます。より明確に、それらの制限は「a」と「b」であり、サンプルの平均差は「a」と「b」の100倍のうち95であるとしましょう。全人口のうち。
「100回のうち95回、あなたの値は平均の1標準偏差以内に収まります」