未知の母標準偏差(sd)を持つ平均の信頼区間(CI)を計算するには、t分布を使用して母標準偏差を推定します。なお、ここで。ただし、母集団の標準偏差のポイント推定値がないため、近似を使用して推定しここで
対照的に、人口の割合については、CIを計算するために、として近似します。ここではおよび
私の質問は、なぜ人口比率の標準分布に満足しているのですか?
未知の母標準偏差(sd)を持つ平均の信頼区間(CI)を計算するには、t分布を使用して母標準偏差を推定します。なお、ここで。ただし、母集団の標準偏差のポイント推定値がないため、近似を使用して推定しここで
対照的に、人口の割合については、CIを計算するために、として近似します。ここではおよび
私の質問は、なぜ人口比率の標準分布に満足しているのですか?
回答:
標準の正規分布とスチューデントt分布はどちらも、
が小さいため、これらの2つの分布の違いがエラー小さくなります。
以下は、 1/2の3つの分布すべての比較です(またはがゼロの場合、比率は未定義です)
「経験的」分布は分布であり、推定値は有限集合制限されるため、離散でなければなりませんP { 0 、1 / N 、2 / N 、... 、N / N } 。
分布は近似のより良い仕事をするように見えます。
以下のためおよびあなたは標準正規とスチューデントのt分布間の差は完全に無視することができる見ることができます。
スチューデントのt分布は標準の正規分布よりも複雑であるため(実際は「自由度」でインデックス付けされた分布のファミリー全体であり、以前は1ページではなくテーブルの章全体が必要でした)、ほぼすべての場合に標準の正規分布が使用されます近似。
平均の信頼区間でt分布を使用する理由は、基礎となるデータが正規分布に従うという仮定に依存しており、標準偏差を推定する際にカイ2乗分布につながるため、。これは、データが正確に正常であるという仮定の下での正確な結果であり、を使用すると95%のカバレッジで、を使用すると95%未満のカバレッジで信頼区間になります。
比率のWald区間の場合、nのとき漸近正規性のみを取得します。pに依存する十分な大きさです。成功の基礎となるカウントは離散的であるため、プロシージャの実際のカバレッジ確率は、未知の応じて95%の公称カバレッジ確率を下回ることもあれば、上回ることもあります。したがって、を使用するための理論的な正当性はなく、実際の観点から、間隔を広げるだけでを使用することが実際に95%の公称カバレッジの達成に役立つという保証はありません。
カバレッジ確率は正確に計算できますが、シミュレートするのはかなり簡単です。次の例は、n = 35の場合のシミュレートされたカバレッジ確率を示しています。pの妥当な値に関する以前の信念に応じて、z区間を使用するカバレッジ確率は一般に0.95よりわずかに小さいのに対し、t区間のカバレッジ確率は一般に平均で.95にわずかに近いことがあります。 。
AdamOとjskの両方が素晴らしい答えを与えます。
私は平易な英語で彼らのポイントを繰り返してみようと思います:
基礎となる分布が正規である場合、平均と分散の 2つのパラメーターがあることがわかります。T分布は、分散の正確な値を知らなくても平均を推測する方法を提供します。実際の分散を使用する代わりに、サンプル平均とサンプル分散のみが必要です。これは正確な分布であるため、何を取得しているのかを正確に把握できます。つまり、カバレッジの確率は正しいです。tの使用法は、未知の人口変動を回避したいという欲求を単に反映しています。
ただし、比例の推論を行う場合、基礎となる分布は二項分布です。正確な分布を取得するには、クロッパーピアソンの信頼区間を調べる必要があります。指定する式は、Wald信頼区間の式です。正規分布は二項分布の制限分布であるため、正規分布を使用して二項分布を近似します。この場合、概算しているだけなので、t統計の使用による余分なレベルの精度は不要になり、すべて経験的なパフォーマンスに帰着します。BruceETの回答で示唆されているように、Agresi-Coullはこのような近似のための最近の単純で標準的な式です。
私の教授であるテキサスA&Mのロングネッカー博士は、2項ベースのCIと比較して異なる近似がどのように機能するかを示す簡単なシミュレーションを行いました。
詳細については、記事「統計科学における二項比率の区間推定」、Vol。16、pp.101-133、L。ブラウン、T。カイおよびA.ダスグプタ。基本的に、n> = 40にはAC CIをお勧めします。
通常の平均の信頼区間。通常の母集団からのランダムサンプルがあるとします。仮説検定に関して、正規平均信頼区間を見てみましょう。がわかっている場合、に対する両側検定は統計真であり、我々は拒否よう場合は5%レベルで
次に、「テストの反転」とは、 95%CI が、拒否に値構成されていることをします。つまり、「信じられる」値ですCIの形式はここで、は標準正規分布の上部および下部からそれぞれ確率0.025をカットします。
標準偏差が未知であり、サンプル標準偏差によって推定される場合、統計1900年代前半の人々は、が十分に大きいほぼ標準の標準であると考え、未知の代わりにを使用していましたカウントの大きさについて議論がありました。
最終的に、自由度のスチューデントのt分布であることが知られていました。したがって、が不明な場合は、を使用しここで、は、の上部および下部からそれぞれ確率0.025をカットします
[ 注:について人々は95%のCIことに気づいたしたがって、が不明で場合にをに置き換えるだけで「取得」できるという100年前の考え方は、最近出版された本でも維持されています。
二項比率の信頼区間。二項の場合、独立した回の試行を伴う二項実験で成功を観測したと仮定します。次に、二項の成功確率推定値としてを使用します vs をテストするために、静的下で、ことがわかり場合、を拒否し
このテストを反転させて 95%CIを取得しようとすると、いくつかの困難に直面します。テストを反転する「簡単な」方法は、書くことから始めることしかし、平方根の下のの値は不明であるため、彼は役に立たない。従来のWald CIでは、が十分に大きい未知のに置き換えても問題ないと想定していしたがって、Wald CIはという形式になり[残念ながら、試行回数が少なくとも数百である場合にのみ、Wald間隔はうまく機能します。]
より慎重に、やや厄介な2次不等式を解いて「テストを逆にする」ことができます。結果はウィルソン間隔です。(Wikipediaを参照してください。)95%の信頼区間の場合、この結果のやや簡略化されたバージョンは、およびを定義し、区間を このスタイルの二項信頼区間は、Agresi-Coull区間として広く知られています。過去20年間、小学校の教科書で広く支持されてきました。、P =(X+2)/ N P ±1.96√
要約すると、質問を見る1つの方法は、通常のおよび二項 CIをテストの反転として見ることができるということです。
()t分布は、使用する必要の問題に対する正確な解を提供ためとき不明です。
(b)の平均と分散は両方とも依存するため、を使用するには注意が必要Agresti-Coull CIは、適度に小さいでも合理的に正確な二項 CIを取得する1つの有用な方法を提供します、P、P。pn。
(既知の)母標準偏差を意味する表記の使用に注意してください。
T分布は、質問に対する答えとして生まれました。知らない場合はどうなりますか?
彼は、プラグイン推定器としてサンプルからを推定することでごまかすと、CIは平均して狭すぎると指摘しました。これには、T分布が必要でした。
あなたが実際にするときに、Tの分布を使用している場合は逆に、やる知っている、あなたの信頼区間は、平均的には広すぎるだろう。
また、この質問の答えは、ミラーによって勧誘ことに留意すべきで、この質問。