サンプル比率の分散はnとともに減少しますが、カウントの分散はnとともに増加します-なぜですか？

9

これで直感的なブロックができました。二項問題の場合、カウントの標準偏差はです。逆に、サンプル比率の標準偏差は増加とともに減少し、ます。除算することはできますが、標準偏差が反対方向に移動する理由がわかりません。 $\sqrt{np(1-p)}$ $n$ $\sqrt{\frac{p(1-p)}{n}}$ $n$

binomial standard-deviation

— user39707
ソース

1

2つ：（a）比率=

\frac{1}{n}

$\frac{1}{n}$ .count

$\,\,$ および（b）

sd (c X) = c . sd (X)

$\text{sd}(cX) = c.\text{sd}(X)$ 。ここでは明らかに

c = \frac{1}{n}

$c = \frac{1}{n}$ であり、

\frac{1}{n} \sqrt{n} = \frac{1}{\sqrt{n}}

$\frac{1}{n}\sqrt n = \frac{1}{\sqrt n}$ です。

— Glen_b-モニカを

1

はい、これは問題です-数学を見てnで除算することができますが、奇妙なのは直感的な側面です。パラメータのより正確な推定値を取得する方法を尋ねられた場合、より大きなサンプルを取得すると思います。これにより、比率（OK）の推定は向上しますが、カウントのスプレッドが広がり、追加するカウントが増えるほど、導き出すことができる結論が弱まります。

— user39707 14

カウントを使用する場合、標準偏差/間隔を計算する母集団の数量は何ですか？

— Glen_b

本（Moore＆Mccabe）の例（Helsinki Heart Study）は、私が行き詰まっているところです。確率（心臓発作）= 0.04＆n = 2000。心臓発作の予想数のSDは8.76として計算されます。いいよプラセボ群で84回、治療群で56回の心臓発作がありました。Z = 3.19＆たまたまありえない。トライアルに10,000があった場合、SD（カウント）は〜20になり、2つのグループの差はもはや重要ではなくなります。

— user39707 14

1

2つのグループは同じサイズですか？サンプルが増加しても、心臓発作の数は同じですか？

— ディミトリV.

7

非常に大まかに、私たちは公正なコインを投げていると想像してください。成功は頭として定義されます。コインを1回投げる場合、成功または成功をカウントします。どちらも、発生する確率が等しく正です。次に、コインを回投げる（）と想像してください。これで、と成功が得られます（両方の可能性は低くなります）が、から（可能性が高い）も得られます。分散が一連の数値の広がり具合を測定する場合、トスで、よりもスプレッドが広いことがわかります。 $(n=1)$ $1$ $0$ $(1/2)$ $10$ $n=10$ $0$ $1$ $2$ $10$ $10$ $1$ 投げたり裁判。これは、成功数の分散がとともに増加する理由を説明しています。 $n$

比率（成功の数をトスの数で割ったもの）で、真の値を概算しようとしています。より多くの試行でより多くの情報を得ると、に関する不確実性が下がり、分散が縮小します。頭が上がると、あなたはあまり知りません（そのだけ。ではすべてのヘッドであることが判明することを投げ、あなたはかなり確信していることだ近いものです。 $p$ $p$ $p \ne 0)$ $10$ $p$

— Dimitriy V. Masterov
ソース

教科書に戻りましたが、それでもまだよくわかりません。ヘルシンキハートに関する上記のコメントは、私にとって少し逆説的であるように思われます

— user39707

2

二項分布の標準偏差が正しい（そうである）と仮定することから始めましょう。これは、一定の成功確率与えられた場合の回の試行のうちの成功数の分布の標準偏差です。成功数を呼び出します。 $n$ $p$ $X$

つまりであり、これは標準偏差の2乗です。 $Var(X) = np(1-p)$

比率は試行回数に対する成功数であるため、次のようになります。

$Var(\frac{X}{n}) = \frac{Var(X)}{n^2} = \frac{np(1-p)}{n^2} = \frac{p(1-p)}{n}$ 。

したがって、標準偏差はもちろんです。 $\sqrt{\frac{p(1-p)}{n}}$

1つのケースではカウントを調べ、もう1つのケースではカウントをサンプルサイズで割ったものを調べます。

直感的に、成功数のカウントが比率（）よりもはるかに高い（）と想像できます。が増加すると、値が整数、多くの異なる（より大きな）をとり、より変動性を有することができます。一方、は0と1の間で制限されます。したがって、方が変動性があります。 $X = 0, 1, 2, \ldots, n$ $0 \leq p \leq 1$ $n$ $X$ $p$ $X$

— 鉱山労働者
ソース

どのようにして

V a r (\frac{X}{n}) = \frac{V a r (X)}{n^{2}}

$Var(\frac{X}{n}) = \frac{Var(X)}{n^2}$

n^{2}

$n^2$

V a r (X) = E (X^{2}) - [E (X)]^{2}

$Var(X)=E(X^2)-[E(X)]^2$

V a r (c X) = E (c^{2} X^{2}) - [c E (X)]^{2}

$Var(cX) = E(c^2X^2)-[cE(X)]^2$

= c^{2} E (X^{2}) - c^{2} E (X)^{2}

$=c^2E(X^2)-c^2E(X)^2$

= c^{2} (E (X^{2}) - [E (X)]^{2})

$=c^2(E(X^2)-[E(X)]^2)$

= c^{2} V a r (X)

$=c^2Var(X)$

c = 1 / n

$c = 1/n$

0

はい！私はそれを非常に簡単にします。

通常、stdとvarianceを使用する場合、後ろ向きになって、何が起こっているのかを確認してから、将来を予測します。振り返ってみると、通常、より多くの試行がより多くの情報を得るために役立ちます。ますます多くの試行が何が起こったかを絞り込むのに役立ちます。そして平均値を中心に回転します。Stdとvarは平均値を中心に回転するので、何が起こるかがますます近くなります。

二項式は異なります！私たちはすでに何が起こっているかを知っています、私たちは確率を知っています。つまり、確率を知っているからです。試行回数が増えると、平均値を中心に物事がどのように回転するかを理解するのに役立ちませんが、分布がますます広くなります。試行回数を増やしても、実際には変動の余地が増えるだけです。

2つのシナリオを想像してみてください。1つは、部屋の全員の身長を知りたい場合です。より多くの測定=部屋の実際の平均の高さに近い、新しい測定ごとに感謝します。

第二に、あなたはコインを持っています。あなたはすでに平均が何であるか知っています。その50/50は、その時点で完了したという意味です。したがって、フリップを開始したふりをしてみましょう。新しいフリップを行うたびに、エラーが発生する可能性が高くなります。あなたは10回裏返し、あなたはすべての10の頭を手に入れます、あなたはあなたの友達に何と言っています！その確率はどこにありましたか？まあ、ひっくり返せば、クレイジーな外れ値のチャンスは1回しかなかったでしょう。より多くのフリップは本当にあなたにもっと多くの情報を与えません。

算数0と数式0が役立つことを願っています。

— ザック川
ソース

0

この結果について直観を求めている場合は、次のどれがより変数であるかを自問してください。

...世帯の女性の割合、または全国の女性の割合？
...世帯の女性の数、または全国の女性の数？

— ベン-モニカの復活
ソース