異なるサンプルサイズの平均の比較をどのように解釈する必要がありますか？

ウェブサイトでの書籍の評価の場合を考えてみましょう。本Aは、平均評価4.25、分散で、10,000人によって評価されています。同様に、Book Bの評価は100人で、評価は4.5でです。 $\sigma = 0.5$ $\sigma = 0.25$

ブックAのサンプルサイズが大きいため、「平均安定化」は4.25になりました。現在、100人の場合、より多くの人がブックBを読んだ場合、平均評価は4または4.25に落ちる可能性があります。

異なるサンプルからの平均の比較をどのように解釈するべきか、また、できる/すべき最良の結論は何ですか？

たとえば、書籍Bは書籍Aよりも優れていると言えるでしょうか。

t-test mean sample-size

— 博士号
ソース

評価のコンテキストに特に興味がありますか？

— ジェロミーアングリム

@JeromyAnglim-うーん...おそらく。わからない。それが最も一般的な例です。何を思っていたんだ？

— PhD

以下のベイズ評価システムに関する私の答えをご覧ください。適用される評価コンテキストでは、通常、数百または数千のオブジェクトが評価されます。多くの場合、目的は、利用可能な情報が与えられたオブジェクトの評価の最適な推定値を形成することです。これは、2つのグループを使用した医療実験で言うように、単純な2グループの比較とは大きく異なります。

— ジェロミーアングリム

回答:

t検定を使用して、平均に違いがあるかどうかを評価できます。さまざまなサンプルサイズがt検定に問題を引き起こすことはなく、結果を特に注意して解釈する必要もありません。最終的に、単一の観測値を既知の分布と平均値およびSDを持つ無限母集団と比較することもできます。たとえば、IQが130の人は97.7％の人よりも賢いです。ただし、特定の（つまり、合計サンプルサイズ）に対して、グループが等しい場合にパワーが最大化されることに注意してください。非常に不均等なグループサイズでは、追加の観測ごとにそれほど多くの解像度は得られません。 $N$ $n$

電力に関する私のポイントを明確にするために、R向けに書かれた非常に単純なシミュレーションを以下に示します。

set.seed(9)                            # this makes the simulation exactly reproducible

power5050 = vector(length=10000)       # these will store the p-values from each 
power7525 = vector(length=10000)       # simulated test to keep track of how many 
power9010 = vector(length=10000)       # are 'significant'

for(i in 1:10000){                     # I run the following procedure 10k times

  n1a = rnorm(50, mean=0,  sd=1)       # I'm drawing 2 samples of size 50 from 2 normal
  n2a = rnorm(50, mean=.5, sd=1)       # distributions w/ dif means, but equal SDs

  n1b = rnorm(75, mean=0,  sd=1)       # this version has group sizes of 75 & 25
  n2b = rnorm(25, mean=.5, sd=1)

  n1c = rnorm(90, mean=0,  sd=1)       # this one has 90 & 10
  n2c = rnorm(10, mean=.5, sd=1)

  power5050[i] = t.test(n1a, n2a, var.equal=T)$p.value         # here t-tests are run &
  power7525[i] = t.test(n1b, n2b, var.equal=T)$p.value         # the p-values are stored
  power9010[i] = t.test(n1c, n2c, var.equal=T)$p.value         # for each version
}

mean(power5050<.05)                # this code counts how many of the p-values for
[1] 0.7019                         # each of the versions are less than .05 &
mean(power7525<.05)                # divides the number by 10k to compute the % 
[1] 0.5648                         # of times the results were 'significant'. That 
mean(power9010<.05)                # gives an estimate of the power
[1] 0.3261

$N=100$ $n_1=50$ $n_2=50$ $n_1=75$ $n_2=25$ $n_1=90$ $n_2=10$

これを類推して考えます。長方形の面積を知りたい場合で、境界が固定されている場合、長さと幅が等しい場合（つまり、長方形が正方形の場合）、面積は最大化されます。一方、長さと幅が異なると（長方形が長くなると）、領域が縮小します。

— gung-モニカの回復
ソース

パワーは最大化されていますか？理解したかどうかはよくわかりません。可能であれば例を挙げてください。

— PhD

t検定が不均等なサンプルサイズを処理できる理由は、各グループの平均の推定値の標準誤差を考慮するためです。これは、グループの分布の標準偏差をグループのサンプルサイズの平方根で割ったものです。母集団の標準偏差がbithに等しいかほぼ等しい場合、サンプルサイズがはるかに大きいグループの標準誤差は小さくなります。

— マイケルチャーニック

@gung-このシミュレーションがどの「言語」で書かれているか本当にわからない。私は 'R'を推測していますか？そして、私はまだそれを解読しようとしています:)

— PhD

コードはR用です。わかりやすくするためにコメントしました。Rがある場合は、コピーしてRに貼り付け、自分で実行できます。このset.seed()関数により、同一の出力が得られます。従うのがまだ難しいかどうか教えてください。

— グング-モニカの復職

N = n_{1} + n_{2}

$N=n_1+n_2$

n_{1} \times n_{2}

$n_1\times n_2$

n_{1} n_{2}

$n_1n_2$

@gungが言及したt検定への回答に加えて、ベイジアン評価システムに興味があるかもしれません（例：ディスカッション）。Webサイトは、このようなシステムを使用して、受け取った投票数が異なる注文項目をランク付けできます。基本的に、このようなシステムは、すべてのアイテムの平均評価と特定のオブジェクトの評価サンプルの平均の複合である評価を割り当てることによって機能します。評価の数が増えると、オブジェクトの平均に割り当てられる重みが増加し、すべてのアイテムの平均評価に割り当てられる重みが減少します。おそらく、ベイジアン平均をチェックしてください。

もちろん、投票詐欺、時間の経過などのさまざまな問題に対処するため、事態はさらに複雑になります。

— ジェロミー・アングリム
ソース

甘い。聞いたことがない。間違いなく調べます。たぶん、それが私が何を求めているのかというと:)

— PhD