1
ビニングされた観測値の標準偏差
サンプル観測値のデータセットがあり、範囲ビン内のカウントとして保存されています。例えば: min/max count 40/44 1 45/49 2 50/54 3 55/59 4 70/74 1 さて、これから平均の推定値を見つけることは非常に簡単です。各範囲ビンの平均(または中央値)を観測値として使用し、カウントを重みとして使用して、加重平均を見つけます。 x¯∗=1∑Ni=1wi∑i=1Nwixix¯∗=1∑i=1Nwi∑i=1Nwixi\bar{x}^* = \frac{1}{\sum_{i=1}^N w_i} \sum_{i=1}^N w_ix_i 私のテストケースでは、53.82になります。 私の質問は、標準偏差(または分散)を見つける正しい方法は何ですか? 検索を通じていくつかの答えを見つけましたが、どれが実際にデータセットに適切かはわかりません。ここでの別の質問とランダムなNISTドキュメントの両方で次の公式を見つけることができました。 s2∗=∑Ni=1wi(xi−x¯∗)2(M−1)M∑Ni=1wis2∗=∑i=1Nwi(xi−x¯∗)2(M−1)M∑i=1Nwis^{2*} = \frac{ \sum_{i=1}^N w_i (x_i - \bar{x}^*)^2 }{ \frac{(M-1)}{M} \sum_{i=1}^N w_i } テストケースの標準偏差は8.35です。ただし、加重平均に関するウィキペディアの記事には、両方の式が記載されています。 s2∗=∑Ni=1wi(∑Ni=1wi)2−∑Ni=1w2i∑i=1Nwi(xi−x¯∗)2s2∗=∑i=1Nwi(∑i=1Nwi)2−∑i=1Nwi2∑i=1Nwi(xi−x¯∗)2s^{2*} = \frac{ \sum_{i=1}^N w_i}{(\sum_{i=1}^N w_i)^2 - \sum_{i=1}^N w_i^2} \sum_{i=1}^N w_i(x_i-\bar{x}^*)^2 そして s2 …