「プールデータ」とはどういう意味ですか?


16

「データをプールする」とは、単に以前にカテゴリに分割されたデータを結合することを意味すると考えました。これは、統計の適用というよりも用語に関する質問だと思います。

たとえば、2つのサイトを比較し、各サイト内に2つの年タイプ(良いと悪い)があります。2つのサイトを「全体」比較する(つまり、年の種類を無視する)場合、各サイト内のデータをプールしていると言うのは正しいですか?それに加えて、数年のデータは良い年と悪い年のタイプで構成されているので、各サイト内で「良い年」と「悪い年」のデータセットを達成するために年のデータをプールしていると言っても正しいですか?ご協力いただきありがとうございます!モグ

回答:


13

はい、あなたの例は正しいです。

オックスフォード英語辞書では、プールを次のように定義しています

プール、v。

(puːl)

1.1トランス 合意に基づいて分配される普通株式またはファンドに投入すること。共通の利益のために(資本または利益)を組み合わせる。スペック 競合する鉄道会社などの:共有または分割する(トラフィックまたはレシート)。

別の例は次のとおりです。

男性と女性の物質Xの血中濃度を測定します。2つのグループ間に統計的な違いは見られないため、実験対象の性別を無視して、データを一緒プールします

統計的に正しいかどうかは、特定のケースに大きく依存します。


12

プーリングはデータの結合を指しますが、生データではなく情報の結合を指すこともあります。プーリングの最も一般的な用途の1つは、分散の推定です。2つの母集団が同じ分散を持っているが、必ずしも同じ平均を持っていると思わない場合、2つのグループのサンプルから2つの分散の推定値を計算し、それらをプール(加重平均)して単一の推定値を得ることができます共通の分散。平均が等しくない場合、分散推定値が膨らむため、結合データから分散の単一推定値を計算しません。


@Gregに感謝します。明確にするために(私は文献からの分散も結合しようとしているため)、あなたが言っているのは、複数の母集団の「平均」分散を取得するために、計算された分散の加重平均を取ることができるということですか?これらの分散をどのように重み付けしますか?各人口= 1ではありませんか?
モグ

サンプルサイズが等しい場合、単純平均が機能する傾向があります。通常、各データポイントに等しい重みを与えます。標準の式は、各分散に自由度(またはthanグループの分母の数n-1)を乗算し、すべてのピースを合計してから、自由度(すべてn_i-1)。
グレッグスノー
弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.