XとYの2つの列を持つテーブルがあります。各行は、インスタンスの集計統計を表します。新しい列をZ = X / Yとして紹介します。これは、インスタンスに関するもう1つの重要な情報です。ここで、インスタンスの全体的な統計(つまり、平均)を提示したいと思います。
ここで私は懸念があります:Zの平均を表すために、Mean(X / Y)とMean(X)/ Mean(Y)のどちらを使用すればよいですか?単に、Z = X / YだからといってMean(X / Y)かもしれません。
しかし、私には2つの懸念があります。
- Mean(Y)* Mean(Z)!= Mean(X); それは人々が数字を信頼するのを難しくします。
- Mean(X / Y)とMean(X)/ Mean(Y)の違いは重要です。違い自体が統計的に意味のある何かを伝えますか?
//ケースを更新します。
テーブルは、システム上のユーザーレコードを保持します。ユーザーはそれにデータをアップロードできます。
- X:アップロードの数
- Y:アップロードの量
- Z:Y / X; アップロードあたりのボリューム
私がやりたいのは、そのようなシステムを、実際と同じようなワークロードでシミュレートすることです。
X '= Mean(X)およびZ' = Mean(Z)を使用して、ユーザーのN個のインスタンスを作成します(Nは大きすぎません)。
したがって、シミュレーション中に、各ユーザーは合計量のデータをアップロードします:(X ')*(Z')。
次に、シミュレーション結果を集計すると、Mean(Y ')!= Mean(Y)になります。