Mean(X / Y)とMean(X)/ Mean(Y)の使用法


7

XとYの2つの列を持つテーブルがあります。各行は、インスタンスの集計統計を表します。新しい列をZ = X / Yとして紹介します。これは、インスタンスに関するもう1つの重要な情報です。ここで、インスタンスの全体的な統計(つまり、平均)を提示したいと思います。

ここで私は懸念があります:Zの平均を表すために、Mean(X / Y)とMean(X)/ Mean(Y)のどちらを使用すればよいですか?単に、Z = X / YだからといってMean(X / Y)かもしれません。

しかし、私には2つの懸念があります。

  • Mean(Y)* Mean(Z)!= Mean(X); それは人々が数字を信頼するのを難しくします。
  • Mean(X / Y)とMean(X)/ Mean(Y)の違いは重要です。違い自体が統計的に意味のある何かを伝えますか?

//ケースを更新します。

テーブルは、システム上のユーザーレコードを保持します。ユーザーはそれにデータをアップロードできます。

  • X:アップロードの数
  • Y:アップロードの量
  • Z:Y / X; アップロードあたりのボリューム

私がやりたいのは、そのようなシステムを、実際と同じようなワークロードでシミュレートすることです。

X '= Mean(X)およびZ' = Mean(Z)を使用して、ユーザーのN個のインスタンスを作成します(Nは大きすぎません)。

したがって、シミュレーション中に、各ユーザーは合計量のデータをアップロードします:(X ')*(Z')。

次に、シミュレーション結果を集計すると、Mean(Y ')!= Mean(Y)になります。


2
例えば「「比推定」」を参照してください。stats.stackexchange.com/questions/164738/...

@fcop Hmm、比率の推定はいつ役立つのですか?統計に基づいてNインスタンス(それぞれにMean(X)、Mean(Y)、Mean(Z)の特性がある)でシミュレーションを実行する場合 Mean(Z)の代わりに比率推定器を使用できますか?
syko

1
今電車の中で、夕方に返事します。

1
平均値だけでなく、アップロードごとの、またはユーザーごとのアップロードの分布を調べましたか?シミュレーションでは、いずれにしても、平均値だけを使用するのではなく、分布からサンプリングする必要があります。
EdM

1
ここでは非常に良いアドバイスですが、両方の数量が厳密に正であっても、平均はそのような比率を要約するには不適切であることがよくあります。間隔はマップされ、間隔はマップされます。これはかなり非対称です。結果として得られる分布はしばしば非常にゆがんでおり、それだけでは厄介な、または問題のある手段になります。救済策は、多くの場合、比率の対数や(同等の)幾何平均を使用することです。X<Y0<(X/Y)<1Y>X>(X/Y)>1
Nick Cox

回答:


9

X / Yが有用な尺度であり、平均がそれを要約する有用な方法である場合は、平均(X / Y)を提示する必要があります。ジェンセンの不等式により、特別な状況を除いて、平均の比率が比率の平均と等しくなることはありません。


ありがとう、あなたの答えは正しいと思います。しかし、私の懸念の1つとして述べたように、(ジェンセンの不平等が何であるかについて気にしない)人々はその数を信じない傾向があります。なぜならMean(Y)* Mean(Z)!= Mean(X)これは直観に反します。その上で最良の説明は何でしょうか?
syko

2
@sykoは認識論的な問題です。これらは異なる量であることを注意深く説明してください。あなたの例が直感と矛盾しないと思います。等しい確率でY = -X、X = -1または1を取ります。
AdamO 2016

@AdamO計算にエラーがあると思います。この場合、(確率1で)。E(1/Y)>11/Y>1
Richard Rast

@RM「2つの独立確率変数の限界」とはどういう意味ですか?
AdamO 2016

@AdamO私が意味したことは、2つの独立変数があり、その2つのサンプルから無数のペアを作成することです。-私は自分のコメントについて間違っていたことに気付きましたが、その逆数の複雑さは無視しました。完全に独立した変数の場合、Mean(X)* Mean(1 / Y)= Mean(X / Y)ですが、Mean(X)/ Mean(Y)= Mean(X / Y)とは言えません。 Mean(1 / Y)= 1 / Mean(Y)のようなYのまれな分布。したがって、あなたの直感は、1。2つの変数が独立(非相関)で、2。Mean(1 / Y)= 1 / Mean(Y)であると仮定しています。これは一般的に正しくありません。
RM

4

Z=Y/Xは、アップロードごとの個々の平均ボリュームとして個々のユーザーにとって意味があるかもしれませんが、は、他のユーザーよりもシステムを使用するユーザーが多いため、全体として意味がありません。 Mean(Y/X)

これを考慮して加重平均を取った場合、自然な加重はアップロードの数あり、結果の加重平均はは、システム全体のアップロードごとの総平均ボリュームでもあります。Z=Y/XX

Weighted Mean(Z)=Sum(X×Y/X)/Sum(X)=Sum(Y)/Sum(X)=Mean(Y)/Mean(X)

あなたの懸念は正当化されます:おそらく後者のオプションを使う方が良いでしょう。

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.