私の仕事では、個人がデータセットの「平均」値を指す場合、通常は算術平均(「平均」または「期待値」)を指しています。「平均」の定義が事前に知られているので、幾何平均を指定すると、人々はおそらく私がわからないか役に立たないと思うでしょう。
データセットの「中央値」の定義が複数あるかどうかを判断しようとしています。たとえば、偶数個の要素を持つデータセットの中央値を見つけるために同僚によって提供された定義の1つは次のようになります。
アルゴリズム「A」
- 要素の数を2で割り、切り捨てます。
- その値は中央値のインデックスです。
- すなわち、次のセットでは、中央値はになります
5
。 [4, 5, 6, 7]
これは理にかなっているようですが、切り捨ての側面は少しarbitrary意的です。
アルゴリズム「B」
いずれにせよ、別の同僚が別のアルゴリズムを提案しており、それは彼の統計テキストにありました(名前と著者を取得する必要があります):
- 要素数を2で除算し、切り上げられた整数と切り捨てられた整数のコピーを保持します。それらを名前
n_lo
とn_hi
。 n_lo
およびの要素の算術平均を取りn_hi
ます。- すなわち、次のセットでは、中央値はになります
(5+6)/2 = 5.5
。 [4, 5, 6, 7]
ただし、5.5
この場合、中央値は元のデータセットに含まれていないため、これは間違っているようです。いくつかのテストコードでアルゴリズム「A」を「B」からスワップアウトすると、(予想どおり)ひどく破損しました。
質問
データセットの中央値を計算するこれら2つのアプローチに正式な「名前」はありますか?すなわち、「2つ以下の中央値」と「中間要素の平均値と新しいデータの中央値」の比較ですか?