複数の「中央値」式はありますか?


16

私の仕事では、個人がデータセットの「平均」値を指す場合、通常は算術平均(「平均」または「期待値」)を指しています。「平均」の定義が事前に知られているので、幾何平均を指定すると、人々はおそらく私がわからないか役に立たないと思うでしょう。

データセットの「中央値」の定義が複数あるかどうかを判断しようとしています。たとえば、偶数個の要素を持つデータセットの中央値を見つけるために同僚によって提供された定義の1つは次のようになります。

アルゴリズム「A」

  • 要素の数を2で割り、切り捨てます。
  • その値は中央値のインデックスです。
  • すなわち、次のセットでは、中央値はになります5
  • [4, 5, 6, 7]

これは理にかなっているようですが、切り捨ての側面は少しarbitrary意的です。

アルゴリズム「B」

いずれにせよ、別の同僚が別のアルゴリズムを提案しており、それは彼の統計テキストにありました(名前と著者を取得する必要があります):

  • 要素数を2で除算し、切り上げられた整数と切り捨てられた整数のコピーを保持します。それらを名前n_lon_hi
  • n_loおよびの要素の算術平均を取りn_hiます。
  • すなわち、次のセットでは、中央値はになります(5+6)/2 = 5.5
  • [4, 5, 6, 7]

ただし、5.5この場合、中央値は元のデータセットに含まれていないため、これは間違っているようです。いくつかのテストコードでアルゴリズム「A」を「B」からスワップアウトすると、(予想どおり)ひどく破損しました。

質問

データセットの中央値を計算するこれら2つのアプローチに正式な「名前」はありますか?すなわち、「2つ以下の中央値」と「中間要素の平均値と新しいデータの中央値」の比較ですか?


16
アルゴリズム「A」が中央値と見なされたことはありません。データの中心的傾向の記述統計がデータ自体の中にないことは問題ではありません。結局のところ、ほとんどの手段もデータに含まれていません。中央値に求められるより基本的な特性は、データの順序が逆になっても変化しないことです。データを最小から最大、または最大から最小に並べるのは好みの問題だからです。このため、ほとんどの著者はアルゴリズム「B」のように中央値を定義しています。これは、可能な限り最も単純な順序不変手順であるためです。
whuber

3
@whuberアルゴリズム「A」は、低中央値と呼ばれることもあります。もちろん、対応する高中央値もあります。通常、中央値は2つの平均です(中央値が計算されるセットの1つの要素である場合とそうでない場合があります)。
user603

8
1、2、3、4、5、6の3と4など、偶数個の観測値を持つ順序付けられたサンプルの2つの中心値はコメディアンと見なされるというコメントを繰り返すのに適した時間と場所(SMスティグラー、R。ケンカー、および他の疑いのない人が独自に装備)。
ニックコックス

3
両方のアルゴリズムは、データをソートする重要なステップを逃していませんか?
エミール

3
「中央値」を常にデータセットの要素にする必要がある場合、実際にはmedoidを探しているかもしれません。
イルマリカロネン

回答:


23

TL; DR-サンプルの中央値の異なる推定量に特定の名前が付けられていることを知りません。一部のデータからサンプル統計を推定する方法はかなり面倒であり、リソースが異なると定義も異なります。

Hogg、McKean and Craig's Introduction to Mathematical Statisticsで、著者はランダムサンプルの中央値の定義を提供していますが、サンプルの数が奇数の場合のみです!著者は書く

nYn+1/2

Y

n

アルゴリズムBには、データの半分が値を超え、半分のデータが値を下回るという特性があります。ランダム変数の中央値の定義に照らして、これは良いようです。


特定のエスティメータがユニットテストを破るかどうかは、ユニットテストの特性です。特定のエスティメータに対して記述されたユニットテストは、別のエスティメータを置き換えるときに必ずしも保持されません。理想的なケースでは、定義に関する教義上の議論のためではなく、組織の重要なニーズを反映するため、単体テストが選択されました。


2
(+1)さらに追加することもできます(1)値に重みが付いている場合、中央値の定義は原則として、実際にはそれもカバーする必要があります。(これまでの回答では暗黙のうちに、すべての重みは等しく、したがって重要ではありません。)重みの累積合計の線形補間は最も単純ですが、他の種類の補間が意味をなす場合があります。(2)中央値のより厳密な定義は、通常、どこかに確率のスパイクがあるものを含む、離散分布、連続分布、およびハイブリッド分布を同様にカバーすることを目的としています。
ニックコックス

25

@Sycoraxの言うこと。

実際のところ、一般的な分位数の定義は驚くほど多く、特に中央値も多くあります。Hyndman&Fan(1996、The American Statisticianが概要を説明しますが、それはまだわかりません。異なるタイプには正式な名前はありません。使用しているタイプを明確にする必要がある場合があります。(現実的なサイズのデータ​​セットでは、多くの場合、大きな違いはありません。)

中央値としてデータセットに存在しない値を持つことは一般に受け入れられていることに注意してください。たとえば、(4、5、6、7)の中央値として5.5です。これは、Rのデフォルトの動作です。

> median(4:7)
[1] 5.5

R's median()はデフォルトでHyndman&Fanの分類のタイプ7を使用します。


6
+1「現実的なサイズのデータ​​セットでは大きな違いをもたらさないことが多い」。私はいつもの「物質的な違いを生むなら、おそらくもっと多くのデータが必要だ」と言って盗みます。:)
ジェイソン

1
値が0、1(たとえば)で、ほぼ同じ数の0と1(0.5に近い)のバイナリ変数がある場合、大きなサンプルサイズでは、報告された中央値が0、0.5、1の間で前後に反転するのを必ずしも停止できません。 MostellerとTukey(Data Analysis and Regression 1977)は、中央値が特にうまく機能しない場合として、強く二峰性でほぼ対称な分布を挙げています。
ニックコックス

3

Rのmad関数では、「lo-median」という用語を使用してアルゴリズムAを記述し、「hi-median」を代わりに切り上げを記述し、単に「median」を使用してアルゴリズムBを記述します(他の人が指摘したように、最も一般的な定義)。

奇妙なことに、Rのmedian()関数にはそのようなオプションはありません!(ただし、R quantile()typeは微調整が必​​要です。)

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.