年齢の中央値が平均年齢よりも良い統計であるのはなぜですか?


41

代替テキスト

代替テキスト

年齢に関しては、明らかに中央値が選択の統計量のようです。

算術平均がより悪い統計になる理由を自分で説明することはできません。なぜそうですか?

このサイトの存在を知らなかっため、もともとここに投稿しました。


4
すでに他のサイトで妥当な回答があったようです。
シェーン

1
@Shane:しかし、異なるサイトは異なる観点から異なる答えを集める可能性を持っているのでしょうか?
whuber

回答:


42

私の意見では、統計はこの質問に対する良い答えを提供しません。たとえば、平均は死亡率調査に関連する可能性がありますが、年齢はあなたが考えるほど簡単に測定することはできません。高齢者、非識字者、および一部の第三世界の国の人々は、たとえば、年齢を5または10の倍数に丸める傾向があります。

中央値は、そのようなエラーに対して平均よりも耐性があります。さらに、年齢の中央値は通常20〜40歳ですが、人々は100歳以上まで生きることができます(現在、近代国の人口の増加する顕著な割合は100歳を超えています)。そのような年齢の人々は、非常に若い人々と比較して、中央値に与えるよりも平均に1.5〜4倍の影響を及ぼします。したがって、中央値は、国の年齢分布に関する最新の統計値であり、平均よりも死亡率および平均余命にやや依存しています。

最後に、中央値は、年齢分布自体がどのように見えるかをわずかによく示しています。たとえば、中央値35を見ると、人口の半分が35歳以上であり、出生率についていくつかのことを推測できます。両親の年齢など。しかし、平均が35の場合、その35は、たとえば70歳の人口増加や、古い戦争や流行によるある年齢層の人口ギャップの影響を受ける可能性があるため、あまり言えません。

したがって、統計的な理由ではなく、人口統計上の理由から、中央値は、比較的大きな人口の年齢を要約するためのオムニバス値の役割に値するようです。


1
あなたは「中央値は平均よりもそのようなエラーに対してより耐性がある」ことを意味したと思います。私はあなたのコメントに同意しますが、米国国勢調査では、基本的にすべて同じ理由で、公式レポート(年齢だけでなく)の多くのカテゴリの中央値を報告します。収入はそのような点を説明するために年齢よりも良い例かもしれません。
アンディW

平均よりも中央値を優先することに関する価値声明のために、平均を外れ値/歪んだ分布に敏感な事実に置き換えました。実際には、中央値ではないので平均は優先されないと主張しました(対称分布でのみ、つまり平均と中央値が等しい場合にのみ平均を使用すべきだと言う人のように)。
アレクシス

1
@アレクシス私はあなたの批判に従っていません。詳しく説明してもらえますか?結局のところ、この答えは「事実」よりもはるかに多くを提供します。それは、それらの意味の分析とともに、それらの多くを含んでいます。また、具体的にどのような「価値ステートメント」を参照しますか?
whuber

私の懸念は、平均値と中央値の事実上の特性です(たとえば、前者は外れ値に敏感です。つまり、「このような年齢の人は、平均値に影響を与える割合が非常に若い人に比べて中央値に比べて1.5から4倍です」)。翻訳なる彼らの価値について、すなわち「中央値は、私たちの年齢分布自体がどのように見えるかのわずかに良い絵を提供します」。前者は事実であり、後者はその事実の評価です。私の懸念は、2つの切り替えです。もっと:stats.stackexchange.com/questions/96371/...
アレクシス

1
@Alexisこの質問は一般的な平均値や中央値の使用に関するものではなく、年齢分布の評価におけるそれらの効用に関するものであることに留意してください最初に、私の答えは万能薬ではないことを認めていることに注意してください平均は特定の目的に有用で関連性があります。私があなたが私を非難する罪を犯したとは思わない。それは「より良い」の曖昧な応用である:私はこの文脈で中央値と平均がどのように異なるを注意深く規定た。手段中央値の関係であなたがむち打つ問題があるように思えますが、これはそれを行う場所ではありません。
whuber

16

ジョンは姉妹サイトで良い答えをくれました。

彼が明示的に言及しなかった側面の1つはロバスト性です。中心点の尺度としての中央値は、ブレークポイントが高い(50%)ので平均よりも優れていますが、平均は0の非常に低い値です(詳細については、ウィキペディアを参照してください) )。

直観的には、個々の悪い観測値が平均値を歪めるのではなく、中央値を歪めないことを意味しています。


9
内訳は、母集団全体の記述統計量の問題ではありません。
whuber

12

math.stackexchangeに最初に投稿された私の答えは次のとおりです。

中央値は、「平均」と言うときに多くの人が実際に心に留めているものです。中央値を解釈するのは簡単です。人口の半分はこの年齢以上で、半分は以下です。平均はもう少し微妙です。

人々は対称性を求め、対称性がない場合は対称性を課します。人口の年齢分布は対称からほど遠いため、平均は誤解を招く可能性があります。年齢分布はピラミッドのようなものです。多くの子供ではなく、多くの高齢者。(または、少なくともそれは一種の定常状態です。米国では、第二次世界大戦後のベビーブーム世代が年齢とともにこの分布をゆがめています。過去よりも広いピラミッドの頂点。)

非対称分布の場合、中央値は対称統計であるため、中央値を報告する方が適切な場合があります。サンプリング分布が非対称であっても、中央値は対称です。


中央値はどのような意味で「対称」統計量ですか?分布が中央値についても(平均についても)対称的に分布する傾向があるのは確かにそうではありません。「中央値は人口を半分に分割する」(中央値を定義する)という別のコメントで書いたものだけを意味する場合、あなたの議論は円形に聞こえます:中央値は中央値なので、中央値は良いです!
whuber

7

hatchがhatchよりも優れているのはなぜですか?

それはあなたの質問に似ています。彼らは単に異なることを意味し、行います。中央値について話している場合、伝えようとしているストーリー、つまりデータに適用しようとしているモデルは、手段を備えたものとは異なります。


4

具体的な例として、コンゴ(DRC)と日本の平均年齢を考えてみましょう。1つは内戦で荒廃したもので、もう1つは人口の高齢化とともに発達しています。リンゴとリンゴの比較では、平均はそれほど面白くありません。他方、中央値は、定義により半分が上、半分が下にあるため、中心傾向の尺度として有益です。人口ピラミッドに関するウィキペディアの記事は、啓発的かもしれません(若者の膨らみ、人口の高齢化に関するセクションを参照)。


3

米国の公衆衛生データリポジトリは、個人のプライバシー上の理由によるデータの意図的なブラインド化とマスキングに関するHIPAA規制の影響により、5年単位のAGE形式に移行しています。

過去(HIPAA以前)のこの課題に対して、生年月日と死亡日との差に基づく尺度データ要素のかなりのスケールレベルを考えると、AGEをスケール変数として再考する必要があるかもしれません公衆衛生データセットにパラメトリックに記述され、非パラメトリックな方法でAGEを通常の測定レベルとして記述するモデルを支持します。私はこれが生物医学情報学コミュニティ内の多くの派toにとって「オーバーザ」に見えるかもしれないことを知っていますが、この考えは上記のコメントで説明されているように「解釈」に関していくらかのメリットがあるかもしれません。

ノンパラメトリックアプローチで利用できるすべての分析力についてはどうですか?はい、ほぼすべての人が、GLM(一般線形モデル)手法を、AGEと同じように動作する分布で私たちに提示する変数に適用しようとするのは事実です。

同時に、その分布の形状と、分布に存在する多次元重心およびサブグループ重心への多次元相互作用効果によってその形状がどのように決定されるかを考慮する必要があります。これらの非常に複雑なデータセットをどうするか?

データ要素が「モデルの仮定」を満たしていない場合、リスト全体を段階的にスキャンします(ダウンではなく、全体で言いました。メソッドの平等な雇用主である必要があります。他の可能なモデルの中で、仮定テストを「失敗しない」モデルを見つけます。

公衆衛生データセットの現在の形式では、5年単位(5YI)でAGEを処理するためのより標準的なモデルを考案する必要があります(データ視覚化コミュニティとして)。AGEのデータ視覚化(新しい5YI形式が与えられた場合)に対する私の投票は、ヒストグラムと箱ひげ図を使用することです。はい、これは中央値を意味します。(しゃれはありません!)

時には、絵は本当に千の言葉の価値があり、要約は千の言葉の要約です。箱ひげ図は、分布の「形状」を、ほぼ象徴的なレベルの解像度でのヒストグラムの意味のある記号表現として示しています。75歳から50歳(中央値)のパターンと25歳未満のntileのパターンを即座に視覚的に比較できる「サイドバイサイド」ボックスとウィスカープロットを表示して、5年の年齢増分の分布を比較すると、世界。表形式表示のテキストメカニクスを通じてデータ表現のスリルを享受し続けている私たちにとって、「スパークライン」のアニメーション化された視覚グラフィック要素として使用される場合、「茎と葉」図も役立つ可能性があります

AGEは成熟しました。現在利用可能なより強力な計算アルゴリズムを使用して、さらに調査する必要があります。


1
これはよく書かれた投稿ですが、元の質問とは関係がないようです。
アンディW

間接的ではあるが、質問の明白な意図である@Andyに適切に対処していると思います。欠点は、質問自体にあります。これは、平均が中央値よりも「悪い」という意味を特定していないため、あいまいです。したがって、適切な答えは、これを調査し、単一の統計で年齢分布を要約する目的を考慮する必要があります。ここで、これは当然、「年齢」が何を意味するのか、年齢分布をどの程度適切に比較するかの議論につながります。
whuber

3

年齢分布の平均よりも中央値を選択するのに十分な説明的な理由はないと思います。報告されたデータを比較する場合、実用性の1つがあります。

多くの国では、5年ごとに人口を報告しています。これにより、特に最も若い間隔(乳児死亡率の影響を受ける)、上部の「間隔」(80+の「間隔」の平均はどれくらいですか)、および上部の間隔(通常、各間隔の平均は中央よりも低くなります)。

中央値間隔内で補間することにより中央値を推定することははるかに簡単で、多くの場合、その間隔でフラットまたは台形の年齢分布を仮定することで近似します(多くの国で死亡率は中央値年齢の周りで比較的低く、これをより合理的な近似にします老いも若きも。


3

元の質問に役立つ答えを出すには、質問の背後にある質問を知っている必要があります。つまり、「さまざまな国の年齢分布を比較する何らかの要約統計が必要なのはなぜですか?」中央値は、いくつかの質問に最も役立つ場合があります。平均は他の人にとって最も有用かもしれません。また、「特定の年齢を上回る(または下回る)パーセント」が最も有用な統計となる疑問があります。


2

ここで良い答えが得られていますが、2セントを加算します。私は、血液量、排泄率、薬物効果の基本レベル、最大薬物効果、およびそのようなパラメーターのようなものを扱う薬理学で働いています。

任意のプラスまたはマイナスの値を取ることができる変数と、プラスにしかなれない値を区別します。プラスまたはマイナスの任意の値をとることができる変数の例としては、薬物効果があり、これは正、ゼロ、または負になる可能性があります。現実的にのみ正となる変数の例は、血液量または薬物排出率です。

これらのことを、通常は正規分布または対数正規分布、任意の値の分布では正規分布、正の値のみの分布では対数正規分布でモデル化します。対数正規数とは、正規分布数の累乗をとった数Eのことであり、正の値にしかなれない理由です。

正規分布変数の場合、中央値、平均値、およびモードは同じ数値であるため、どちらを使用してもかまいません。ただし、対数正規分布変数の場合、平均値は中央値とモードの両方よりも大きいため、あまり有用ではありません。実際、中央値は基礎となる法線の平均値であるため、はるかに魅力的な尺度です。

年齢(おそらく)が決して負になることはないので、対数正規分布はおそらく正規分布よりも良い説明であるため、中央値(基礎となる正規の平均に対するE)がより有用です。


5
年齢の分布は確かに対数正規分布ではありません。
ロブハインドマン

1
年齢が常に正であるという事実だけから、年齢が対数正規分布していると推測できるとは思いません。ガンマ分布とワイブル分布も常に正であるため、なぜそれらを選択しないのですか?
ニコ

@ロブ:@ニコ:あなたが正しいと確信しています。それは例の悪い選択でした。通常、ボリュームやクリアランスなどの薬理学的パラメーターをモデル化します。
マイクダンラベイ

2

中央値は範囲で使用し、平均は標準偏差で使用する必要があると教えられました。年齢について話すとき、範囲は広がりを表現するのにより適切な方法であり、ほとんどの人にとって理解しやすいと思います。たとえば、調査対象集団では、平均年齢は53(SD 5.4)であり、年齢の中央値は48(範囲23〜77)でした。そのため、私は平均よりも中央値を使用することを好みます。しかし、統計学者または統計学の専門家が範囲付き平均を使用することについて何を言うのか、ここに非常に興味がありますか?これは科学論文でかなり見られます。


CV、スザンヌへようこそ。回答を得ようとしてこれを投稿した場合は、それを削除して、新しい質問として再投稿してください。このサイトの使用方法に関するガイダンスは、ヘルプセンターで入手できます。
whuber

1

math.stackexchangeに関するジョンの答えは、次のように表示できます。

分布が歪んでいる場合、中央値は平均値よりも優れた要約統計量になる可能性があります。

大人よりも乳児の方が多いと彼が言うとき、彼は本質的に年齢分布が歪んだ分布であることを示唆していることに注意してください。


実際、私は今日、多くの国での偏りは、トッツではなく、シニアに向かっていると思います。
JMは統計家ではありません

おそらく、それは他の方法で歪んでいますが、一般的なポイントが立っています。歪んだ分布の場合、中央値は平均よりも意味があります。

math.stackexchangeの回答を更新して、その点だけを強調しました。人々は対称性を求めており、対称性がないと誤って対称性を課す可能性があります。中央値を報告するときは、分布が対称ではない場合でも、対称的な回答(中央値は母集団を半分に分割します)を提供します。
ジョンD.クック

この答えは、私にとって常にややこしいものです。分布が歪んでいない場合(つまり、対称である場合)、平均中央値に等しいので、分布が歪んでいる場合、中央値は「より良い」と言うことは、「使用のみ」という裏口の方法です中央値。」
アレクシス

1

平均年齢がデータセットの外れ値の影響を受けることを願っていますが、年齢の中央値はそうではありません。ワクチン接種患者のデータセットの例を見てみましょう:1,2,3,4,4,5,6,6,6,78歳の平均は11.5歳で、これらの患者の年齢の中央値は4.5歳です。この平均年齢は外れ値78の影響を受けています。歪んだ分布のデータセットを処理する場合、中央値が最適です。


User28への応答を参照してください。
アレクシス

0

確かに人口統計分析の場合、平均値と中央値だけで誤ったラベルが付けられる可能性のある外れ値や成長領域を探している場合、特に互いに組み合わせて、平均値と中央値の両方が価値があると思います。退職後のコミュニティが大きいコミュニティや出生率が急増している地域では、中央値だけでは全体像がわからない場合があります。これは、平均が非常に有用な場合です。

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.