- Wolfram Alphaを見ると
- または、このウィキペディアページ年齢の中央値による国のリスト
年齢に関しては、明らかに中央値が選択の統計量のようです。
算術平均がより悪い統計になる理由を自分で説明することはできません。なぜそうですか?
年齢に関しては、明らかに中央値が選択の統計量のようです。
算術平均がより悪い統計になる理由を自分で説明することはできません。なぜそうですか?
回答:
私の意見では、統計はこの質問に対する良い答えを提供しません。たとえば、平均は死亡率調査に関連する可能性がありますが、年齢はあなたが考えるほど簡単に測定することはできません。高齢者、非識字者、および一部の第三世界の国の人々は、たとえば、年齢を5または10の倍数に丸める傾向があります。
中央値は、そのようなエラーに対して平均よりも耐性があります。さらに、年齢の中央値は通常20〜40歳ですが、人々は100歳以上まで生きることができます(現在、近代国の人口の増加する顕著な割合は100歳を超えています)。そのような年齢の人々は、非常に若い人々と比較して、中央値に与えるよりも平均に1.5〜4倍の影響を及ぼします。したがって、中央値は、国の年齢分布に関する最新の統計値であり、平均よりも死亡率および平均余命にやや依存しています。
最後に、中央値は、年齢分布自体がどのように見えるかをわずかによく示しています。たとえば、中央値35を見ると、人口の半分が35歳以上であり、出生率についていくつかのことを推測できます。両親の年齢など。しかし、平均が35の場合、その35は、たとえば70歳の人口増加や、古い戦争や流行によるある年齢層の人口ギャップの影響を受ける可能性があるため、あまり言えません。
したがって、統計的な理由ではなく、人口統計上の理由から、中央値は、比較的大きな人口の年齢を要約するためのオムニバス値の役割に値するようです。
ジョンは姉妹サイトで良い答えをくれました。
彼が明示的に言及しなかった側面の1つはロバスト性です。中心点の尺度としての中央値は、ブレークポイントが高い(50%)ので平均よりも優れていますが、平均は0の非常に低い値です(詳細については、ウィキペディアを参照してください) )。
直観的には、個々の悪い観測値が平均値を歪めるのではなく、中央値を歪めないことを意味しています。
math.stackexchangeに最初に投稿された私の答えは次のとおりです。
中央値は、「平均」と言うときに多くの人が実際に心に留めているものです。中央値を解釈するのは簡単です。人口の半分はこの年齢以上で、半分は以下です。平均はもう少し微妙です。
人々は対称性を求め、対称性がない場合は対称性を課します。人口の年齢分布は対称からほど遠いため、平均は誤解を招く可能性があります。年齢分布はピラミッドのようなものです。多くの子供ではなく、多くの高齢者。(または、少なくともそれは一種の定常状態です。米国では、第二次世界大戦後のベビーブーム世代が年齢とともにこの分布をゆがめています。過去よりも広いピラミッドの頂点。)
非対称分布の場合、中央値は対称統計であるため、中央値を報告する方が適切な場合があります。サンプリング分布が非対称であっても、中央値は対称です。
米国の公衆衛生データリポジトリは、個人のプライバシー上の理由によるデータの意図的なブラインド化とマスキングに関するHIPAA規制の影響により、5年単位のAGE形式に移行しています。
過去(HIPAA以前)のこの課題に対して、生年月日と死亡日との差に基づく尺度データ要素のかなりのスケールレベルを考えると、AGEをスケール変数として再考する必要があるかもしれません公衆衛生データセットにパラメトリックに記述され、非パラメトリックな方法でAGEを通常の測定レベルとして記述するモデルを支持します。私はこれが生物医学情報学コミュニティ内の多くの派toにとって「オーバーザ」に見えるかもしれないことを知っていますが、この考えは上記のコメントで説明されているように「解釈」に関していくらかのメリットがあるかもしれません。
ノンパラメトリックアプローチで利用できるすべての分析力についてはどうですか?はい、ほぼすべての人が、GLM(一般線形モデル)手法を、AGEと同じように動作する分布で私たちに提示する変数に適用しようとするのは事実です。
同時に、その分布の形状と、分布に存在する多次元重心およびサブグループ重心への多次元相互作用効果によってその形状がどのように決定されるかを考慮する必要があります。これらの非常に複雑なデータセットをどうするか?
データ要素が「モデルの仮定」を満たしていない場合、リスト全体を段階的にスキャンします(ダウンではなく、全体で言いました。メソッドの平等な雇用主である必要があります。他の可能なモデルの中で、仮定テストを「失敗しない」モデルを見つけます。
公衆衛生データセットの現在の形式では、5年単位(5YI)でAGEを処理するためのより標準的なモデルを考案する必要があります(データ視覚化コミュニティとして)。AGEのデータ視覚化(新しい5YI形式が与えられた場合)に対する私の投票は、ヒストグラムと箱ひげ図を使用することです。はい、これは中央値を意味します。(しゃれはありません!)
時には、絵は本当に千の言葉の価値があり、要約は千の言葉の要約です。箱ひげ図は、分布の「形状」を、ほぼ象徴的なレベルの解像度でのヒストグラムの意味のある記号表現として示しています。75歳から50歳(中央値)のパターンと25歳未満のntileのパターンを即座に視覚的に比較できる「サイドバイサイド」ボックスとウィスカープロットを表示して、5年の年齢増分の分布を比較すると、世界。表形式表示のテキストメカニクスを通じてデータ表現のスリルを享受し続けている私たちにとって、「スパークライン」のアニメーション化された視覚グラフィック要素として使用される場合、「茎と葉」図も役立つ可能性があります
AGEは成熟しました。現在利用可能なより強力な計算アルゴリズムを使用して、さらに調査する必要があります。
年齢分布の平均よりも中央値を選択するのに十分な説明的な理由はないと思います。報告されたデータを比較する場合、実用性の1つがあります。
多くの国では、5年ごとに人口を報告しています。これにより、特に最も若い間隔(乳児死亡率の影響を受ける)、上部の「間隔」(80+の「間隔」の平均はどれくらいですか)、および上部の間隔(通常、各間隔の平均は中央よりも低くなります)。
中央値間隔内で補間することにより中央値を推定することははるかに簡単で、多くの場合、その間隔でフラットまたは台形の年齢分布を仮定することで近似します(多くの国で死亡率は中央値年齢の周りで比較的低く、これをより合理的な近似にします老いも若きも。
元の質問に役立つ答えを出すには、質問の背後にある質問を知っている必要があります。つまり、「さまざまな国の年齢分布を比較する何らかの要約統計が必要なのはなぜですか?」中央値は、いくつかの質問に最も役立つ場合があります。平均は他の人にとって最も有用かもしれません。また、「特定の年齢を上回る(または下回る)パーセント」が最も有用な統計となる疑問があります。
ここで良い答えが得られていますが、2セントを加算します。私は、血液量、排泄率、薬物効果の基本レベル、最大薬物効果、およびそのようなパラメーターのようなものを扱う薬理学で働いています。
任意のプラスまたはマイナスの値を取ることができる変数と、プラスにしかなれない値を区別します。プラスまたはマイナスの任意の値をとることができる変数の例としては、薬物効果があり、これは正、ゼロ、または負になる可能性があります。現実的にのみ正となる変数の例は、血液量または薬物排出率です。
これらのことを、通常は正規分布または対数正規分布、任意の値の分布では正規分布、正の値のみの分布では対数正規分布でモデル化します。対数正規数とは、正規分布数の累乗をとった数Eのことであり、正の値にしかなれない理由です。
正規分布変数の場合、中央値、平均値、およびモードは同じ数値であるため、どちらを使用してもかまいません。ただし、対数正規分布変数の場合、平均値は中央値とモードの両方よりも大きいため、あまり有用ではありません。実際、中央値は基礎となる法線の平均値であるため、はるかに魅力的な尺度です。
年齢(おそらく)が決して負になることはないので、対数正規分布はおそらく正規分布よりも良い説明であるため、中央値(基礎となる正規の平均に対するE)がより有用です。
中央値は範囲で使用し、平均は標準偏差で使用する必要があると教えられました。年齢について話すとき、範囲は広がりを表現するのにより適切な方法であり、ほとんどの人にとって理解しやすいと思います。たとえば、調査対象集団では、平均年齢は53(SD 5.4)であり、年齢の中央値は48(範囲23〜77)でした。そのため、私は平均よりも中央値を使用することを好みます。しかし、統計学者または統計学の専門家が範囲付き平均を使用することについて何を言うのか、ここに非常に興味がありますか?これは科学論文でかなり見られます。
math.stackexchangeに関するジョンの答えは、次のように表示できます。
分布が歪んでいる場合、中央値は平均値よりも優れた要約統計量になる可能性があります。
大人よりも乳児の方が多いと彼が言うとき、彼は本質的に年齢分布が歪んだ分布であることを示唆していることに注意してください。