データが歪んでいるときに平均を使用する必要がありますか?


14

多くの場合、導入された導入統計テキストは、平均がサンプルデータおよび/または外れ値に敏感であることを説明することにより、平均を中央値と区別します偏った母集団分布に対して、これは、データが対称的でない場合に中央値が優先されるという主張の正当化として使用されます。

例えば:

特定のデータセットの中心傾向の最適な測定値は、値の分布方法によって異なります。...データが対称でない場合、中央値が中心傾向の最適な測定値であることがよくあります。平均値は極端な観測値に敏感であるため、外れたデータ値の方向に引っ張られ、結果として過度に膨張または過度に収縮する可能性があります。」—
Pagano and Gauvreau、(2000)Principles of Biostatistics 、第2版。 (P&Gは、BTW、手元にあったそれらを選び出していないそれ自体)。

著者はこうして「中心傾向」を定義します:「データのセットの最も一般的に調査された特性はその中心、または観察が集中する傾向があるポイントです。」

これは、データ/分布が対称であるときに平均を使用することだけが、中央値に等しいときにのみ平均を使用するということと同じことなので、中央値、期間のみを使用するという率直な方法として私を襲います。編集: whuberは、中心傾向の堅牢な測定値と中央値を混同していることを正しく指摘しています。したがって、導入された統計の算術平均と中央値の特定のフレーミングについて議論していることに留意することが重要です(ここで、モードは別として、中心傾向の他の尺度は動機付けられていません)。

平均値の効用を中央値の挙動からどれだけ逸脱するかで判断するのではなく、これらを中心性の2つの異なる尺度として単純に理解すべきではないでしょうか?言い換えれば、歪度に敏感であることは平均の特徴です。同様に、「中央値は歪度にほと​​んど影響されないため、中央値は良くありません。したがって、中央値は平均と等しい場合にのみ使用してください」と有効に主張できます。

(モードは、この質問に関与していないのが非常に賢明です。)


3
個人的には、平均値と中央値の両方の測定値を含めたいと思います。これにより、読者は中心的な傾向に関する情報だけでなく、データがどのように歪んでいるかを知ることができます。
bdeonovic

1
コンテキストと明確化により、この質問は改善されます。(1)これらの(仮説的な)イントロテキストは、どのコンテキストで平均が優先されるべきであると断言しますか?(2)これらのテキストは、「平均値の効用を中央値の挙動からどれだけ逸脱するかによって判断する」と正確にどのようになっていますか?理解を深めるために、例や引用を提供していただけますか?
whuber

2
ある時点で、あなたは誤解します:中央値は、いくつかの極端な観測値に対してロバストな唯一の統計値ではありません。したがって、平均は、(多くの場合)望ましくない特性に基づいて示され、中央値との比較によって示されません。しかし、私はあなたの懸念をかすかに見ます。おそらく、この引用で生じる非対称性と外れ値の存在の暗黙の混同に関連しています。外れ値を持つことは非対称性を暗示することもありますが、その逆はしばしば真実ではないため、それは残念ながら不適切です。
whuber

7
ここの読者は、興味のある次のスレッドを見つけます。平均が非常に敏感な場合、なぜそれを最初に使用するのですか?
GUNG -復活モニカ

2
「中心傾向」に与えられた定義に照らして、平均がスキューまたは外れ値の存在下で有用な尺度ではない理由は明らかであると思われます。この中心的傾向の概念を本当に評価したいかどうかは、別の問題のようです!
jsk

回答:


16

私は、一律の規則としてのアドバイスに同意しません。(すべての本に共通するわけではありません。)

問題はより微妙です。

母平均について推論することに実際に興味がある場合、サンプル平均は少なくともその公平な推定量であり、他の多くの利点があります。実際、ガウス-マルコフの定理を参照してください-それは最高の線形不偏です。

変数が大きく歪んでいる場合、問題は「線形」に伴います-状況によっては、すべての線形推定器が悪いため、それらの最良のものがまだ魅力的ではない可能性があるため、線形ではない平均の推定器が優れている可能性があります、しかし、それはディストリビューションについての何か(あるいはかなり多く)を知る必要があります。いつもそんな贅沢があるわけではありません。

人口に関する推論に必ずしも興味がない場合(「典型的な年齢は?」、たとえば、ある人口から別の人口へのより一般的な場所のシフトがあるかどうか、または場所によって表現される場合があります)ある変数のテストが別の変数よりも確率的に大きい場合)、それを母平均の観点からキャストすることは必要ではないか、逆効果になる可能性があります(最後のケース)。

だから私は考えることになると思う:

  • あなたの実際の質問は何ですか?人口は、このような状況で質問するのに良いことですらありますか?

  • 状況(この場合は歪度)を考慮して質問に答える最良の方法は何ですか?サンプルを使用することは、関心のある質問に答えるための最良のアプローチを意味していますか?

人口平均について直接質問していないかもしれませんが、サンプル平均はそれらの質問を見るのに良い方法です...またはその逆-質問は人口平均についてかもしれませんが、サンプル平均は最良の方法ではないかもしれませんその質問に答えてください。


14

実生活では、私たちが見つけようとしていることに基づいて中心傾向の尺度を選択する必要があります。そして、はい、時々モードは使用する正しいものです。時々、それはウィンザー化またはトリミングされた平均です。時には、幾何平均または調和平均。時々、中心傾向の良い尺度がありません

イントロの本はひどく書かれており、クックブックのルールが適用されることを教えています。

収入を得る。これはしばしば非常に歪んでおり、時には外れ値があります。確かに、通常、「収入の中央値」が報告されます。ただし、外れ値と歪度が重要な場合があります。それは文脈に依存し、考えを必要とします。

これについてもっと書きました


2
ピーター、投稿へのリンクをありがとう。イントロテキストが、あなたがそこに提供したのと同じくらい思慮深い考察を提供するのに必要な1から2ページのスペースを取ったことを望みます。
アレクシス

4
まだ書いていませんが、入門テキストの少しの防御を挿入したいと思います。経験豊富な専門家がそのように認識するであろう完全に微妙な見方を与えようとした入門テキストは、ほとんどすべての意図された受信者によって炎上されるでしょう。実際、公開されることさえありません。
ニックコックス

5
実質的なコメント:値が加算されて合計が(たとえば)理にかなっている場合、平均は個々の値の分布に関係なく自然な要約です。
ニックコックス

3
@NickCox入門テキストは、彼らがするよりもはるかに良いことができると思います。平均値と中央値については、数学的な議論すらありません。実質的な議論です。入門テキストは、データ分析を行う資格がないことを読んでいる人に伝える必要があります。
ピーターフロム-モニカの復職

2
@jsk。ああ、わかった。多くの人は、データ分析の1つのコースの後に準備ができていると考えているように見えるため、統計で明示的に伝える必要があると思います。実際、多くの分野(心理学、社会学、医学など)では、1、2、または3つのコースの後にデータ分析を行うことが期待されています。たとえば、博士課程プログラムでは、学位論文を書くことが期待されています。なぜ他の分野でより明白なのですか?私はわかりません。
ピーターフロム-モニカの復職

6

データが歪んでいる場合(例:臨床試験と一緒に計算された医療費、登録直後に死亡するために合計費用がゼロになる患者はほとんどいません。 )、少なくとも1つの実用的な理由で中央値よりも平均値の方が好ましい場合があります。


カルロのコメントの反響:人口の合計(たとえば、監査サンプリング)に関心がある場合は、平均期間に関心があります。分布の偏りや外れ値の傾向に違いがない場合は、対処する必要があります。Winsorize、トリム、外れ値の削除、またはログ変換はできません。層別化は非常に役立ちます。極端な外れ値の場合は、それらを階層として作成する必要があります。
ピーターウェストフォール

3

これまでの質問と両方の答えに欠けているのは、導入統計書の平均と中央値の議論は、一般的に分布を数値的に要約する方法に関する章の早い段階で行われていると思います。推論統計とは対照的に、これは一般的に、グラフィカルではなく数値でデータの分布に関する情報を伝えるための有用な方法となる記述統計を生成することに関するものです。これが発生するコンテキストは、レポートまたはジャーナル記事の記述統計セクションであり、通常、データセット内のすべての変数のグラフィカルな要約の余地はありません。分布が歪んでいる場合、このコンテキストでは平均よりも中央値を選択する方が賢明です。分布が外れ値なしで対称である場合、


1
記述統計と推測統計についてのあなたの意見は価値があります。しかし、効果的に(記述統計の場合)「平均値は中央値と同じ場合にのみ使用してください」と言っています。分布が歪んでいる場合、中央値は一人当たりの概念を表すのに悪い仕事をしているでしょうか?だから、「平均に等しいときにのみ中央値を使用する」という立場を取るのは同じくらい有効ではないでしょうか?それは同様にarbitrary意的であり、これらの手段の実質的な意味から注意をそらすように思われます(それらを学ぶ人々にとって)。
アレクシス

1
目標は、一人当たりの概念を表すことではありませんか?誰が言ったのですか?なぜそれが目標ではないと仮定しますか?
アレクシス

1
私はちょうどコト...またはOPから「ショックを受けて演技」どんな無礼を見ていない...
ニックStauner

1
この場合、推測統計を使用しているか、記述統計を使用しているかは重要ではありません。中心傾向の適切な記述的尺度が中央値である場合、中央値について推論を行う必要があります。平均の場合は、平均。記述的尺度が意味をなさない場合、推論的尺度も意味をなさない。
ピーターフロム-モニカの復職

1
@PeterFlom最終目標が推論ではない場合はどうですか?記述統計の適切性は、統計を作成する理由に完全に依存することに同意します。「記述的尺度が意味をなさない」可能性があるという概念は、記述的統計は本質的に意味のあるものにはなり得ないことを暗示しているようです。ほとんどすべての場合、中央値は定義上、分布の中心の尺度として意味があると主張します。他の目的に意味があるかどうかは別の問題です。
jsk
弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.