レイマンの言葉での平均、中央値、モードの説明


10

数値リストの平均値、中央値、最頻値の概念を説明し、基本的な算術スキルしか持たない人にとってなぜそれらが重要であるのか。歪度、CLT、中心傾向、それらの統計的性質などは言及しないでください。

私は誰かに、数のリストを「要約」するための迅速で汚い方法であることを説明しました。しかし、振り返ってみると、これはほとんどわかりません。

考えや実世界の例はありますか?


それらは、異なるドメインでの「中央傾向」、別名「最も可能性の高い結果」です。特に強度、次数、頻度。現実の世界にも変動があります。つまり、標準偏差、四分位(または四分位)範囲、モード間範囲なども、「変動の傾向」または「結果の典型的な変動」を示すため、非常に役立ちます。
EngrStudent 2016年

ランダムに数値を生成するマシンがある例を示すことができます。あなたはそれが生成するすべての数をリスト内に集めます。リストのすべての番号を引用することなく、それを友達に提示したいとします。したがって、あなたはそれを説明するのを助けることができる測定を探します。Mean / Median / Modeは、機械の基本的な特性に関する洞察を提供する3つの類似した指標です。
Kevin Pei

@KevinPeiしかし、この場合の「平均」とはどういう意味ですか?平均値/中央値/モードは、考案された自己完結型の例ではあまり説明しません。
Dombey 2016年

1
平均を見つけることは、子供たち(同じ体重の子供)がシーソーに任意の数とビームの任意の位置で乗り込んだ後に、シーソーのバランスをとるピボットポイントを見つける問題です。中央値を見つけることは同じタスクです。「この」側または「その」側のどちらかの2つの位置だけで密集していると言われるのは子供だけです。
ttnphns 2016年

ディストリビューションの概念がなければ、これを説明することはできません。基本的な算術スキルだけで、絵を描く必要があります。
Aksakal

回答:


6

平均、中央値、最頻値の基本的な統計概念について、この単純でありながら深遠な質問をありがとうございます。これらの概念について、算術ではなく直感的な理解を説明および把握するために利用できる素晴らしい方法/デモがいくつかありますが、残念ながらそれらは広く知られていません(または私の知る限り、学校で教えられています)。

平均:

1.バランスポイント:支点としての意味

の概念を理解する最良の方法は、それを均一なロッドのバランスポイントと考えることです。{1,1,1,3,3,6,7,10}などの一連のデータポイントを想像してみてください。これらの各ポイントが均一なロッド上にマークされ、等しい重みが各ポイントに配置されている場合(下図を参照)、支点はロッドのバランスを取るためにデータの平均に配置する必要があります。

ここに画像の説明を入力してください

この視覚的なデモンストレーションは、算術解釈にもつながります。この算術的根拠は、支点のバランスを取るために、平均(支点の左側)からの負の偏差の合計が平均(右辺)からの正の偏差の合計と等しくなければならないということです。したがって、平均は分布のバランスポイントとして機能します。

このビジュアルは、データポイントの分布に関連しているため、平均を即座に理解できます。このデモンストレーションからすぐに明らかになる平均の他の特性は、平均が常に分布の最小値と最大値の間にあるという事実です。また、外れ値の影響は簡単に理解できます。外れ値が存在すると、バランスポイントがシフトし、平均値に影響を及ぼします。

2.再配布(フェアシェア)値

平均を理解するもう1つの興味深い方法は、平均を再分布値と考えることです。この解釈では、平均の計算の背後にある算術の理解がある程度必要ですが、擬人化の品質、つまり再分配の社会主義的概念を利用して、平均の概念を直感的に把握します。

平均の計算には、分布(値のセット)内のすべての値を合計し、その合計を分布内のデータポイントの数で除算することが含まれます。

x¯=(i=1nxi)/n

この計算の背後にある理論的根拠を理解する1つの方法は、各データポイントをリンゴ(または他のいくつかの変更可能なアイテム)と考えることです。前と同じ例を使用すると、サンプルには8人({1,1,1,3,3,6,7,10})が含まれます。最初の人は1つのリンゴを持ち、2番目の人は1つのリンゴを持っています。さて、みんなに「公平」になるようにリンゴの数を再配布したい場合は、分布の平均を使用してこれを行うことができます。言い換えれば、分布が公平/均等になるように、4つのリンゴ(つまり、平均値)を全員に与えることができます。このデモンストレーションは、上の式を直感的に説明します。分布の合計をデータポイントの数で割ることは、分布全体をすべてのデータポイントに等しく分割することと同じです。

3.ビジュアルニーモニック

以下の視覚的なニーモニックは、独特の方法で平均の解釈を提供します。

ここに画像の説明を入力してください

これは、平均の平準化値解釈のニーモニックです。Aのクロスバーの高さは、4つの文字の高さの平均です。

ここに画像の説明を入力してください

そして、これは平均のバランスポイント解釈のもう1つのニーモニックです。支点の位置は、M、E、およびNの2倍の位置のほぼ平均です。

中央値

ロッドのバランシングポイントとしての平均の解釈が理解されると、中央値は同じアイデアの拡張、つまりネックレスのバランシングポイントによって実証できます。

ロッドをひもで交換しますが、データマーキングとウェイトは保持します。次に、両端に、最初の紐よりも長い2番目の紐を取り付けて(ネックレスのように)ループを形成し、よく潤滑された滑車にループを掛けます。

ここに画像の説明を入力してください

最初に、重みが異なると仮定します。両側に同じ数のウェイトがある場合、プーリーとループはバランスします。つまり、中央値が最低点である場合、ループは「バランス」します。

重みの1つがループを上にスライドして外れ値を作成した場合、ループは移動しないことに注意してください。これは、中央値が外れ値の影響を受けないという原則を物理的に示しています。

モード

モードは、最も基本的な数学的演算であるカウントを含むため、おそらく理解するのが最も簡単な概念です。それは頭字語に最も頻繁に発生するデータポイントのリードに等しいという事実:「Mの OST-しばしばO ccurring D ATA E lement」。

モードは、セット内の最も典型的な値と考えることもできます。(ただし、「typical」をより深く理解すると、代表値または平均値が得られます。ただし、「typical」を「typical」という単語の文字通りの意味に基づいたモードと同じにするのが適切です。)


出典:

  • 中央値は均衡点です-Lynch、The College Mathematics Journal(2009)
  • 統計を思い出深いものにする:新しいニーモニックとモチベーション-Lesser、Statistical Education、JSM(2011)
  • 統計を教えるためのニーモニックの使用について-より少ない、モデル支援の統計とアプリケーション、6(2)、151-160(2011)
  • どういう意味ですか?–ワティエ、ラモンターニュ、シャルティエ、Journal of Statistics Education、Volume 19、Number 2(2011)
  • 典型的な?子どもと教師の平均についてのアイデア– Russell and Mokros、ICOTS 3(1990)全体的な参照:http ://www.amstat.org/publications/jse/v22n3/lesser.pdf

本日この記事に出くわしただけで、これについてもう少し明らかになります。priceonomics.com
Vishal

1
匿名ユーザーは、次の全体的な参照も提案しました:amstat.org/publications/jse/v22n3/lesser.pdf
gung-

3

最小限の資料で最大限の効果と説明力を望んでいるように見えるので、基準が達成可能かどうか疑問に思っています。しかし、次のような簡単な例

1 1 2 2 2 3 3 4 5 6 15

モード(2)、中央値(3)、および平均(44/11)= 4の即時計算を可能にするため、これらが異なる可能性があることを示します。

次に、最も一般的な値、真ん中の値、平均の考え方が異なることを説明できます。そして合併症を導入する

  1. モードを示すために値を変更すると、あいまいになる可能性があります

  2. 中央値を計算するための規則を説明するために、偶数の値を持つ例を使用する

  3. 平均値に何が起こるか、なぜそれが望ましいのか、なぜそうでないのかを強調するために、裾の値を変える。

  4. 平均、中央値、モードの2つまたは3つが一致する単純な例を使用します。

私の教えの中心的な傾向については、さまざまな文献の用語であると言う以外は触れていません。レベルとそれがどのように定量化されるかについて話したいと思います。逆に、対称性よりも通常のように歪度を最小限に感じない限り、深刻なデータ分析は不可能だと思います。


はい、値を調整すると要約統計量が変わりますが、それでも「平均」とはどういう意味ですか?
Dombey 2016年

1

1
とは?アイデアを使用するために、常に定義を知る必要はありません。赤をしっかり理解するには、おそらく物理学、生理学、心理学が必要ですが、私はそれを必要としたことはありません。私は平均がどのように機能するかについて多くを知っていますが、ある基本的なレベルでは、その定義は単なる公式です。
Nick Cox

1
@NickCoxは非常に公正で真実です。しかし、大学での私の経験はまだかなり最近のものであり、自分が計算したものやなぜそれをしたのか理解せずに答えを盲目的に計算した問題が多すぎます
シャドウトーカー2016年

1
@ssdecontrolそれが完全に起こるのを止めることはありません...
Nick Cox

3

これは私がそれらを説明する方法です:

(算術)平均は、データセット全体を考慮に入れ、「中間」のどこかに落ち着く点です。空間内の点群またはブロブについて考えてもらいます。平均は、その点群の重心です。

中央値(「側」の概念2+次元で十分に定義されていない明らかに)「すべての辺上の点の同じ番号」を有する点です。これは別の種類の「中間」を表し、実際にはある意味でより直感的な種類です。空間内の同じブロブについて考えると、ブロブが偏っている場合、平均がシフトすることは明らかです。ただし、この偏りは2つの方法のいずれかで実現できます。1つの領域にさらにポイントを追加するか、その領域のポイントの分散を増やします。ポイントの数を増やさずに1つのエリアのポイントの分散を増やしても、中央値は「すべての側面で」同じ数のポイントを持ち、平均に比例してシフトしません。

y=(1,2,3,4,5)y=(1,2,3,4,99)mean(y)=median(y)mean(y)>median(y)。しかし、私は、第1の幾何学的/視覚的な「ブロブベース」の解説から始まるお勧めします。私の経験では、それは、手を振っグラフィカルなデモを開始する方が簡単です、その後、具体的なおもちゃの例に移動します。ほとんどの人(私も含めて)は自然に数字指向ではないことがわかります。数値の説明から始めるのは混乱のレシピです。いつでも戻って、後でより正確な定義を教えることができます。

モードは、点がランダムにそのBLOBからサンプリングされる場合、(これは連続的なデータのためにファッジであることを認識)表示される可能性が最も高い点です。これは、平均値または中央値の近くにある場合もありますが、そうである必要はありません。

あなたはこれらの概念を説明したら、その後、あなたはより多くの「統計的に見える」デモに移動することができます。

デモ

実線は平均値です。破線は中央値です。点線はモードです。平均は、x軸に沿ったデータポイントの位置を表しますが、中央値は両側のデータポイントの数のみを反映します。モードは最大確率のポイントにすぎず、平均と中央値の両方とは異なります。

Rコード:

set.seed(47730)
y <- rgamma(100, 2, 2)
d <- density(y)
plot(d)
rug(y)
abline(v = mean(y), lty = 1)
abline(v = median(y), lty = 2)
abline(v = d$x[which.max(d$y)], lty = 3)

良い説明ですが、実際には、これは「基本的な算術スキル」以上のものを前提としています。ここでは、幾何学的思考、初等力学、ランダムサンプリング、確率理論(密度関数を含む)がすべて呼び出されます。それはコメントであり、ノックダウン批判を意図したものではありません。質問は難しい注文だと思います。
Nick Cox

確かに@NickCoxの良い点。しかし、私はそれについて考えているので、それらはすべて数学なしで説明できるため(たとえば、メインの質問のコメントにあるttnphnsによる「シーソー」の説明など)、それらはすでに使用されているので、それらを使用して待機しています。多くの人が直感的にある程度理解しました。密度は少し手の届く範囲ですが、私はあなたがそこに行く必要があるとは思いません
シャドウトーカー2016年

(@ttnphns:計量したい場合に備えてタグ付けします。1つのコメントで両方にタグ付けすることはできません)
shadowtalker

密度はそんなに厄介ではありません。ほとんどの人は、物理学の密度と地理学の人口密度、あるいは一般知識だけを思い出すべきです。
Nick Cox

@NickCox初歩的な力学を参照することで、あなたがそういう意味だと思いました。また、密度のデモ以外に、ここではランダムサンプリングがどのように必要かについてもわかりません。どちらかと言えば、専門家ではない学生が点群の考え方に慣れるのが難しいのではないかと想像しました。たぶんこれを使ってチャットしますか?
シャドウトーカー2016年

2

平均」、「中央値」、「モード」は「中心的な傾向」、別名「最も可能性の高い結果」であり、さまざまなドメインで使用されます。それらはすべて、さまざまな「ゲーム」における「おすすめコンテンツ」です。

確率と統計は、一部はギャンブラー(リンクリンク)によって構築されたフィールドです。競馬、またはポーカーテーブルに行くとき、あなたは勝利に役立ついくつかの科学を知りたいです。彼らもそうし、それについて書いたので、自分で発明する必要はありません。

競馬では、勝者を選びます。将来の情報はありませんが、過去の情報は知っています。あなたは各馬が過去数レースでどれだけ速く走ったか知っています。彼らが次のレースでどれくらい速く走る可能性が高いかを推定したい場合は、平均、別名平均、レース時間を計算して比較できます。

もう1つの中心的な傾向は「中央値」です。これは、ソートされたリストの中心です。私があなたのレースタイムのリストに恐ろしいタイプミスを付けたとしたら、その値は他のすべてのものよりも1000倍長かった。それはあなたの見積もりを台無しにするでしょう。勝った馬には賭けないかもしれません。どのように対処しますか?手動でその1つの値を探すか、「中央値」を使用することができます。

ブラックジャック」などのカードをプレイしていて、前のカードから別のカードが必要かどうかを判断しようとしている場合はどうでしょう。カード番号は整数値であるため、探しているカードは3.14ではありません。「平均」または中央値が意味を持たない場合に、最善策はどのようにしてわかりますか?この場合、「モード」に賭けます。ディーラースタックから出てくる可能性が最も高いカードです。

3つのケースすべてにおいて、中心的な傾向は、「最善策」と言う別の言い方にすぎません。

賭けの中心的な傾向だけでなく、賞金を最大化しながら損失の影響を減らすことができるように賭けたい場合は、「変動の傾向」を調べる必要があります。標準偏差、分位範囲、または代替モードとその頻度などのすべてのものを使用して、可能性のある勝利を最大化しながら最大損失を最小化します。


0

複数の手段、中央値、およびモードを検討する場合、この概念を説明することは有用だと思います。これらの値は、単独では存在しません。

たとえば、ここに私が意味を説明する方法があります。

スイカの箱が2つあるとします(箱1と2)。密封されているので、内部のスイカが見えないので、サイズがわかりません。ただし、各クレートのスイカの総重量がわかっていて、それぞれに同じ数のスイカが含まれています。それから、スイカの各クレート(M1とM2)の平均重量を計算できます。

2つの異なる平均値M1とM2があるので、個々の内容の大まかな比較を行うことができます。M1> M2の場合、クレート1からランダムに選択されたスイカは、クレート2から選択されたスイカよりも重い可能性があります。

もちろん、私はこの観点についてのコメントを歓迎します。

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.