数値リストの平均値、中央値、最頻値の概念を説明し、基本的な算術スキルしか持たない人にとってなぜそれらが重要であるのか。歪度、CLT、中心傾向、それらの統計的性質などは言及しないでください。
私は誰かに、数のリストを「要約」するための迅速で汚い方法であることを説明しました。しかし、振り返ってみると、これはほとんどわかりません。
考えや実世界の例はありますか?
数値リストの平均値、中央値、最頻値の概念を説明し、基本的な算術スキルしか持たない人にとってなぜそれらが重要であるのか。歪度、CLT、中心傾向、それらの統計的性質などは言及しないでください。
私は誰かに、数のリストを「要約」するための迅速で汚い方法であることを説明しました。しかし、振り返ってみると、これはほとんどわかりません。
考えや実世界の例はありますか?
回答:
平均、中央値、最頻値の基本的な統計概念について、この単純でありながら深遠な質問をありがとうございます。これらの概念について、算術ではなく直感的な理解を説明および把握するために利用できる素晴らしい方法/デモがいくつかありますが、残念ながらそれらは広く知られていません(または私の知る限り、学校で教えられています)。
1.バランスポイント:支点としての意味
の概念を理解する最良の方法は、それを均一なロッドのバランスポイントと考えることです。{1,1,1,3,3,6,7,10}などの一連のデータポイントを想像してみてください。これらの各ポイントが均一なロッド上にマークされ、等しい重みが各ポイントに配置されている場合(下図を参照)、支点はロッドのバランスを取るためにデータの平均に配置する必要があります。
この視覚的なデモンストレーションは、算術解釈にもつながります。この算術的根拠は、支点のバランスを取るために、平均(支点の左側)からの負の偏差の合計が平均(右辺)からの正の偏差の合計と等しくなければならないということです。したがって、平均は分布のバランスポイントとして機能します。
このビジュアルは、データポイントの分布に関連しているため、平均を即座に理解できます。このデモンストレーションからすぐに明らかになる平均の他の特性は、平均が常に分布の最小値と最大値の間にあるという事実です。また、外れ値の影響は簡単に理解できます。外れ値が存在すると、バランスポイントがシフトし、平均値に影響を及ぼします。
2.再配布(フェアシェア)値
平均を理解するもう1つの興味深い方法は、平均を再分布値と考えることです。この解釈では、平均の計算の背後にある算術の理解がある程度必要ですが、擬人化の品質、つまり再分配の社会主義的概念を利用して、平均の概念を直感的に把握します。
平均の計算には、分布(値のセット)内のすべての値を合計し、その合計を分布内のデータポイントの数で除算することが含まれます。
この計算の背後にある理論的根拠を理解する1つの方法は、各データポイントをリンゴ(または他のいくつかの変更可能なアイテム)と考えることです。前と同じ例を使用すると、サンプルには8人({1,1,1,3,3,6,7,10})が含まれます。最初の人は1つのリンゴを持ち、2番目の人は1つのリンゴを持っています。さて、みんなに「公平」になるようにリンゴの数を再配布したい場合は、分布の平均を使用してこれを行うことができます。言い換えれば、分布が公平/均等になるように、4つのリンゴ(つまり、平均値)を全員に与えることができます。このデモンストレーションは、上の式を直感的に説明します。分布の合計をデータポイントの数で割ることは、分布全体をすべてのデータポイントに等しく分割することと同じです。
3.ビジュアルニーモニック
以下の視覚的なニーモニックは、独特の方法で平均の解釈を提供します。
これは、平均の平準化値解釈のニーモニックです。Aのクロスバーの高さは、4つの文字の高さの平均です。
そして、これは平均のバランスポイント解釈のもう1つのニーモニックです。支点の位置は、M、E、およびNの2倍の位置のほぼ平均です。
ロッドのバランシングポイントとしての平均の解釈が理解されると、中央値は同じアイデアの拡張、つまりネックレスのバランシングポイントによって実証できます。
ロッドをひもで交換しますが、データマーキングとウェイトは保持します。次に、両端に、最初の紐よりも長い2番目の紐を取り付けて(ネックレスのように)ループを形成し、よく潤滑された滑車にループを掛けます。
最初に、重みが異なると仮定します。両側に同じ数のウェイトがある場合、プーリーとループはバランスします。つまり、中央値が最低点である場合、ループは「バランス」します。
重みの1つがループを上にスライドして外れ値を作成した場合、ループは移動しないことに注意してください。これは、中央値が外れ値の影響を受けないという原則を物理的に示しています。
モードは、最も基本的な数学的演算であるカウントを含むため、おそらく理解するのが最も簡単な概念です。それは頭字語に最も頻繁に発生するデータポイントのリードに等しいという事実:「Mの OST-しばしばO ccurring D ATA E lement」。
モードは、セット内の最も典型的な値と考えることもできます。(ただし、「typical」をより深く理解すると、代表値または平均値が得られます。ただし、「typical」を「typical」という単語の文字通りの意味に基づいたモードと同じにするのが適切です。)
出典:
最小限の資料で最大限の効果と説明力を望んでいるように見えるので、基準が達成可能かどうか疑問に思っています。しかし、次のような簡単な例
1 1 2 2 2 3 3 4 5 6 15
モード(2)、中央値(3)、および平均(44/11)= 4の即時計算を可能にするため、これらが異なる可能性があることを示します。
次に、最も一般的な値、真ん中の値、平均の考え方が異なることを説明できます。そして合併症を導入する
モードを示すために値を変更すると、あいまいになる可能性があります
中央値を計算するための規則を説明するために、偶数の値を持つ例を使用する
平均値に何が起こるか、なぜそれが望ましいのか、なぜそうでないのかを強調するために、裾の値を変える。
平均、中央値、モードの2つまたは3つが一致する単純な例を使用します。
私の教えの中心的な傾向については、さまざまな文献の用語であると言う以外は触れていません。レベルとそれがどのように定量化されるかについて話したいと思います。逆に、対称性よりも通常のように歪度を最小限に感じない限り、深刻なデータ分析は不可能だと思います。
これは私がそれらを説明する方法です:
(算術)平均は、データセット全体を考慮に入れ、「中間」のどこかに落ち着く点です。空間内の点群またはブロブについて考えてもらいます。平均は、その点群の重心です。
中央値(「側」の概念2+次元で十分に定義されていない明らかに)「すべての辺上の点の同じ番号」を有する点です。これは別の種類の「中間」を表し、実際にはある意味でより直感的な種類です。空間内の同じブロブについて考えると、ブロブが偏っている場合、平均がシフトすることは明らかです。ただし、この偏りは2つの方法のいずれかで実現できます。1つの領域にさらにポイントを追加するか、その領域のポイントの分散を増やします。ポイントの数を増やさずに1つのエリアのポイントの分散を増やしても、中央値は「すべての側面で」同じ数のポイントを持ち、平均に比例してシフトしません。
。しかし、私は、第1の幾何学的/視覚的な「ブロブベース」の解説から始まるお勧めします。私の経験では、それは、手を振っグラフィカルなデモを開始する方が簡単です、その後、具体的なおもちゃの例に移動します。ほとんどの人(私も含めて)は自然に数字指向ではないことがわかります。数値の説明から始めるのは混乱のレシピです。いつでも戻って、後でより正確な定義を教えることができます。
モードは、点がランダムにそのBLOBからサンプリングされる場合、(これは連続的なデータのためにファッジであることを認識)表示される可能性が最も高い点です。これは、平均値または中央値の近くにある場合もありますが、そうである必要はありません。
あなたはこれらの概念を説明したら、その後、あなたはより多くの「統計的に見える」デモに移動することができます。
実線は平均値です。破線は中央値です。点線はモードです。平均は、x軸に沿ったデータポイントの位置を表しますが、中央値は両側のデータポイントの数のみを反映します。モードは最大確率のポイントにすぎず、平均と中央値の両方とは異なります。
Rコード:
set.seed(47730)
y <- rgamma(100, 2, 2)
d <- density(y)
plot(d)
rug(y)
abline(v = mean(y), lty = 1)
abline(v = median(y), lty = 2)
abline(v = d$x[which.max(d$y)], lty = 3)
「平均」、「中央値」、「モード」は「中心的な傾向」、別名「最も可能性の高い結果」であり、さまざまなドメインで使用されます。それらはすべて、さまざまな「ゲーム」における「おすすめコンテンツ」です。
確率と統計は、一部はギャンブラー(リンク、リンク)によって構築されたフィールドです。競馬、またはポーカーテーブルに行くとき、あなたは勝利に役立ついくつかの科学を知りたいです。彼らもそうし、それについて書いたので、自分で発明する必要はありません。
競馬では、勝者を選びます。将来の情報はありませんが、過去の情報は知っています。あなたは各馬が過去数レースでどれだけ速く走ったか知っています。彼らが次のレースでどれくらい速く走る可能性が高いかを推定したい場合は、平均、別名平均、レース時間を計算して比較できます。
もう1つの中心的な傾向は「中央値」です。これは、ソートされたリストの中心です。私があなたのレースタイムのリストに恐ろしいタイプミスを付けたとしたら、その値は他のすべてのものよりも1000倍長かった。それはあなたの見積もりを台無しにするでしょう。勝った馬には賭けないかもしれません。どのように対処しますか?手動でその1つの値を探すか、「中央値」を使用することができます。
「ブラックジャック」などのカードをプレイしていて、前のカードから別のカードが必要かどうかを判断しようとしている場合はどうでしょう。カード番号は整数値であるため、探しているカードは3.14ではありません。「平均」または中央値が意味を持たない場合に、最善策はどのようにしてわかりますか?この場合、「モード」に賭けます。ディーラースタックから出てくる可能性が最も高いカードです。
3つのケースすべてにおいて、中心的な傾向は、「最善策」と言う別の言い方にすぎません。
賭けの中心的な傾向だけでなく、賞金を最大化しながら損失の影響を減らすことができるように賭けたい場合は、「変動の傾向」を調べる必要があります。標準偏差、分位範囲、または代替モードとその頻度などのすべてのものを使用して、可能性のある勝利を最大化しながら最大損失を最小化します。
複数の手段、中央値、およびモードを検討する場合、この概念を説明することは有用だと思います。これらの値は、単独では存在しません。
たとえば、ここに私が意味を説明する方法があります。
スイカの箱が2つあるとします(箱1と2)。密封されているので、内部のスイカが見えないので、サイズがわかりません。ただし、各クレートのスイカの総重量がわかっていて、それぞれに同じ数のスイカが含まれています。それから、スイカの各クレート(M1とM2)の平均重量を計算できます。
2つの異なる平均値M1とM2があるので、個々の内容の大まかな比較を行うことができます。M1> M2の場合、クレート1からランダムに選択されたスイカは、クレート2から選択されたスイカよりも重い可能性があります。
もちろん、私はこの観点についてのコメントを歓迎します。