平均値と中央値を使用する場合


7

私はデータサイエンスと統計に不慣れなので、これは初心者の質問のように思えるかもしれません。

私は、ユーザーのTwitterフォロワーが1日に獲得できるデータセットに取り組んでいます。一定期間の平均的な成長を測定したいのですが、成長の平均を求めることで測定しました。しかし、誰かが私にこれに中央値を使うように勧めています。

誰もが説明できますか、どのユースケースで平均を使用する必要があり、いつ中央値を使用するのですか?

回答:


10

算術平均は次のように表されます バツ¯

バツ¯=1Σ=1バツ

どこ バツユニークな観察を表す。算術平均は、特定の数値セットの平均値を測定します。

これとは対照的に、中央値はデータセットの真ん中に直接入る値です。中央値は、広範囲を処理している場合や、平均を歪める外れ値(他の値と比較して非常に高いまたは低い値)がある場合に特に役立ちます。

たとえば、給与は通常、中央値を使用して議論されます。これは、大多数の人と大金を持っているごく少数の人との間の大きな格差によるものです(大金を持っている少数の人は異常値です)。したがって、50%パーセンタイルの個人を見ると、この状況では平均よりも代表的な値が得られます。

あるいは、ほとんどの学生は平均に近く、少数の学生は平均よりはるかに低いか、またははるかに高いため、成績は通常平均(平均)を使用して記述されます。


1
それは素晴らしい答えです。したがって、このように考える場合、データをプロットして、その値が連続しているかどうかを確認できます。平均を使用できます。それらがよりクラスター化されている場合(高い場合と低い場合)は、中央値の方が優れています。
Mukul Jain

1
@MukulJain、はい、あなたが言及したように、それはデータの分布に依存します。プロットは常に私のデータを理解するための道のりです。異常を簡単に特定し、その広がりを知ることができます。
JahKnows、

「外れ値」という用語を使用して、このことをよりよく説明できると思います
MilkyWay90

1
では、データに多くの外れ値がある場合、中央値を使用することは適切ですか?外れ値はzスコア(<3または> -3)を使用して計算できます
Mukul Jain

1
@MukulJain、正解、p値を使用して外れ値を計算することもできます
JahKnows

13

それはあなたが答えようとしている質問に依存します。あなたは時系列の変化率を見ていて、それが時間の経過とともにどのように変化したかを示しているように思えます。平均は読者に直感的な洞察を与えます:彼らはいつでもフォロワーの数を簡単に推定できますd 開始からの平均変化率を掛けてからの日数。

この単一のメトリックの欠点は、次のようなシリーズで非常に一般的なものを示していないことです。つまり、変化率は時間とともに固定されません。変化率が静的であるかどうかを読者に示すための1つの合理的な基準は、中央値を与えることです。系列の最小値(あなたの場合はおそらく0)、現在の値、平均、中央値がわかっている場合、多くの場合、増加が線形にどれだけ近いかを「感じる」ことができます。

アンスコンベのカルテットには素晴らしい注意書きがあります-4つの完全に異なる時系列はすべて、いくつかの重要な統計的尺度を共有しています。基本的に、それは常にあなたが答えようとしていることに戻ってきます。すぐに目立つようになる可能性が高いユーザーを見つけようとしていますか?フォロワーが年々着実に増えているユーザーは?ワンヒット不思議?ボットネット?

おそらくご想像のとおり、これは、平均値または中央値を他よりも「より良い」と普遍的に呼ぶことができないことを意味します。


2

簡単に言うと、データがノイズで破損している場合や、あなたの場合のように誤ったTwitterフォロワー数を言っている場合、モデルのパフォーマンスが低下するため、メトリクスとして平均を取ることは有害である可能性があります。この場合、値の中央値を取ると、データの外れ値が処理されます。それが役に立てば幸い


1

多くの場合、中央値は極端な値に対してより堅牢です。それを最小化タスクと考えてみてください。中央値は絶対損失に対応し、平均は二乗損失に対応します。


1

私はこれをよく説明していると思いますが、私が使用する例は有名なビルゲイツバージョンです。Bill Gatesはデータサイエンスクラスに所属しています。あなたのインストラクターはあなたに尋ねます:このクラスの平均収入または純資産はいくらですか?ビルゲイツ氏はひどく義務を負い、彼の収入を教えてくれます。さて、あなたのグループの平均収入が数十億ドルであると言うとき-技術的には正確ですが、現実を説明していません-ビル・ゲイツはすべてを歪めている異常値であるということです。

つまり、グループ内のすべての人を昇順または降順で並べます-真ん中の人が何をしていても-それがあなたの中央値です。この例では、ビルゲイツを除くすべての人がその中央値から少し離れている可能性が高く、ビルゲイツだけが平均値に近いものを作成します。

次に、相棒のビル・ゲイツがマネー・マネージャーを雇っているとします。彼らがこれまでに生み出した収益に基づく。彼は、10年間の平均収益率、中央値収益、またはこの2つの組み合わせを見るべきでしょうか。彼らは毎年市場を上回っていましたか?何年か?ポートフォリオのサイズはどのように考慮されますか?Twitterフォロワーの場合、オバマ氏のフォロワー数は、50万から100万人のフォロワーとは異なります。@ l0b0が彼の優れた答えでほのめかしているように-それはすべて依存します。フォロワーの成長またはフォロワーの成長の変化率を測定していますか。答えようとしている質問は何ですか、開発しようとしている戦略/製品です。したがって、平均または中央値を選択します。平均値と中央値を取得することは常に簡単な部分です。平均2.1人の子供がいることは決してない方が良いでしょう。子供をたくさん飼ってください。しかし、子供の平均数が2.1で、中央値が1または2の場合、人口増加率について何と言えますか?または中央値は3以上ですか?成長は加速していますか、それとも減速していますか?モードは何をしていますか?最初にすべての基本を計算し、次に平均値と中央値を使用する理由を尋ねます。

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.