回答:
算術平均は次のように表されます
どこ ユニークな観察を表す。算術平均は、特定の数値セットの平均値を測定します。
これとは対照的に、中央値はデータセットの真ん中に直接入る値です。中央値は、広範囲を処理している場合や、平均を歪める外れ値(他の値と比較して非常に高いまたは低い値)がある場合に特に役立ちます。
たとえば、給与は通常、中央値を使用して議論されます。これは、大多数の人と大金を持っているごく少数の人との間の大きな格差によるものです(大金を持っている少数の人は異常値です)。したがって、50%パーセンタイルの個人を見ると、この状況では平均よりも代表的な値が得られます。
あるいは、ほとんどの学生は平均に近く、少数の学生は平均よりはるかに低いか、またははるかに高いため、成績は通常平均(平均)を使用して記述されます。
それはあなたが答えようとしている質問に依存します。あなたは時系列の変化率を見ていて、それが時間の経過とともにどのように変化したかを示しているように思えます。平均は読者に直感的な洞察を与えます:彼らはいつでもフォロワーの数を簡単に推定できます 開始からの平均変化率を掛けてからの日数。
この単一のメトリックの欠点は、次のようなシリーズで非常に一般的なものを示していないことです。つまり、変化率は時間とともに固定されません。変化率が静的であるかどうかを読者に示すための1つの合理的な基準は、中央値を与えることです。系列の最小値(あなたの場合はおそらく0)、現在の値、平均、中央値がわかっている場合、多くの場合、増加が線形にどれだけ近いかを「感じる」ことができます。
アンスコンベのカルテットには素晴らしい注意書きがあります-4つの完全に異なる時系列はすべて、いくつかの重要な統計的尺度を共有しています。基本的に、それは常にあなたが答えようとしていることに戻ってきます。すぐに目立つようになる可能性が高いユーザーを見つけようとしていますか?フォロワーが年々着実に増えているユーザーは?ワンヒット不思議?ボットネット?
おそらくご想像のとおり、これは、平均値または中央値を他よりも「より良い」と普遍的に呼ぶことができないことを意味します。
私はこれをよく説明していると思いますが、私が使用する例は有名なビルゲイツバージョンです。Bill Gatesはデータサイエンスクラスに所属しています。あなたのインストラクターはあなたに尋ねます:このクラスの平均収入または純資産はいくらですか?ビルゲイツ氏はひどく義務を負い、彼の収入を教えてくれます。さて、あなたのグループの平均収入が数十億ドルであると言うとき-技術的には正確ですが、現実を説明していません-ビル・ゲイツはすべてを歪めている異常値であるということです。
つまり、グループ内のすべての人を昇順または降順で並べます-真ん中の人が何をしていても-それがあなたの中央値です。この例では、ビルゲイツを除くすべての人がその中央値から少し離れている可能性が高く、ビルゲイツだけが平均値に近いものを作成します。
次に、相棒のビル・ゲイツがマネー・マネージャーを雇っているとします。彼らがこれまでに生み出した収益に基づく。彼は、10年間の平均収益率、中央値収益、またはこの2つの組み合わせを見るべきでしょうか。彼らは毎年市場を上回っていましたか?何年か?ポートフォリオのサイズはどのように考慮されますか?Twitterフォロワーの場合、オバマ氏のフォロワー数は、50万から100万人のフォロワーとは異なります。@ l0b0が彼の優れた答えでほのめかしているように-それはすべて依存します。フォロワーの成長またはフォロワーの成長の変化率を測定していますか。答えようとしている質問は何ですか、開発しようとしている戦略/製品です。したがって、平均または中央値を選択します。平均値と中央値を取得することは常に簡単な部分です。平均2.1人の子供がいることは決してない方が良いでしょう。子供をたくさん飼ってください。しかし、子供の平均数が2.1で、中央値が1または2の場合、人口増加率について何と言えますか?または中央値は3以上ですか?成長は加速していますか、それとも減速していますか?モードは何をしていますか?最初にすべての基本を計算し、次に平均値と中央値を使用する理由を尋ねます。