中央値>モード>平均>範囲


8

私の質問は、中央値がモードよりも大きく、モードが平均よりも大きく、平均が範囲よりも大きくなることを可能にする一連のデータはありますか?もしそうなら、この状況を可能にするパターンまたはデータセットの特定の特性はありますか(多分ある種の歪度...)?

PS私はタイプミスを修正しました。すでに与えられた回答のいくつかは、中央値が反対の状況に関連しています


6
タイトルには記号が付いていますが、テキストはいずれの場合も「小さい」と表示されています。答えはどちらの方法でも同じですが、質問に一貫性を持たせるのが最善です。>
Nick Cox

5
そのような基準にはあまり意味がありません。これは、(a)非常に狭い帯域内に小さな確率を集中させることにより、平均値または中央値を大幅に変更することなく、任意の値でモードを作成できるためです。(b)極値に小さな確率を置くことにより、モードまたは中央値を大幅に変更することなく、範囲内のどこにでも平均を置くことができます。(c)非常に小さな確率で異常に大きいまたは小さい値を含めることにより、他のプロパティを大幅に変更することなく、範囲を必要なだけ大きくすることができます。
whuber

5
また、中心傾向の3つの測定値で、範囲、分布の幅の測定値を含めることも意味がありません。
prince_of_pears 16

@Giuseppe Biondi-Zoccaiあなたの編集は役立つことを意図していますが、記法の単純な使用でさえ、OPが技術的な点で混乱する可能性がある場合は常に質問を編集しません。
Nick Cox

@prince_of_pears次元的に範囲は他のエンティティと同じ単位であるため、比較は数学的に意味があります。私はそのような比較に対して統計的な目的を見ることができないことは同意しますが、それは別の問題であり、OPが明確にする必要がある質問の一部であるかもしれません。SDと平均の比較が意味のあるコンテキストがたくさんあり、一方が幅と他方の位置を測定することに異議を唱えることは慣例ではないことを考慮してください。
Nick Cox

回答:


8

質問はすでに肯定的に回答されていますが、構築の観点からこれにアプローチしましょう-これを行うデータのセットをどのように作成しますか?

まず、3つすべての位置測定を常に範囲より大きくできることに注意してください。単に中央値>モード>平均を持つ予備データセットを作成し、範囲を計算します。次に、(範囲平均)+(小さな正の)をすべてのデータ値に追加して、最終的なデータセットを取得します。これにより、3つの位置測定値がすべて範囲を超えます。ϵϵ

そのため、問題を中央値>モード>平均のデータセットを見つけることに減らしました。

適切な中央値とモードのデータがすでにあると想像してください。平均値を中央値と最頻値よりも小さくするには、平均値が引き下げられるデータの大部分よりも十分下に単一の値を配置するだけです。モードを変更せずに、データの大部分のすぐ上に2番目の値を配置して、中央値を維持できます。これで、単に中央値>モードを持つ既存のデータセットを変更し、希望する平均値を持つデータセットを取得できます。

したがって、中央値>モードで作成します。これを行うには、1つの値を繰り返します(2回発生する唯一の値の場合は、サンプルモードです)。次に、中央値を大きくするのに十分な他の値を追加します。これは例です:

 21, 21, 22, 23, 24

中央値は22ですが、モードは21です。

次に、中央値またはモードを変更せずに平均値20を作成する方法で、前述のように2つのポイントを追加します。現在のポイントの合計は111なので、140-111 = 29に追加する2つのポイントが必要です。そのうちの1つは24よりも大きくする必要があります。25にしましょう。次に、小さい方のポイントは29-25 = 4です。

したがって、データセットは次のようになります。

4, 21, 21, 22, 23, 24, 25

平均値は20、モードは21、中央値は22です。

次に、範囲との関係を修正します。範囲は何ですか?現在は平均よりも大きい25-4 = 21です。すべてのデータ値に何かを追加して、平均を21より大きくするだけで、範囲は変わりません。2を追加するだけで十分です。(範囲平均+ 1 = 2なので、を取ったことがわかります)ϵ=1

したがって、最終的なデータセットは

6, 23, 23, 24, 25, 26, 27

範囲はまだ21、平均は現在22、モードは23、中央値は24です。

したがって、この段階的なアプローチは非常に使いやすいものです。要約すれば:

  1. 中央値>モードで小さなデータセットを作成するには、最小値を繰り返し、大きい値をすべて区別します(並べ替えた値を使用するのが最も簡単です)。5ポイントにすると便利です(中央値を移動して中央値を指定できるため)が、必要に応じて4ポイントにすることもできます。

  2. 中央値またはモードを変更しない2つのポイントを追加することにより、中央値より下の平均を取得します(つまり、2つの異なる/シングルトン値はモードを妨害せず、前のデータのいずれかの側にそれらを配置すると、中央値が保持されます。より大きい値を配置します。現在のすべてのデータのすぐ上に、最小値を計算して、全体の平均がモードのすぐ下に来るようにします。これにより、7つのデータポイントに移動します。

  3. 範囲を計算します。すべてのデータ値に定数(範囲-平均+)を追加します。これにより、平均が範囲を超えることが保証されます。これが最終的なデータセットです。ϵ


Rでこれらの計算を確認します。

x <- c(6, 23, 23, 24, 25, 26, 27)
data.frame(
     range=diff(range(x)),
     mean=mean(x),
     mode=max(as.numeric(names(table(x))[table(x)==max(table(x))])),
     median=median(x)
   )

  range mean mode median
1    21   22   23     24

(もし私たちが偶然に複数のモードを生成した場合、この計算はそれらのうち最大のものを見つけようとすることに注意してください)


ありがとう、この説明は本当に素晴らしいです。そのような一連の数の理論的な特徴はありますか?つまり、平均>中央値>モードの場合、分布は正に歪んでいることがわかっています。一方、mean <median <modeの場合、負に歪んでいます。この制約には分布特性がありますか?
BlueSigma

1.場合定義平均値および中央値(のような関係の観点から歪度第ピアソン歪度係数、メディアン歪度)、またはモードと平均値との関係で、(最初のピアソン歪度係数のようなモード歪度)、次いで平均>中央値>モードの分布は明確に歪んでいます。そうでなければ、必ずしもそうではありません。たとえば、標準化された変数の3番目の中心モーメント(モーメント歪度)で歪度を定義した場合... ctd
Glen_b -Reinstate Monica

ctd ...または四分位歪度に関しては、平均>中央値>モードが正の歪度を意味するとは限りません。2.あなたが何を質問しているのか100%わかりません...一連の数値の関連する特徴は、あなたが言及した統計は、構造上、望ましい順序になっているということです。それらの統計の差から得られる統計(中央値の歪度やモードの歪度など)は暗黙のうちに示されますが、これは条件を満たした結果です。それ以外では、あなたがここで何を求めているのかわかりません。
Glen_b-2016

10

はい、そのようなセットを思いつくのは難しくありません。

S = {0、1、2、3、4、4、1000}

中央値= 3、モード= 4、平均値= 144.85、範囲= 1000

この種類のデータは、平均値が中央値よりも高いため、平均して中央値よりも高い値が下の値よりも離れていることを意味して、右に曲がります。


2
不等式を他の方向に進めるように質問が明確になっていることに注意してください。ただし、値をわずかに調整するだけで簡単に修正できます。{1000、1996、1996、1997、1998、1999、2000}:1997年の中央値、モード= 1996、平均= 1855.14、範囲= 1000
RM

概念的には、確率分布の観点から考えた方がよいと思います。平均値の中央値と最頻値は確率変数の数値です。範囲は、可能な値のセットの長さです。他のパラメーターとは比較できません。正規分布の場合、平均、中央値、最頻値はすべて同じです。モードに関する定義の問題があります。密度にピークが1つしかない場合、あいまいさはありません。ただし、複数のピークがある場合は、モードを最も高いピークとして定義するものもあれば、すべてのピークがモードであると言うものもあります。
Michael R.

均一分布の場合、ピークがないため、モードはありません。有限平均の対称単峰分布の場合、平均はモードに等しくなります。平均、中央値、モードの条件をすべて満たす一意の歪んだ分布の場合、任意の順序が可能ですが、すべてが等しくなることはありません。
Michael R. Chernick

@Michael Chernickそうではありません。0、0、1、1、1、1、3の平均、中央値、モードは1と同じですが、対称ではありません。これが工夫されていると思われないように、二項式は明らかに歪んでおり、1で平均、中央値、モードが同一であり、他のそのような場合。(10k)0.1k0.910k,k=0,,10
Nick Cox

一様分布では、有用なモードがないことに同意しますが、可能なすべての値がモードであると主張することもできます。
Nick Cox

4

順序に関係なく、答えはイエスです。分布のサブセットであるデータセットは、左側の裾が右側の裾よりも重いため、モードは中央値よりも小さく、中央値は平均よりも小さく、平均は範囲よりも小さくなります。1/2より大きいモードのベータ分布はその特性を持ちます。モードを特定の位置に配置したい場合は、狭い(小さい)標準偏差の小さいパーセンテージを追加することで混合分布を作成できますが、そのモードを配置したい場所にはどこでも、たとえばDiracような高い分布があります。δ


1
ポール・T.・フォン・ヒッペル、以下を参照してくださいモードと中央値との間の平均値を有する特定の意味での単峰性の分布は、連続確率変数を持つよりも、離散確率変数と、より一般的な考えかもしれないためにかかわらず、教科書の訂正:平均値、中央値、およびスキューをRuleJournal of Statistics Education Volume 13、Number 2(2005)または私の考え。教科書のルールは、カールピアソンの発言に自信を持っているため、モードと平均の間の中央値にすることです
Henry

良い点(+1)、そしてモードはどこでもかまいません。
Carl
弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.