Excelの四分位数


10

基本的な統計で通常使用される四分位数の定義に興味があります。私はStat 101タイプの本を持っていますが、それは直感的な定義を与えるだけです。「データの約4分の1が第1四分位以下になる...」ただし、データセットのQ1、Q2、Q3を計算する例を示します

5, 7, 9, 10, 11, 13, 14, 15, 16, 17, 18, 18, 20, 21, 37

15個のデータがあるため、Q2の中央値として15を選択します。次に、残りのデータを5から14、16から37の2つの半分に分割します。これらにはそれぞれ7つのデータが含まれ、それぞれのセットの中央値10と18をそれぞれQ1とQ3として見つけます。これは私が自分で計算する方法です。

私はウィキペディアの記事を見ました、そしてそれは2つの方法を与えます。上記に同意し、両方のセットに中央値15を含めることもできます(ただし、偶数のデータポイントの場合、中央の2つの数値の平均である場合は中央値を含めません)。これはすべて私にとって理にかなっています。

しかし、その後、Excelをチェックして、Excelでどのように計算されるかを確認しました。Excel 2010を使用しています。これには3つの異なる機能があります。Quartileは2007年と以前のバージョンで利用可能でした。彼らはあなたに2010年にこれを使うのをやめて欲しいようですが、それはまだ利用可能です。Quartile.Incは新しいものですが、私の知る限り、Quartileと完全に一致します。また、Quartile.Excもあります。最後の2つはどちらも2010年の新機能だと思います。今回は、整数1、2、3、...、10を使用してみました。Excelの中央値は5.5、Q1は3、Q3は8になると思います。中央値は中央の2つの数値の平均であるため、Wikipediaの両方の方法でこれらの答えが得られるためです。Excelは与える

quartile number, Quartile.Inc, Quartile.Exc
1,               3.25,         2.75 
2,               5.5,          5.5
3,               7.75,         8.25

これらのどちらも、私が以前に話したことに同意しません。

Excelのヘルプファイルの説明は次のとおりです。

Quartile.Inc-0..1からのパーセンタイル値に基づいて、データセットの四分位数を返します。

Quartile.Exc-0から1までのパーセンタイル値に基づいて、データセットの四分位数を返します。

Excelが使用しているこの定義を理解するのに役立つ人はいますか?


5
Excelを統計に使用しない理由のもう1つの素晴らしい例。:-)
ウェイン

1
友達はExcelを統計に使用させません。悲しいが本当
クリスビーリー

回答:


11

典型的には、ランク(間の1Nのためのn個のデータ)は、パーセントに変換され、P式介しr1nnp

p=100rαn+12α

所定の「プロット位置」0から1までの範囲。解くとRの面でpが与えられますα01rp

r=(n+12α)(p/100)+α.

Excelはこれまで、そのand 関数にを使用してきましたα=1PERCENTILEQUARTILEオンラインドキュメントのためQUARTILE.INCQUARTILE.EXC役に立たないので、我々はこれらの関数が何をしているか、リバースエンジニアリングする必要があります。

例えば、データを、我々は、N = 10及びP { 25 50 75 } 3四分位数のために。使用してα = 1の前の式収率ランクに9 0.25 + 1 = 3.259 (1,2,3,4,5,6,7,8,9,10)n=10p{25,50,75}α=19(0.25)+1=3.25、および 9 0.75 + 1 = 7.75、の結果を再現します。9(0.50)+1=5.59(0.75)+1=7.75QUARTILE.INC

代わりに、我々は設定した場合対応するランクは11 0.25 = 2.7511 0.50 = 5.5、および11 0.75 = 8.25のための結果を再現します、。α=011(0.25)=2.7511(0.50)=5.511(0.75)=8.25QUARTILE.EXC

あなたの側でさらにテストを行うと(私は最近のバージョンのExcelを持っていません)、四分位数関数のこれらの2つのバージョンはこれらの2つの(極端な)値によって決定されるαという私の推測の有効性を確立できます

ちなみに、小数ランクは線形補間によってデータ値に変換されます。このプロセスは、パーセンタイルとEDFプロットのコースノートで説明および図示されています。そのページの下部をご覧ください。計算を示すExcelスプレッドシートへのリンクもあります。

Excel一般的なパーセンタイル関数を実装する場合は、次のVBAマクロを使用してください。

'
' Converts a percent, computed using plotting position constant A,
' into a percent appropriate for the Excel Percentile() and
' Quartile() functions.  (The default value of A for Excel is 1;
' most values in use are between 0 and 0.5.)
'
Public Function PercentileA(P As Double, N As Integer, A As Double) As Double
    If N < 1 Or A < 0# Or A > 1# Or P < 0# Or P > 1# Then
        Exit Function
    End If
    If N < 2 Then
        PercentileA = 0.5
    Else
        PercentileA = ((N - 2 * A + 1) * P + A - 1) / (N - 1)
    End If
End Function

名目上のパーセント(25/100など)を、ExcelのPERCENTILE関数が目的の値を返す原因となるパーセントに変換します。のように、セルの数式で使用するためのものです=PERCENTILE(Data, PercentileA(0.25, Count(Data), 0.5))


Excelが何をしているかを正確に理解すると、統計作業に効果的に使用できることに注意してください。
whuber

5
私があなたのコメントにユーモラスに同意できない場合:Excelは統計作業に効果的に使用できます。あなたが第一原理から何をすべきかを証明できる統計ウィザードであれば、Excelのメソッドをリバースエンジニアリングして実際に何をしているのかを判断します。あなたがそんなに上手くいけば、ほとんどのツールでうまくいくでしょう。また、このスレッドでは、このディスカッションに関係する100%のウィザードは、最新バージョンのExcelにアクセスできないため、実際に使用することはほとんどありません。
ウェイン

Touche '、@ Wayne。(しかし、一部の人はまだ古いバージョンのExcelを使用しています:
。– whuber

1
Whuber、VBAソリューションを共有していただきありがとうございます。これは非常に役立ちます。Statsを実行する必要があるが、すぐに利用できる唯一のツールとしてExcelにこだわっている(はい、私はRを試してみましたが、頭を悩ませることはできません)、私はExcelを自分のニーズに合わせるのに役立つツールを高く評価しています。
dav

4

Excel は、Rのデフォルトおよびその他の定義に同意するquartile.inc元のに同意するようですquartile

whuberからの役立つヒントにより、Excelはquartile.exc(1..10のケースでは)Rのtype=6分位数の定義に同意しているようです。

   > For types 4 through 9, Q[i](p) is a continuous function of p, with
    > gamma = g and m given below. The sample quantiles can be obtained
    > equivalently by linear interpolation between the points (p[k],x[k])
    > where x[k] is the kth order statistic. Specific expressions for p[k]
    > are given below.
    > 
    > ...
    > 
    > 
    > Type 6 m = p
    >       .p[k] = k / (n + 1). Thus p[k] = E[F(x[k])].
    >       This is used by Minitab and by SPSS.

これは明らかに、「はい、MinitabとSPSSでできます」という質問の答えになります。


Rには分位数の定義が9つありませんか?(編集用+ 1、btw)
whuber

@whuber:カーテンの後ろの人に注意を払わないでください!(私の回答を編集します。さらに調査すると、Rの他の定義の1つと一致します。これは、明らかにMinitabとSPSSが使用しているものです。ありがとうございます。)
ウェイン

2

四分位数の特別なフレーバーは、5と37(元のデータの最小と最大)を無視しているだけだと思います。

Stataでは、デフォルトバージョンと代替バージョンの両方が、このデータを使用してquartile.exc値を提供します。


この推測は、maxとminが実際にによって返される可能性があることを主張するドキュメントと一致していないようQUARTILE.EXCです。
whuber

Excel 2010の私のバージョンでは、QUARTILE.EXC(セル範囲、k)は#NUMを返します!表示されるポップアップメニューに応じて、25、50、および75パーセンタイルに対応するk = {1,2,3}を除きます。元のQUARTILEは、2番目の引数として0と4も受け入れます。これらは最小値と最大値に対応しています。
Dimitriy V.Masterov

1
ドキュメントには、「クォート≤0またはクォート≥4の場合、QUARTILE.EXCはエラー値#NUM!を返す」と記載されています。それは本当らしい。2番目のステートメント「quartがそれぞれ0(ゼロ)、2、4の場合、MIN、MEDIAN、MAXはQUARTILE.EXCと同じ値を返します」は、何か不足している場合を除き、falseと表示されます。なんてめちゃくちゃ!
Dimitriy V.Masterov

nn11#NUM!PERCENTILE

1
パーセンタイルの3つのフレーバーは、四分位数と同じように動作します。5-37データの場合、PERCENTILE.EXC(range、k)は#NUM!k = {0,1}の場合。k = 0.25の場合、PERCENTILE.EXCは10を返します。5と37を捨てると、10.5が得られ、他の2つの方法と一致します。
Dimitriy V. Masterov

2

興味深い詳細がたくさんありますが、元の質問に戻るために、まったく同じ答えが得られない可能性がある2つのわずかに異なる方法が本当に重要であるとは思いません。最初の四分位は、観測値の25%がそれ以下になるポイントです。データの正確なポイントである場合とそうでない場合があるサンプルサイズによって異なります。したがって、1つのポイントが下にあり、次のポイントが上にある場合、この最初の四分位数はあまり明確に定義されておらず、これら2つのポイントの間にあるポイントはどれも同様に機能します。サンプルサイズが偶数の場合の中央値についても同じことが言えます。このルールは、上下のデータポイント間の中間点を選択します。しかし、ルールによって与えられた選択が他のどの点よりも本当に優れているということを実際に何も言っていません。


α1/31/2

0

Excelを使用している方のために、http://peltiertech.com/WordPress/comparison/のさまざまなバージョンのメソッドのかなり良い内訳があります


2
回答にまとめていただければ幸いです。リンクは質問に回答する場合がありますが、時々古くなる可能性があります。その場合、あなたの回答は将来の読者にとって役に立ちません。
アンディ

0

Excel 2016では、次の場合に四分位数の正しい値を取得できることに気付きました。

  • データセットに奇数のエントリがあります:QUARTILE.EXCを使用してください
  • データセットには偶数のエントリがあります:QUARTILE.EXCとQUARTILE.INCの平均を使用します

1
他のいくつかの回答で証明されているように、変位値の定義がいくつあるかを考えると、正しい値の意味を説明できますか?
mdewey 2018
弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.