データの50%が25〜75パーセンタイルになると言えるでしょうか。


8

次のデータフレームがあるとしましょう:

       TY_MAX
141  1.004622
142  1.004645
143  1.004660
144  1.004672
145  1.004773
146  1.004820
147  1.004814
148  1.004807
149  1.004773
150  1.004820
151  1.004814
152  1.004834
153  1.005117
154  1.005023
155  1.004928
156  1.004834
157  1.004827
158  1.005023
159  1.005248
160  1.005355

25th: 1.0031185409705132
50th: 1.004634349800723
75th: 1.0046683578907745
Calculated 50th: 1.003893449430644

ここでは少し混乱しています。75パーセンタイルを取得した場合、データの75%はそのパーセンタイルを下回るはずです。また、25パーセンタイルが可能であれば、データの25%は25パーセンタイルを下回るはずです。現在、データの50%は25から50の間にあるべきだと考えています。また、50パーセンタイルは私に別の値を与えます。十分に公平です。つまり、データの50%がこの値を下回る必要があります。しかし、私の質問は私のアプローチが正しいかどうかです。

編集:また、データの98%がパーセンタイルの1〜99分の1になると言えるでしょうか。


2
はい。ただし、データの50%は同じではないと言えるでしょう。
James

回答:


30

はい。

  • データの75%が75パーセンタイルを下回っています。
  • データの25%が25パーセンタイルを下回っています。
  • したがって、データの50%(= 75%-25%)は2つの間、つまり25パーセンタイルと75パーセンタイルの間です。
  • まったく同じように、データの98%は1パーセンタイルと99パーセンタイルの間にあります。
  • また、データの下半分、つまり50%は50パーセンタイルを下回っています。

特にデータ数が少ない場合、これらの数値は完全に正しくない場合があります。また、変位値とパーセンタイルが実際に計算される方法にはさまざまな規則があること注意してください。


5
数値がずれる可能性があるもう1つの理由は、関係が同じ場合(同じ値の観測値)です
Maarten Buis 2018

4
「最も一般的に使用されるパーセンタイル」-Rの引数に従ってどのタイプを意味しますか?Hyndman&Fanはタイプ7を推奨しています。これもデフォルトです。正直に言うと、違いはわずかです。または、一般的に使用されているパーセンテージを意味しますか?それはあなたのアプリケーションに依存します、私たちはあなたを助けることができません。そしてもちろん、より多くのデータを取得すればするほど、より正確になります。どの程度の精度で十分かは、データとアプリケーションによって異なります。typequantile()
ステファンコラサ

2
必要なレベルは、分析を何に使用するかによって異なります。
ステファンコラサ

2
「特にデータ数が少ない場合は、完全に正しくありません。」-私が実際に見ることができる2つの要素があるので、これを明確にする価値があるかもしれません:(1)サンプルサイズは、4または100または問題の分位に必要なもので正確に割り切れない場合があります。(2)データポイントは一意ではない可能性があります(たとえば、1から5のスケールの整数のデータの場合、多くの繰り返し値が期待できます。その場合、四分位数は「データの50%」のようなプロパティに関して非常に悪い動作をする可能性があります中央値より上にある」または「Q1とQ3の間」であり、パーセンタイルは多くの場合時間の浪費です)
Silverfish '31 / 07/31

1
@ StephanKolassa、Hyndman&Fanはタイプ8を推奨しているようです(これも?quantile。で言及されています)
Axeman

2

理想的には、はい。

パーセンタイルは通常、正規分布の観点から解釈されます(正規性は多くの場合、基本的な統計的尺度を計算するときに、基礎となることがあり、時には明言されていない仮定であるためです)。ただし、分布は正常である必要はありません。

このウェブサイトによると...

X=μ+Zσ

したがって、正規性を仮定すると、探しているパーセンタイルを簡単に計算できます。ただし、パーセンタイルには分布の仮定は不要であり、パーセンタイルは計算の元になるデータにバインドされます。これは、パーセンタイルが正規分布と非正規分布の両方に意味のあるベンチマークを提供できることを意味します。もちろん、現在の測定に基づいて、確率の解釈にパーセンタイルを使用することもできます。これは、実際の基になる分布の良い指標または悪い指標になる可能性があります。

このサイトによると...

P10P90p<P10p<P90pP10P90


10
正直なところ、ここでは正規分布に重点を置いても役に立たないと思います。OPは、経験的パーセンタイルにのみ関心があります。
ステファンコラサ

特にOPのサンプルデータが正常でないため、@ StephanKolassaに同意します。
Nuclear Wang
弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.