99パーセンタイルまたは100パーセンタイルはありますか?そして、それらは数字のグループなのでしょうか、それとも個々の数字への区切りやポインターなのでしょうか?


27

99パーセンタイルまたは100パーセンタイルはありますか?そして、それらは数字のグループ、または分割線、または個々の数字へのポインターですか?

同じ質問が四分位数や分位数にも当てはまると思います。

特定のパーセンタイル(p)の数値のインデックスは、n個のアイテムが与えられた場合、 i = (p / 100) * n

これは、100パーセンタイルがあることを示唆しています。100個の数値(i = 1〜i = 100)があると仮定すると、それぞれにインデックス(1〜100)が付けられます。

200個の数字がある場合、100パーセンタイルがありますが、それぞれが2つの数字のグループを参照します。または、左端または右端の仕切りを除く100個の仕切り 'cosを使用しないと、101個の仕切りが得られます。または、個々の数値へのポインター。最初のパーセンタイルが2番目の数値を参照し、(1/100)* 200 = 2そして100パーセンタイルが200番目の数値を参照します(100/100)* 200 = 200

私は時々99パーセンタイルがあると聞いたことがあります。

Googleは、パーセンタイルについて述べているオックスフォード辞書を示しています-「特定の変数の値の分布に従って母集団を分割できる100の等しいグループのそれぞれ」。そして、「頻度分布を100のそのようなグループに分けるランダム変数の99個の中間値のそれぞれ」。

ウィキペディアによると、「20パーセンタイルは観測値の20%が検出される値以下です」が、実際には「観測値の20%が検出される可能性がある値以下の値」、つまり「20の値値の%は<=それです」。<=ではなく<である場合、その理由から、100パーセンタイルは、100%の値がそれよりも低い値になります。100パーセンタイルはありえないという議論として聞いたことがあります。なぜなら、その下にある数字の100%がある数字を得ることができないからです。しかし、100パーセンタイルを持つことはできないという議論は誤りであり、パーセンタイルの定義には<=ではなく<が含まれるというエラーに基づいていると思います。(または> = not>)。したがって、100パーセンタイルは最終的な数値であり、>


4
極端な非対称処理のため、100が妥当な答えになることはまずないと思います。症例は99(定義のようにあなたが引用)または101のいずれかのために行うことができる
whuber

4
歴史的に分位点は、現在一般的に言っているように、最初の要約ポイントであり、次に拡張により、それらが区切るビン、クラス、または間隔でした。したがって、中央値を含む3つの四分位数は、4つのビンなどを定義します。
ニックコックス

1
@whuberあなたは、「極端な非対称処理のために、100は妥当な答えになるとは思わない」と書いています。<-それについて詳しく説明できますか?
barlop

3
stats.stackexchange.com/questions/235330/…でさまざまな変位値用語の初期の使用をリストします。OEDまたはjstor内を見ると、過去の使用例が表示されます。
ニックコックス

2
@whuberはい、テストスコアレポート&C:で使用される、私が参照していますが、正しく「パーセンタイルランク」と呼ばれているように見えるen.wikipedia.org/wiki/Percentileen.wikipedia.org/wiki/Percentile_rankncme .ORG /リソース/用語集。混乱を招くことをおologiesびします。私の弁護では、違いは前置詞「at」と「in」の使用にかかっているように見えます(最初のリンクを参照)。
ジェフY

回答:


32

これらのパーセンタイル四分位などの感覚は両方とも広く使用されています。 四分位数との違いを説明するのが最も簡単です。

  1. 「ディバイダー」の感覚— 3つの四分位数があります。これは、分布(またはサンプル)を4つの等しい部分に分割する値です。

       1   2   3
    ---|---|---|---
    

    (これは最大値と最小値を含めて使用されることがあるため、0〜4の番号が付けられた5つの四分位数があります。これは上記の番号と競合せず、単に拡張することに注意してください。)

  2. 「ビン」の意味:4つの四分位、これらの3つの値が分布(またはサンプル)を分割するサブセット

     1   2   3   4
    ---|---|---|---
    

どちらの使用法も合理的に「間違った」と呼ぶことはできません。両方とも多くの経験豊富な開業医によって使用されており、どちらも多くの信頼できる情報源(教科書、技術辞書など)に含まれています。

四分位で、使用されている感が文脈から通常明白である:と言えば三四分位値はといえば間だけ、「ビン」の意味することができ第三四分位数を下回るすべての値最も可能性の高い手段「分周器」の意味を。パーセンタイルでは、区別が不明確になることがよくありますが、分布の1%が非常に小さいため、ほとんどの目的にとってそれほど重要ではありません。狭いストリップはほぼ線です。80パーセンタイルを超えるすべての人と言えば、上位20%または上位19%を意味するかもしれませんが、大きな違いではない非公式の文脈では、厳密な作業では、必要な意味はおそらく文脈の残りの部分で明確にされるべきです。

(この回答の一部は/math/1419609/are-there-3-or-4-quartiles-99-or-100-percentilesから引用されています。これも引用と参照を提供します。)


2
(+1)この遅い答えは問題の核心にうまく入ります。
ニックコックス

何についてen.wikipedia.org/wiki/Percentile <「すべてのスコアは100番目のパーセンタイルである」と言う-あなたのビンがすべて同じ大きさのビン、データセット全体の大きさのような音、ある一方であること
barlop

1
ウィキペディアのエントリはそれを言っています。私はそのような言い回しに対する防御を考えることはできません。ウィキペディアは、誤解を招くまたは間違っている場合を除いて素晴らしいです。それは軽快に聞こえますが、私ができることは、ウィキペディアでアクティブな人を見ている人にエントリーを改善することを奨励することです。誰もが何をして何をしないかのルールを持っている必要があり、ここや他のいくつかの場所で活動することは私の個人的な制限です。
ニックコックス

5

この答えを一粒の塩で取ります-それはかなり間違って始まり、私はまだそれをどうするかを決定しています。

質問の一部は言語と使用法に関するものですが、この答えは数学に焦点を当てています。数学がさまざまな用法を理解するための枠組みを提供することを願っています。

これを処理する良い方法の1つは、単純な数学から始めて、実際のデータのより複雑なケースに逆戻りすることです。PDF、CDF、および逆CDF(分位関数とも呼ばれます)から始めましょう。pdf fおよびcdf Fの分布のバツ番目の分位数はF 1x です。仮定ZパーセンタイルであるF - 1Z / 100 。これにより、特定したあいまいさを特定できます。次のような状況を確認できます。fFF1バツzF1z/100F 1)可逆的ではない、2)特定のドメインでのみ可逆的、または3)可逆的だがその逆は特定の値に到達しない。

1)の例:最後にこれを残します。読み続けます。

2)の例:一様な0,1分布の場合、CDFは[0、1]に制限されると可逆的であるため、100番目と0番目のパーセンタイルはF 11 として定義できます。F1(1及びF10指定されましたその警告。それ以外の場合、F0.5(たとえば)も0であるため、それらは不明確 です。

2)の別の例:0から1および2から3の2つの互いに素な間隔の均一分布の場合、CDFは次のようになります。

ここに画像の説明を入力してください

この分布のほとんどの分位数は存在し、一意ですが、中央値(50パーセンタイル)は本質的にあいまいです。Rでは、途中まで行きます。quantile(c(runif(100), runif(100) + 2), 0.5)約1.5を返します。

3)の例:正規分布の場合、100パーセンタイルと0パーセンタイルは存在しません(または「あり」±)。これは、通常のCDFが0または1に到達しないためです。

1)の説明:非極度の分位数や連続分布などの「素敵な」cdfの場合、パーセンタイルが存在し、一意です。しかし、ポアソン分布などの離散分布のために、私の定義が原因でほとんどの曖昧であるz/100、全く存在しないyFy=z/100。期待値1のポアソン分布の場合、CDFは次のようになります。

ここに画像の説明を入力してください

60パーセンタイルの場合、Rは1(quantile(c(rpois(lambda = 1, n = 1000) ), 0.60))を。65パーセンタイルでは、Rも1を返します。これは、100個の観測値を描画し、それらを低から高にランク付けし、60番目または65番目のアイテムを返すと考えることができます。これを行うと、ほとんどの場合1になります。

実際のデータに関しては、すべての分布は離散的です。(経験的CDFはrunif(100)np.random.random(100)0.5の周りに100個の増分がクラスター化されています。)しかし、Rのquantile関数は、それらを離散として扱うのではなく、連続分布からのサンプルとして扱うようです。たとえば、サンプル3,4、5、6、7、8の中央値(50パーセンタイルまたは0.5クォンタイル)は5.5になります。unif(3,8)分布から2n個のサンプルを取り出し、n番目と(n + 1)番目のサンプルの間の任意の数を取る場合、nが増加するにつれて5.5に収束します。

また、3、4、5、6、7、8のヒット確率が等しい離散均一分布を考慮することも興味深いです。(ダイスロールに2を加えたものです。)ポアソン分布について上記で概説したサンプルとランクのアプローチを採用すると、通常5または6になります。五と半六。5.5はここでも合理的な妥協のようです。


2
F1[0,1]F[0,1]F

いい視点ね。私はそれを明確にするためにいくつかのケースを分離しようとしました。継続性の議論をどのように改善しますか?推定量としての変位値の解釈は、私の答えの中心です。それらがなければ、私には本当に意味がありません。
eric_kernfeld

後者について:変位値は何も推定する必要はありません。これらは、データを記述および視覚化するためにそれ自体で役立ちます(そして、多くの場合、記述統計としてのみ使用されます)。再継続性:ほとんどの当局は、すべてのパーセンタイルが離散分布に対して存在すると言うでしょう。そうでないと主張することは、不必要な複雑さです。また、ほとんどのソフトウェア計算の結果はまったく神秘的であり、データセットの0〜1(両端を含む)のすべての変位値を喜んで提供します。ではR、例えば、入力quantile(0)
whuber

この議論により、離散分布の分位数が理解できないことがわかりました。この答えを削除する必要があると思います。
eric_kernfeld

1
エリック、これについては人によって異なります。私の答えが誤解を招くほど間違っている場合、まずそれらを削除します。回答の一部に潜在的な値がある場合、それを編集して誤解を招く部分を削除(または説明)し、削除を取り消します。他のものは、ただ物事を立たせて、投票で彼らの塊を取ります。他の人は、誤解がどこで発生したのかを見る読者に価値があるかもしれないことを示唆する編集を追加します。まだ削除するだけです。必要に応じて、場合によっては完全に答えを変更することもできます。
whuber

2

n番目のパーセンタイルの観測値は、検討中のデータセットの観測値のn%より大きいことを教えられました。これは、0パーセンタイルまたは100パーセンタイルがないことを意味します。観測値がその100%の一部を形成するため、観測値が100%を超えることはできません(0の場合も同様のロジックが適用されます)。

編集:それは価値があることのために、これは私が遭遇した用語の学術的でない使用法とも一致しています:「Xはnパーセンタイルにあります」はパーセンタイルが境界ではなくグループであることを意味します。

残念ながら、私はあなたにこれを指摘できる情報源を持っていません。


6
あなたが教えられたことを覚えていることについての信頼できる参照はありますか?「パーセンタイル」の定義を数字のグループとして暗黙的に採用していることに注意してください。質問で引用されている他の定義は、パーセンタイルがそのようなグループ間の境界であるということです。
whuber

1
あなたのデータが2,2,2,2,2,2,2,2,2,2,2,2であり、1つの変位値のアイテムがその左側のアイテムと等しいと仮定するので、それは私には意味がありません事前分位。したがって、n番目の分位点の項目は、残りのすべての分位点より大きくありません。したがって、n番目のパーセンタイルのアイテムは、データセット内の観測値のn%以下です。データセット内の観測値のn%以上ですが、単なる>ではありません。それで、あなたは100番目の百分位数を持つことができます。あなたはその論理から何を作りますか?
barlop

4
すべての値が同一の場合、多くの定義に負担がかかります!
ニックコックス

2
数学的に曲げられた抽象的で理想的な人は、ソフトウェアを書く人はデータの乱雑さに対処する必要があります。16の値の例は、同じ値を同じようにビニングする必要があるというルールに従っている(そして同意する)ソフトウェアによって、異なる方法で処理されます。すべての値が異なっていても、ルールがデータを同じサイズの4つのビンに分割できない15または17の値を持つデータを苦しめなかったことに驚いています。
ニックコックス

3
ゼロの同様のロジックは何ですか?「観測値の0パーセントを超える」とは、「すべての観測値と等しいかそれより小さい」、つまり、0パーセンタイルが最も低い観測値になることを意味しませんか?
イルカチュウ

2

パーセンタイルを計算する方法は他にもありますが、それに続くのはこれだけではありません。これから取った Source


p pp%28808028

x1xn

nxipi

pi=100(i0.5)n

説明のための同じメモの例:

ここに画像の説明を入力してください

7507

200個の数字がある場合、100パーセンタイルがありますが、それぞれが2つの数字のグループを参照します。

いや

x1x200

100(10.5)200100(20.5)200100(30.5)200...

その結果

0.25,0.75,1.25...1,2,3,...


3
最初の文は見栄えがよく、最も重要な単語の1つはおよそです。その後、これはたった1つのレシピの注意深い説明です。重要なのは、いくつかのレシピがあり、ほとんどのレシピには、それらに関する防御可能なロジックがあるということです(ロジックは、物事を可能な限りシンプルにすることです)。CVの多くのスレッドで言及されているHyndman and Fanの論文を参照してください。多くの人があなたの例のパーセンタイルを報告する方法としてあなたの最後の段落を取るとは思わない。
ニックコックス

@Nick Cox洞察に満ちたコメントをありがとう。最後の段落について、すべての観察結果が互いに異なる場合、この方法はうまく機能するはずです。繰り返される数字の場合、同じ数字に対して一意ではないパーセンタイルはありません。ケースの対処方法をご提案ください。また、最後の段落で潜在的な落とし穴を指摘してもらえますか。
ナイーブ

1
ジャーナルの文献ですでに十分に説明されているものに追加したい、または追加する必要はないと思います。まず、このためのお気に入りのソフトウェアがいくつかあります。それが何を文書化し、何をするかを見てください。第二に、私は数十年間パーセンタイルを手作業で計算していないため、誰も必要としません。第三に、最後のパラについての私のポイント:観測されたデータポイントが0.25、0.75、1.25、...パーセンタイルであることを誰にも伝えたくないと思います。人々が望んでいることはさまざまですが、私の経験では、1、5、10、25、50、75、90、95、99%ポイントなどの要約と極端なサンプルが最も一般的に必要です。
ニックコックス

1
0.5がEDAの専門用語で、中央値のp値と呼ばれることが多いと断言していることに気付きました。私の読書ではなく、観測された有意水準としてp値の圧倒的多数の意味を与えられたひどい用語である例を見つけることができたとしても。
ニックコックス

あなたが提案した論文を見ていきます。ありがとう
ナイーブ

0

注-私は自分の答えではなく、他の誰かの答えを受け入れます。しかし、私はいくつかの有用なコメントを見ているので、それらに言及する答えを書いています。

ニックの回答「-iles」の用語の上位半分の割合に基づく

用語は曖昧であるように思われ、(その投稿の私の理解に基づいて)、より良い用語はX%ポイント、X%-Y%グループでしょう。so quantile point(0から4までの四分位点の場合); X分位点からY分位点までの分位点グループ。

いずれにせよ、百分位数に対して101が得られますが、あるコメントでは、101ポイント(百分位数ポイントと整数のみをカウントした場合)を参照できることが示唆されていますが、それでも1、2、3、3パーセンタイルまたは分位、それはカウントであり、最初のカウントを0としてカウントすることはできません。また、4四分位または100パーセンタイルを超えることはできません。だから、1、2、3と言えば、その用語は実際にはポイント0を指すことはできません。誰かが0番目のポイントを言ったなら、それが明確にポイント0を意味している間、彼らは本当にポイント0の分位点を言うべきだと思います0.コンピューター科学者でさえ、0番目とは言いません。最初のアイテムを1としてカウントし、アイテム0と呼ぶ場合、それはカウントではなく0からのインデックスです。

コメントには、「100にすることはできません。最大数と最小数のどちらをカウントするかに応じて、99または101にすることはできません」とあります。0番目とは言いませんが、グループではなく分位点について話すとき、99または101の場合があると思います。n個のアイテムの場合、インデックスは0 ... n-1になる可能性があり、インデックスに1番目、2番目などを書き込むことはありません(最初のアイテムにインデックスが1としてインデックス付けされた場合を除く)。ただし、インデックス0で最初のアイテムを開始するインデックスは、1番目、2番目、3番目のカウントではありません。例えば、インデックスが0のアイテムは1番目のアイテムであり、0番目とは言わず、2番目のアイテムに1番目のラベルを付けます。


曖昧さは、明確な歴史的先例から逸脱した人々によって導入されました。実際には難しいことではありません。
ニックコックス

すべての数学者はゼロからカウントを開始します。コンセプトはシンプルで自然です。「ゼロ」という言葉を声に出して言うことは、カウントする意思を表明します。次に、カウントされているオブジェクトに「1」、「2」、「3」などの単語のシーケンスを1対1で割り当てます(おそらく任意)。これらの単語の最後(最後にある場合)は、セットのカーディナリティと同一視されます。このアイデアの美しさは、セットに要素がない場合、最後に言った単語が「ゼロ」であり、これが一意の正しい値であることです。
whuber

@whuberあなたは「すべての数学者はゼロから数え始めます」と書いています<-どこで言ったと思いますか?
barlop

「数えているのに、最初の数を0として数えられない」。
whuber

1
@whuberおそらく多くの可能性があると思いますが、何年も前にコンピューターサイエンスを勉強しているときに、コンピューターサイエンティストが0から数えると聞いたことがありますが、それはあなたの主張や私のものではありません)明快さと..差は、コンピュータ科学者は、多くの場合、0とインデックスとインデックスインデックス最初の項目を使用しているコンピュータ科学者及び0から両方のカウントを数学ことに気づいた(それでもカウントは1であろう)..
barlop
弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.