タグ付けされた質問 「quantiles」

分布の分位数は、累積分布関数のポイントを参照します。一般的な分位数は四分位数と百分位数です。


2
Rで四分位を見つける
私はRを学習しながら統計の教科書を読んでいますが、次の例で障害に遭遇しました: 見た後、?quantile私は次のようにしてRでこれを再作成しようとしました: > nuclear <- c(7, 20, 16, 6, 58, 9, 20, 50, 23, 33, 8, 10, 15, 16, 104) > quantile(nuclear) 0% 25% 50% 75% 100% 6.0 9.5 16.0 28.0 104.0 テキストとRの結果が異なることを考えると、Rが1番目と3番目の四分位数の計算で中央値を利用していることを収集しています。 質問: 1番目と3番目の四分位数の計算に中央値を含める必要がありますか? より具体的には、教科書またはRにこれは正しいですか?教科書にこれが正しい場合、Rでこれを適切に達成する方法はありますか? 前もって感謝します。
33 r  quantiles 

5
99パーセンタイルまたは100パーセンタイルはありますか?そして、それらは数字のグループなのでしょうか、それとも個々の数字への区切りやポインターなのでしょうか?
99パーセンタイルまたは100パーセンタイルはありますか?そして、それらは数字のグループ、または分割線、または個々の数字へのポインターですか? 同じ質問が四分位数や分位数にも当てはまると思います。 特定のパーセンタイル(p)の数値のインデックスは、n個のアイテムが与えられた場合、 i = (p / 100) * n これは、100パーセンタイルがあることを示唆しています。100個の数値(i = 1〜i = 100)があると仮定すると、それぞれにインデックス(1〜100)が付けられます。 200個の数字がある場合、100パーセンタイルがありますが、それぞれが2つの数字のグループを参照します。または、左端または右端の仕切りを除く100個の仕切り 'cosを使用しないと、101個の仕切りが得られます。または、個々の数値へのポインター。最初のパーセンタイルが2番目の数値を参照し、(1/100)* 200 = 2そして100パーセンタイルが200番目の数値を参照します(100/100)* 200 = 200 私は時々99パーセンタイルがあると聞いたことがあります。 Googleは、パーセンタイルについて述べているオックスフォード辞書を示しています-「特定の変数の値の分布に従って母集団を分割できる100の等しいグループのそれぞれ」。そして、「頻度分布を100のそのようなグループに分けるランダム変数の99個の中間値のそれぞれ」。 ウィキペディアによると、「20パーセンタイルは観測値の20%が検出される値以下です」が、実際には「観測値の20%が検出される可能性がある値以下の値」、つまり「20の値値の%は<=それです」。<=ではなく<である場合、その理由から、100パーセンタイルは、100%の値がそれよりも低い値になります。100パーセンタイルはありえないという議論として聞いたことがあります。なぜなら、その下にある数字の100%がある数字を得ることができないからです。しかし、100パーセンタイルを持つことはできないという議論は誤りであり、パーセンタイルの定義には<=ではなく<が含まれるというエラーに基づいていると思います。(または> = not>)。したがって、100パーセンタイルは最終的な数値であり、>
27 quantiles 

2
分位点回帰:損失関数
分位点回帰を理解しようとしていますが、私が苦しむ1つのことは、損失関数の選択です。 ρτ(u)=u(τ−1{u&lt;0})ρτ(u)=u(τ−1{u&lt;0})\rho_\tau(u) = u(\tau-1_{\{u<0\}}) 私はの期待の最小ことを知っているに等しいτ % -quantileが、この機能をオフに開始するための直感的な理由は何ですか?この関数の最小化と変位値の関係はわかりません。誰かが私にそれを説明できますか?ρτ(y−u)ρτ(y−u)\rho_\tau(y-u)τ%τ%\tau\%

7
分位を動的に監視するアルゴリズム
一部のデータの分位数を推定したい。データは非常に大きいため、メモリに格納できません。また、データは静的ではなく、新しいデータが引き続き送信されます。非常に限られたメモリと計算でこれまでに観測されたデータの分位を監視するアルゴリズムを知っている人はいますか?私が見つけP2アルゴリズムが役に立つが、それは非常に重いテイル分布している私のデータ、のために非常にうまく機能しません。

4
多変量正規分布の分位数(アイソライン?)を決定する方法
多変量分布の分位数を計算する方法に興味があります。図では、特定の単変量正規分布の5%および95%の分位点を描画しました(左)。適切な多変量正規分布の場合、アナログは密度関数の基底を囲む等値線になると想像しています。以下は、パッケージを使用してこれを計算する試みの例ですが、mvtnorm成功しません。多変量密度関数の結果の等高線を計算することでこれを行うことができると思いますが、別の選択肢(たとえばの類似体qnorm)があるかどうか疑問に思っていました。ご協力いただきありがとうございます。 例: mu &lt;- 5 sigma &lt;- 2 vals &lt;- seq(-2,12,,100) ds &lt;- dnorm(vals, mean=mu, sd=sigma) plot(vals, ds, t="l") qs &lt;- qnorm(c(0.05, 0.95), mean=mu, sd=sigma) abline(v=qs, col=2, lty=2) #install.packages("mvtnorm") require(mvtnorm) n &lt;- 2 mmu &lt;- rep(mu, n) msigma &lt;- rep(sigma, n) mcov &lt;- diag(msigma^2) mvals &lt;- expand.grid(seq(-2,12,,100), seq(-2,12,,100)) mvds &lt;- …

7
3パーセンタイルに基づく分布の推定
パーセンタイルが3つしかわからない場合、どの方法を使用して分布を推測できますか? たとえば、特定のデータセットでは、5パーセンタイルが8,135、50パーセンタイルが11,259、95パーセンタイルが23,611であることを知っています。他の数値からそのパーセンタイルに移行できるようにしたいです。 それは私のデータではなく、それらはすべて私が持っている統計です。分布が正規でないことは明らかです。私が持っている他の唯一の情報は、このデータがさまざまな学区の政府の一人当たりの資金を表しているということです。 この問題には明確な解決策がないことを知るには統計については十分知っていますが、良い推測を見つける方法を知るには十分ではありません。 対数正規分布は適切でしょうか?回帰を実行するためにどのツールを使用できますか(または自分で行う必要がありますか)?

2
箱ひげ図を作成できるように、多数のサンプルを記述する統計セットを蓄積することは可能ですか?
私は統計学者ではなく実践的なソフトウェア開発者であり、大学の統計学の授業はかなり前のことであることをすぐに明確にしなければなりません… それは、個々のサンプルの束を保存することを必要としない、箱ひげ図を作成するために使用できる記述統計のセットを蓄積する方法があるかどうかを知りたいですか? 私がやろうとしているのは、複雑なマルチキュープロセス内のキューサービス時間のグラフィカルな要約を作成することです。私は過去にtnftoolsと呼ばれるパッケージを使用していました。これにより、大きなサンプルを蓄積し、後処理して応答時間と外れ値の素敵なグラフを作成できました。 理想的には、プロセスの実行中に一連の記述統計を「オンザフライ」で蓄積し、必要に応じて分析のためにデータを抽出できるようにしたいと考えています。ただし、メモリ/ IOがシステムのパフォーマンスに許容できない影響を与えるため、プロセスにサンプルを蓄積させることはできません。

5
極値理論を使用する理由
私は土木工学から来ています。GEV分布のような極値理論を使用して、最大風速のような特定のイベントの値、つまり風速の 98.5%が低い値を予測します。 私の質問は、なぜそのような極値分布を使用するのかということです。全体の分布を使用して、98.5%の確率の値を取得する方が簡単ではないでしょうか?

3
Rのパーセンタイルランクの計算[終了]
閉まっている。この質問はトピック外です。現在、回答を受け付けていません。 この質問を改善したいですか? 質問を更新して、相互検証のトピックになるようにします。 閉じた3年前。 変数の1つのパーセンタイルランクとなる新しい変数をデータフレームに追加するにはどうすればよいですか?これはExcelで簡単に実行できますが、実際にはRで実行したいです。 ありがとう
18 r  quantiles 

2
95パーセンタイルの計算:正規分布、R分位、およびExcelアプローチの比較
次のデータセットで95パーセンタイルを計算しようとしていました。私はそれを行うためのいくつかのオンライン参照に出会いました。 アプローチ1:サンプルデータに基づく 最初のものは得ることが私に語っTOP 95 Percent選択し、次にデータセットのをし、MINまたはAVG結果セットの。次のデータセットに対してこれを行うと、次のことがわかります。 AVG: 29162 MIN: 0 アプローチ2:正規分布を仮定 二つ目は、第95パーセンタイルは約2標準偏差の平均を上回っている(私は理解している)と私が実行したことを言います: AVG(Column) + STDEV(Column)*1.65: 67128.542697973 アプローチ3:R分位点 以前Rは95パーセンタイルを取得していました。 &gt; quantile(data$V1, 0.95) 79515.2 アプローチ4:Excelのアプローチ 最後に、私はこれに出会いました。それはExcelがそれをどのように行うかを説明しています。メソッドの概要は次のとおりです。 N順序付けられた値のセットと{v[1], v[2], ...}、pthパーセンタイルを計算するための要件が与えられたら、次の手順を実行します。 計算する l = p(N-1) + 1 l整数と小数のコンポーネントに分割l = k + d 必要な値を次のように計算します V = v[k] + d(v[k+1] - v[k]) この方法は私に与えます 79515.2 Rの値は正しいと信じていますが、値は一致しません(ecdfプロットからも観察しました)。私の目標は、特定のデータセットから95番目のパーセンタイルを(AVGおよびSTDEV関数のみを使用して)手動で計算することであり、ここで何が起こっているのか実際にはわかりません。誰かが私が間違っている場所を教えてもらえますか? 93150 93116 …
17 r  dataset  quantiles  sql 

5
平均絶対偏差と大規模なデータセットのオンラインアルゴリズム
私にはちょっとした問題があります。多変量時系列のオンライン取得プロセスの手順を作成する必要があります。すべての時間間隔(たとえば1秒)で、基本的にサイズNの浮動小数点ベクトルである新しいサンプルを取得します。実行する必要がある操作は少し複雑です。 新しいサンプルごとに、要素の合計が1になるようにベクトルを正規化して、そのサンプルのパーセントを計算します。 同じ方法で平均パーセントベクトルを計算しますが、過去の値を使用します。 過去の各値について、ステップ2で計算されたグローバル平均パーセントベクトルを使用して、そのサンプルに関連するパーセントベクトルの絶対偏差を計算します。この方法では、絶対偏差は常に0(ベクトルが平均に等しい場合)ベクトル)および2(完全に異なる場合)。 前のすべてのサンプルの偏差の平均を使用して、平均絶対偏差を計算します。これは、0〜2の数値です。 平均絶対偏差を使用して、新しいサンプルが他のサンプルと互換性があるかどうかを検出します(その絶対偏差を、ステップ4で計算されたセット全体の平均絶対偏差と比較します)。 新しいサンプルが収集されるたびにグローバル平均が変化するため(平均絶対偏差も変化するため)、データセット全体を複数回スキャンせずにこの値を計算する方法はありますか?(グローバル平均パーセントの計算に1回、絶対偏差の収集に1回)。わかりました。各次元の合計を保存するために一時的なベクトルを使用するだけなので、セット全体をスキャンせずにグローバル平均を計算するのは非常に簡単ですが、平均絶対偏差はどうですか?その計算にはabs()演算子が含まれているため、過去のすべてのデータにアクセスする必要があります! ご協力いただきありがとうございます。


1
変位値と中央値ではなく、触覚と中央値をいつ使用しますか?
WikipediaやWolfram Mathworldで、触覚または中間の定義を見つけることはできませんが、Bílková、D. and Mala、I.(2012)、 " 所得分布をモデル化するときのLモーメント法の適用チェコ共和国で」、オーストリア統計局誌、41(2)、125–132。 中央値は、サンプルの中央値が50 %のサンプルクォンタイルの値に等しいのと同様に、50 %50%50\%(サンプル)のサンプルの値です。サンプルタンタイルとサンプルクォンタイルは、順序付けられたサンプルに基づいています。まず、順序付けられたサンプルの観測値の累積合計が評価​​されます。その後、所定の割合のためのp、0 &lt; P &lt; 100、A tantileは、2つの部分に順序付けられたサンプル中のすべての観測を分割分析変数の値として定義される:小さいか等しい観測値の和である観測値の合計のと、より大きい観測値の合計は、残差を表します50 %50%50\%ppp0 &lt; p &lt; 1000&lt;p&lt;1000<p<100p %(100 − p )%p %p%p\%p %p%p\%(100 − p )%(100−p)%(100-p)\%この合計の。 従来の中央値やその他の変位値ではなく、これらを位置の尺度として使用するのが適切な場合はいつですか?考えられる状況の1つである家計収入は、その論文に記載されています。 この定義から、中間を収入のレベルの合理的な特性として使用できることがわかります。これは、収入が中間以下の世帯はサンプルの総収入の半分を受け取り、収入が高い世帯は半分を受け取るためです。他の半分を受け取る内側より。 この場合、家計収入の中央値はCZK 117,497(すなわち、これよりも多く稼いだ家計の半分と上記で稼いだ半分)であることが判明しました。総収入)。この比較は、必ずしも家計所得の歪度や不均一性を反映するものではないことに注意してください。家計所得が均一に分布していても、中央値は中央値より上にあります。私の定義を理解する限り、すべての世帯が同じ収入を受けた場合にのみ、中央値は中央値に等しくなります。 この場合、内側を好む特定の理由がありますか、それとも少なくとも補助的な手段として使用する理由がありますか?中央値と中央値の比較から正確に何がわかりますか?中央値は、先ほど述べた理由により、中心傾向の他の測定値に直接匹敵するものではないようです。中間/触覚が広く使用されている、または特に有益であると見なされている他の状況はありますか?サンプル研究論文でそれらが使用される実際の例は非常に歓迎されるでしょう、そして、それらが有用であると証明するかもしれないより広い文脈の直観的な考えはさらに良いでしょう。 合計と小計が意味のあるものである必要があります-お金に関連しているように見え、「パイ」がどのように分布しているのでしょうか?以下のために集中的ではなく、広範囲の性質例えば密度や温度など、合計の任意の並べ替えは、物理的に意味がないであろう。輸送物の分析者が、輸送される貨物の重量がカットオフであり、すべての貨物の50%(重量で)その重量以上の荷重で運ばれますが、生態学者がイモリの長さがどのくらいで、すべてのイモリの全長の50%がその長さ以上のイモリによってもたらされることに興味があるとは考えられません。


弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.