タグ付けされた質問 「quantiles」

分布の分位数は、累積分布関数のポイントを参照します。一般的な分位数は四分位数と百分位数です。

2
観測値を保存しない四分位数のオンライン推定
観測値を保存せずに、大量のデータセットでリアルタイムで四分位数(Q1、中央値、およびQ3)を計算する必要があります。最初にPスクエアアルゴリズム(Jain / Chlamtac)を試しましたが、満足できませんでした(CPUの使用量が少なすぎて、少なくともデータセットの精度に納得できませんでした)。 FAMEアルゴリズム(Feldman / Shavitt)を使用してオンザフライで中央値を推定し、アルゴリズムを導出してQ1およびQ3も計算することを試みます。 M = Q1 = Q3 = first data value step =step_Q1 = step_Q3 = a small value for each new data : # update median M if M > data: M = M - step elif M < data: M = M + step …

1
正規分布の組み合わせからの分位点
私は、さまざまな年齢の子供の人体寸法(肩幅など)の分布に関する情報を持っています。年齢と次元ごとに、平均、標準偏差があります。(8つの変位値もありますが、それらから必要なものを取得できるとは思いません。) 各次元について、長さ分布の特定の分位数を推定したいと思います。各次元が正規分布していると仮定した場合、平均と標準偏差を使用してこれを行うことができます。分布の特定の分位に関連付けられた値を取得するために使用できるきれいな式はありますか? その逆は非常に簡単です。特定の値について、各正規分布(年齢)の値の右側の領域を取得します。結果を合計し、分布の数で割ります。 更新:同じ質問をグラフィカル形式で示します。各色付き分布が正規分布していると仮定します。 また、明らかに、さまざまな長さの束を試して、精度のために目的の分位点に十分に近い長さになるまで変更し続けることができます。これよりも良い方法があるかどうか疑問に思っています。そして、これが正しいアプローチである場合、その名前はありますか?

1
重み付けされたサンプルの変位値の定義
分位を計算したい重み付きサンプルがあります。1 理想的には、重みが等しい場合(= 1またはそれ以外)、結果はscipy.stats.scoreatpercentile()とRの結果と一致しquantile(...,type=7)ます。 単純なアプローチの1つは、指定された重みを使用してサンプルを「乗算」することです。これにより、重量が1を超える領域で局所的に「フラットな」ecdfが効果的に得られます。これは、サンプルが実際にサブサンプリングである場合、直感的に間違ったアプローチのように見えます。特に、すべてが1の重みを持つサンプルは、すべてが2または3の重みを持つサンプルとは異なる分位点を持つことを意味します(ただし、[1]で参照されている論文はこのアプローチを使用しているようです)。 http://en.wikipedia.org/wiki/Percentile#Weighted_percentileは、加重パーセンタイルの代替公式を提供します。この定式化では、同じ値を持つ隣接するサンプルを最初に組み合わせて重みを合計する必要があるかどうかは明確ではなく、いずれの場合も、その結果はquantile()、重みなし/等しい重みの場合のRのデフォルトタイプ7と一致しないようです。変位値に関するウィキペディアのページでは、加重ケースについてはまったく言及していません。 Rの「タイプ7」クォンタイル関数の加重一般化はありますか? [Pythonを使用しますが、アルゴリズムを探しているだけです。実際、どの言語でも実行できます] M [1]重みは整数です。重みは、http://infolab.stanford.edu/~manku/papers/98sigmod-quantiles.pdfで説明されているように、「折りたたみ」操作と「出力」操作で結合されるバッファーの重みです。基本的に、重み付けされたサンプルは、重み付けされていない完全なサンプルのサブサンプリングであり、サブサンプル内の各要素x(i)は、完全なサンプル内のweight(i)要素を表します。

2
「パーセンタイル」の定義
現在、PMT Educationによって記述された生物統計に関するメモを読んでおり、セクション2.7の次の文に注意してください。 質量の50パーセンタイルで生まれた赤ちゃんは、赤ちゃんの50%より重いです。 質量の25パーセンタイルで生まれた赤ちゃんは、赤ちゃんの75%より重いです。 質量の75パーセンタイルで生まれた赤ちゃんは、赤ちゃんの25%より重いです。 しかし、私が知っているように、質量の25パーセンタイルで生まれた赤ちゃんは、赤ちゃんの25%より重いはずです。この分野で「パーセンタイル」の特別な定義はありますか、それとも非ネイティブスピーカーとしての文を誤解していますか?

1
R / mgcv:なぜte()とti()テンソル積が異なる表面を生成するのですか?
のmgcvパッケージにRは、テンソル積の相互作用をフィッティングするための2つの関数がte()ありti()ます。私は2つの作業の基本的な分業を理解しています(非線形の相互作用を当てはめるか、この相互作用を主効果と相互作用に分解するか)。私が理解していないのは、なぜte(x1, x2)、そしてti(x1) + ti(x2) + ti(x1, x2)(わずかに)異なる結果を生成するのかということです。 MWE(から適応?ti): require(mgcv) test1 <- function(x,z,sx=0.3,sz=0.4) { x <- x*20 (pi**sx*sz)*(1.2*exp(-(x-0.2)^2/sx^2-(z-0.3)^2/sz^2)+ 0.8*exp(-(x-0.7)^2/sx^2-(z-0.8)^2/sz^2)) } n <- 500 x <- runif(n)/20;z <- runif(n); xs <- seq(0,1,length=30)/20;zs <- seq(0,1,length=30) pr <- data.frame(x=rep(xs,30),z=rep(zs,rep(30,30))) truth <- matrix(test1(pr$x,pr$z),30,30) f <- test1(x,z) y <- f + rnorm(n)*0.2 par(mfrow = c(2,2)) # …
11 r  gam  mgcv  conditional-probability  mixed-model  references  bayesian  estimation  conditional-probability  machine-learning  optimization  gradient-descent  r  hypothesis-testing  wilcoxon-mann-whitney  time-series  bayesian  inference  change-point  time-series  anova  repeated-measures  statistical-significance  bayesian  contingency-tables  regression  prediction  quantiles  classification  auc  k-means  scikit-learn  regression  spatial  circular-statistics  t-test  effect-size  cohens-d  r  cross-validation  feature-selection  caret  machine-learning  modeling  python  optimization  frequentist  correlation  sample-size  normalization  group-differences  heteroscedasticity  independence  generalized-least-squares  lme4-nlme  references  mcmc  metropolis-hastings  optimization  r  logistic  feature-selection  separation  clustering  k-means  normal-distribution  gaussian-mixture  kullback-leibler  java  spark-mllib  data-visualization  categorical-data  barplot  hypothesis-testing  statistical-significance  chi-squared  type-i-and-ii-errors  pca  scikit-learn  conditional-expectation  statistical-significance  meta-analysis  intuition  r  time-series  multivariate-analysis  garch  machine-learning  classification  data-mining  missing-data  cart  regression  cross-validation  matrix-decomposition  categorical-data  repeated-measures  chi-squared  assumptions  contingency-tables  prediction  binary-data  trend  test-for-trend  matrix-inverse  anova  categorical-data  regression-coefficients  standard-error  r  distributions  exponential  interarrival-time  copula  log-likelihood  time-series  forecasting  prediction-interval  mean  standard-error  meta-analysis  meta-regression  network-meta-analysis  systematic-review  normal-distribution  multiple-regression  generalized-linear-model  poisson-distribution  poisson-regression  r  sas  cohens-kappa 

1
サンプルの分位点の代わりにコーニッシュフィッシャー拡張を使用する理由
コーニッシュフィッシャー展開は瞬間に基づく分布の分位数を推定する方法を提供します。(この意味で、モーメントに基づく累積分布の推定値を提供するEdgeworth Expansionを補完するものだと考えています。)経験的作業よりもコーニッシュフィッシャー展開を好む状況を知りたいのですが。サンプル分位、またはその逆。いくつかの推測: 計算上、サンプルのモーメントはオンラインで計算できますが、サンプルの変位値のオンライン推定は困難です。この場合、CFが「勝つ」。 瞬間を予測する機能があれば、CFにより、これらの予測を分位点推定に活用できます。 CF展開では、観測値の範囲外の変位値の推定値が得られる可能性がありますが、サンプル変位値はおそらくそうではありません。 CFによって与えられた変位値推定値の周囲の信頼区間を計算する方法を知りません。この場合、サンプル分位は「勝ち」ます。 CF展開では、分布のより高い複数のモーメントを推定する必要があるようです。これらの推定値のエラーは、CF拡張がサンプル分位点よりも高い標準エラーを持っているような方法でおそらく複合します。 他のもの?これらの方法の両方を使用した経験がある人はいますか?

1
分位数の関数としての期待値?
RV用の期待値と同じRVの変位値の関数として連続確率変数の期待値に関連する一般的な式がある場合、私は思っていた:として定義される および変位値は次のように定義されます: for。XXX E(X)=∫xdFX(x)E(X)=∫xdFX(x)E(X) = \int x dF_X(x) QpX={x:FX(x)=p}=F−1X(p)QXp={x:FX(x)=p}=FX−1(p)Q^p_X = \{x : F_X(x) = p \} =F_X^{-1}(p) p∈(0,1)p∈(0,1)p\in(0,1) たとえば、次のような関数があります: GGGE(X)=∫p∈(0,1)G(QpX)dpE(X)=∫p∈(0,1)G(QXp)dpE(X) = \int_{p\in(0,1)} G(Q^p_X) dp

6
Excelの四分位数
基本的な統計で通常使用される四分位数の定義に興味があります。私はStat 101タイプの本を持っていますが、それは直感的な定義を与えるだけです。「データの約4分の1が第1四分位以下になる...」ただし、データセットのQ1、Q2、Q3を計算する例を示します 5, 7, 9, 10, 11, 13, 14, 15, 16, 17, 18, 18, 20, 21, 37 15個のデータがあるため、Q2の中央値として15を選択します。次に、残りのデータを5から14、16から37の2つの半分に分割します。これらにはそれぞれ7つのデータが含まれ、それぞれのセットの中央値10と18をそれぞれQ1とQ3として見つけます。これは私が自分で計算する方法です。 私はウィキペディアの記事を見ました、そしてそれは2つの方法を与えます。上記に同意し、両方のセットに中央値15を含めることもできます(ただし、偶数のデータポイントの場合、中央の2つの数値の平均である場合は中央値を含めません)。これはすべて私にとって理にかなっています。 しかし、その後、Excelをチェックして、Excelでどのように計算されるかを確認しました。Excel 2010を使用しています。これには3つの異なる機能があります。Quartileは2007年と以前のバージョンで利用可能でした。彼らはあなたに2010年にこれを使うのをやめて欲しいようですが、それはまだ利用可能です。Quartile.Incは新しいものですが、私の知る限り、Quartileと完全に一致します。また、Quartile.Excもあります。最後の2つはどちらも2010年の新機能だと思います。今回は、整数1、2、3、...、10を使用してみました。Excelの中央値は5.5、Q1は3、Q3は8になると思います。中央値は中央の2つの数値の平均であるため、Wikipediaの両方の方法でこれらの答えが得られるためです。Excelは与える quartile number, Quartile.Inc, Quartile.Exc 1, 3.25, 2.75 2, 5.5, 5.5 3, 7.75, 8.25 これらのどちらも、私が以前に話したことに同意しません。 Excelのヘルプファイルの説明は次のとおりです。 Quartile.Inc-0..1からのパーセンタイル値に基づいて、データセットの四分位数を返します。 Quartile.Exc-0から1までのパーセンタイル値に基づいて、データセットの四分位数を返します。 Excelが使用しているこの定義を理解するのに役立つ人はいますか?
10 excel  quantiles 

1
参考資料:逆累積分布関数の末尾
統計で次の結果を見たことがあると思いますが、どこで思い出せないのでしょうか。 場合正の確率変数であり、E(X )&lt; ∞、次いでε F - 1(1 - ε )→ 0ときε → 0 +、Fでの累積分布関数であるX。XXXE(X)&lt;∞E(X)&lt;∞\mathbb{E}(X)<\inftyεF−1(1−ε)→0εF−1(1−ε)→0\varepsilon F^{-1}(1-\varepsilon) \to 0ε→0+ε→0+\varepsilon\to 0^+FFFXXX これは、等式を使用して幾何学的に見ることは容易であるとの水平カット考慮しε積分の曲線下面積の1 - Fを。E(X)=∫1−FE(X)=∫1−F\mathbb{E}(X)=\int 1-Fεε\varepsilon1−F1−F1-F この結果の参照と、名前があるかどうか知っていますか?

2
成長チャートを作成する最良の方法
私は5から15歳(5、6、7のみなど、2.6歳のような小数値はありません)の負ではなく、継続的である健康変数のチャート(成長チャートと同様)を作成する必要があります50〜150の範囲(この範囲外の数個の値のみ)。90、95、99パーセンタイル曲線を作成し、これらのパーセンタイルのテーブルも作成する必要があります。サンプルサイズは約8000です。 私は次の可能な方法をチェックして見つけました: 分位点を見つけて、レス法を使用して、これらの分位点から滑らかな曲線を取得します。滑らかさの程度は「スパン」パラメータで調整できます。 LMS(Lambda-Mu-Sigma)メソッドを使用します(RでgamlssまたはVGAMパッケージを使用するなど)。 分位回帰を使用します。 各年齢グループの平均とSDを使用して、その年齢のパーセンタイルを推定し、パーセンタイル曲線を作成します。 それを行う最良の方法は何ですか?「最良」とは、そのような成長曲線を作成するための標準的な方法であり、すべての人に受け入れられる理想的な方法を意味します。または、いくつかの制限があるかもしれませんが、受け入れ可能でより速い方法である、実装がより簡単で単純な方法。(たとえば、パーセンタイル値でloessを使用すると、gamlssパッケージのLMSを使用するよりもはるかに高速です)。 また、そのメソッドの基本的なRコードになります。 ご協力いただきありがとうございます。

4
1つの中央値が別の中央値よりも低いという事実は、なぜグループ1の大部分がグループ2の大部分よりも少ないことを意味しないのですか?
以下の箱ひげ図は、(このデータセットでは)「ほとんどの男性がほとんどの女性よりも速い」と解釈できると信じていました。しかし、Rと統計のクイズに関するEdXコースは、それが正しくないと教えてくれました。私の直感が正しくない理由を教えてください。 ここに質問があります: 2002年にニューヨークシティマラソンで出場した無作為のサンプルについて考えてみましょう。このデータセットは、UsingRパッケージにあります。ライブラリをロードしてから、nym.2002データセットをロードします。 library(dplyr) data(nym.2002, package="UsingR") ボックスプロットとヒストグラムを使用して、男性と女性の終了時間を比較します。次のうちどれが違いを最もよく説明していますか? 男性と女性の分布は同じです。 ほとんどの男性はほとんどの女性よりも速いです。 男性と女性は同様に右に歪んだ分布をしており、前者は20分左にシフトしています。 両方の分布は通常、平均で約30分の差で分布します。 以下は、分位数、ヒストグラム、箱ひげ図としての男性と女性のニューヨークマラソン時間です。 # Men's time quantile 0% 25% 50% 75% 100% 147.3333 226.1333 256.0167 290.6375 508.0833 # Women's time quantile 0% 25% 50% 75% 100% 175.5333 250.8208 277.7250 309.4625 566.7833


1
重い裾の分布の順序統計量の漸近正規性
背景: 重い裾の分布でモデル化したいサンプルがあります。観測値の広がりが比較的大きいなど、いくつかの極端な値があります。私の考えはこれを一般化されたパレート分布でモデル化することでしたので、私はそれを行いました。ここで、私の経験的データ(約100データポイント)の0.975分位点は、データに当てはめた一般化パレート分布の0.975分位点よりも低くなっています。さて、この違いが気になるものかどうかを確認する方法はあるのでしょうか。 分位数の漸近分布は次のように与えられることがわかります。 だから私は、データのフィッティングから得たのと同じパラメーターで一般化されたパレート分布の0.975分位の周りに95%の信頼帯をプロットしようとすることで私の好奇心を楽しませるのは良い考えだと思いました。 ご覧のとおり、ここでは極端な値を処理しています。また、分散が非常に大きいため、密度関数の値は非常に小さく、信頼帯は上記の漸近正規性公式の分散を使用してのオーダーになります。±1012±1012\pm 10^{12} ±1.960.975∗0.025n(fGPD(q0.975))2±1.960.975∗0.025n(fGPD(q0.975))2\pm 1.96\frac{0.975*0.025}{n({f_{GPD}(q_{0.975})})^2} したがって、これは意味がありません。正の結果のみの分布があり、信頼区間には負の値が含まれています。ここで何かが起こっています。私は0.5分位の周りのバンドを計算すると、バンドがでないことを、巨大な、まだ巨大な。 これが別の分布、つまり分布とどのように関係するかを見ていきます。分布から観測をシミュレートし、変位値が信頼帯内にあるかどうかを確認します。これを10000回実行して、信頼帯内にあるシミュレーションされた観測値の0.975 / 0.5変位値の比率を確認します。N(1,1)N(1,1)\mathcal{N}(1,1)n=100n=100n=100N(1,1)N(1,1)\mathcal{N}(1,1) ################################################ # Test at the 0.975 quantile ################################################ #normal(1,1) #find 0.975 quantile q_norm&lt;-qnorm(0.975, mean=1, sd=1) #find density value at 97.5 quantile: f_norm&lt;-dnorm(q_norm, mean=1, sd=1) #confidence bands absolute value: band=1.96*sqrt((0.975*0.025)/(100*(f_norm)^2)) u=q_norm+band l=q_norm-band hit&lt;-1:10000 for(i in 1:10000){ d&lt;-rnorm(n=100, mean=1, sd=1) …

1
特定の分位点から分布の合計の分位点を計算する
データからの推定により、特定のレベルの分位数がわかっている独立確率変数があるとします。、...、。ランダム変数を合計として定義しましょう。レベル、つまりで合計の分位の値を計算する方法はありますか?NNNX1,...,XNX1,...,XNX_1, ..., X_Nαα\alphaα=P(X1&lt;q1)α=P(X1&lt;q1)\alpha = P(X_1 < q_1)α=P(XN&lt;qN)α=P(XN&lt;qN)\alpha = P(X_N < q_N)ZZZZ=∑Ni=1XiZ=∑i=1NXiZ = \sum_{i=1}^N X_iαα\alphaqzqzq_zα=P(Z&lt;qZ)α=P(Z&lt;qZ)\alpha = P(Z < q_Z) がガウス分布従う場合など、特定のケースではこれは簡単だと思いますが、の分布が不明である場合はよくわかりません。何か案は?XiXiX_i∀i∀i\forall iXiXiX_i
9 quantiles 

1
ブートストラップを使用して1パーセンタイルのサンプリング分布を取得する
母集団からのサンプル(サイズ250)があります。人口の分布はわかりません。 主な質問:母集団の1パーセンタイルの点推定が必要です。次に、点推定の周りに95%の信頼区間が必要です。 私の点推定値は、サンプル1になり番目のパーセンタイル。私はそれをと表します。xxx その後、ポイント推定値の周囲に信頼区間を構築しようとします。ここでブートストラップを使用するのは理にかなっているのでしょうか。私はブートストラップに非常に慣れていないので、適切な用語を使用できない場合などはご容赦ください。 ここに私がそれをやろうとした方法があります。元のサンプルから置き換えて、ランダムなサンプルを1000個描画します。それぞれから1パーセンタイルを取得します。したがって、私は1000ポイントを持っている- "1 stは -percentiles"。これらの1000ポイントの経験的分布を見てみましょう。その平均ます。次のように「バイアス」を示します:。私は2.5とり番目のパーセンタイルと97.5 番目の下、私は1の周りの95%信頼区間と呼ぶもののハイエンド得るために、1000ポイントのパーセンタイルをSTパーセンタイル元のサンプルのを。これらの点をおよびます。xmeanxmeanx_{mean}bias=xmean−xbias=xmean−x\text{bias}=x_{mean}-xx0.025x0.025x_{0.025}x0.975x0.975x_{0.975} 最後のステップは、この信頼区間を、元のサンプルの1パーセンタイル付近ではなく、母集団の1パーセンタイル付近になるように調整することです。したがって、を下限とし、を上限とします人口の1つの点推定値の周りの95%信頼区間の番目のパーセンタイル。この最後のインターバルが私が求めていたものです。x−bias−(xmean−x0.025)x−bias−(xmean−x0.025)x-\text{bias}-(x_{mean}-x_{0.025})x−bias+(x0.975−xmean)x−bias+(x0.975−xmean)x-\text{bias}+(x_{0.975}-x_{mean}) 重要な点は、私の意見では、それは1つのために使用するブートストラップに理にかなっているかどうかであるSTのかなり近い人口の未知の根本的な分布のテールにあるパーセンタイル。問題があるのではないかと思います。ブートストラップを使用して、最小値(または最大値)の信頼区間を構築することを検討してください。 しかし、おそらくこのアプローチには欠陥がありますか?私にお知らせください。 編集: もう少し問題についての考えを持って、私は私の解決策は、以下のことを意味していることがわかり:経験1 番目のパーセンタイル元のサンプルの1の偏った推定かもしれSTパーセンタイル人口の。もしそうなら、ポイント推定はバイアス調整されるべきです:。そうでない場合、バイアス調整された信頼区間は、バイアス未調整のポイント推定と互換性がありません。ポイント推定値と信頼区間の両方を調整するか、どちらも調整しない必要があります。x−biasx−biasx-\text{bias} 一方、見積もりにバイアスをかけることを許可しなかった場合は、バイアス調整を行う必要はありません。つまり、をポイント推定値として、を下限として、を95%の上限として信頼区間。この間隔が意味を成しているかどうかはわかりません...xxxx−(xmean−x0.025)x−(xmean−x0.025)x-(x_{mean}-x_{0.025})x+(x0.975−xmean)x+(x0.975−xmean)x+(x_{0.975}-x_{mean}) だから、サンプル1と仮定することは何の意味も持たないSTはパーセンタイル人口1の偏った推定値である番目のパーセンタイル?そうでない場合、私の代替ソリューションは正しいですか?

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.