統計とビッグデータ quantiles

2

観測値を保存せずに、大量のデータセットでリアルタイムで四分位数（Q1、中央値、およびQ3）を計算する必要があります。最初にPスクエアアルゴリズム（Jain / Chlamtac）を試しましたが、満足できませんでした（CPUの使用量が少なすぎて、少なくともデータセットの精度に納得できませんでした）。 FAMEアルゴリズム（Feldman / Shavitt）を使用してオンザフライで中央値を推定し、アルゴリズムを導出してQ1およびQ3も計算することを試みます。 M = Q1 = Q3 = first data value step =step_Q1 = step_Q3 = a small value for each new data : # update median M if M > data: M = M - step elif M < data: M = M + step …

13 quantiles median online

1

正規分布の組み合わせからの分位点

私は、さまざまな年齢の子供の人体寸法（肩幅など）の分布に関する情報を持っています。年齢と次元ごとに、平均、標準偏差があります。（8つの変位値もありますが、それらから必要なものを取得できるとは思いません。）各次元について、長さ分布の特定の分位数を推定したいと思います。各次元が正規分布していると仮定した場合、平均と標準偏差を使用してこれを行うことができます。分布の特定の分位に関連付けられた値を取得するために使用できるきれいな式はありますか？その逆は非常に簡単です。特定の値について、各正規分布（年齢）の値の右側の領域を取得します。結果を合計し、分布の数で割ります。更新：同じ質問をグラフィカル形式で示します。各色付き分布が正規分布していると仮定します。また、明らかに、さまざまな長さの束を試して、精度のために目的の分位点に十分に近い長さになるまで変更し続けることができます。これよりも良い方法があるかどうか疑問に思っています。そして、これが正しいアプローチである場合、その名前はありますか？

12 normal-distribution quantiles gaussian-mixture aggregation

1

重み付けされたサンプルの変位値の定義

分位を計算したい重み付きサンプルがあります。1 理想的には、重みが等しい場合（= 1またはそれ以外）、結果はscipy.stats.scoreatpercentile()とRの結果と一致しquantile(...,type=7)ます。単純なアプローチの1つは、指定された重みを使用してサンプルを「乗算」することです。これにより、重量が1を超える領域で局所的に「フラットな」ecdfが効果的に得られます。これは、サンプルが実際にサブサンプリングである場合、直感的に間違ったアプローチのように見えます。特に、すべてが1の重みを持つサンプルは、すべてが2または3の重みを持つサンプルとは異なる分位点を持つことを意味します（ただし、[1]で参照されている論文はこのアプローチを使用しているようです）。 http://en.wikipedia.org/wiki/Percentile#Weighted_percentileは、加重パーセンタイルの代替公式を提供します。この定式化では、同じ値を持つ隣接するサンプルを最初に組み合わせて重みを合計する必要があるかどうかは明確ではなく、いずれの場合も、その結果はquantile()、重みなし/等しい重みの場合のRのデフォルトタイプ7と一致しないようです。変位値に関するウィキペディアのページでは、加重ケースについてはまったく言及していません。 Rの「タイプ7」クォンタイル関数の加重一般化はありますか？ [Pythonを使用しますが、アルゴリズムを探しているだけです。実際、どの言語でも実行できます] M [1]重みは整数です。重みは、http：//infolab.stanford.edu/~manku/papers/98sigmod-quantiles.pdfで説明されているように、「折りたたみ」操作と「出力」操作で結合されるバッファーの重みです。基本的に、重み付けされたサンプルは、重み付けされていない完全なサンプルのサブサンプリングであり、サブサンプル内の各要素x（i）は、完全なサンプル内のweight（i）要素を表します。

12 algorithms quantiles weighted-sampling

2

「パーセンタイル」の定義

現在、PMT Educationによって記述された生物統計に関するメモを読んでおり、セクション2.7の次の文に注意してください。質量の50パーセンタイルで生まれた赤ちゃんは、赤ちゃんの50％より重いです。質量の25パーセンタイルで生まれた赤ちゃんは、赤ちゃんの75％より重いです。質量の75パーセンタイルで生まれた赤ちゃんは、赤ちゃんの25％より重いです。しかし、私が知っているように、質量の25パーセンタイルで生まれた赤ちゃんは、赤ちゃんの25％より重いはずです。この分野で「パーセンタイル」の特別な定義はありますか、それとも非ネイティブスピーカーとしての文を誤解していますか？

11 mathematical-statistics quantiles definition

1

R / mgcv：なぜte（）とti（）テンソル積が異なる表面を生成するのですか？

のmgcvパッケージにRは、テンソル積の相互作用をフィッティングするための2つの関数がte()ありti()ます。私は2つの作業の基本的な分業を理解しています（非線形の相互作用を当てはめるか、この相互作用を主効果と相互作用に分解するか）。私が理解していないのは、なぜte(x1, x2)、そしてti(x1) + ti(x2) + ti(x1, x2)（わずかに）異なる結果を生成するのかということです。 MWE（から適応?ti）： require(mgcv) test1 <- function(x,z,sx=0.3,sz=0.4) { x <- x*20 (pi**sx*sz)*(1.2*exp(-(x-0.2)^2/sx^2-(z-0.3)^2/sz^2)+ 0.8*exp(-(x-0.7)^2/sx^2-(z-0.8)^2/sz^2)) } n <- 500 x <- runif(n)/20;z <- runif(n); xs <- seq(0,1,length=30)/20;zs <- seq(0,1,length=30) pr <- data.frame(x=rep(xs,30),z=rep(zs,rep(30,30))) truth <- matrix(test1(pr$x,pr$z),30,30) f <- test1(x,z) y <- f + rnorm(n)*0.2 par(mfrow = c(2,2)) # …

11 r gam mgcv conditional-probability mixed-model references bayesian estimation conditional-probability machine-learning optimization gradient-descent r hypothesis-testing wilcoxon-mann-whitney time-series bayesian inference change-point time-series anova repeated-measures statistical-significance bayesian contingency-tables regression prediction quantiles classification auc k-means scikit-learn regression spatial circular-statistics t-test effect-size cohens-d r cross-validation feature-selection caret machine-learning modeling python optimization frequentist correlation sample-size normalization group-differences heteroscedasticity independence generalized-least-squares lme4-nlme references mcmc metropolis-hastings optimization r logistic feature-selection separation clustering k-means normal-distribution gaussian-mixture kullback-leibler java spark-mllib data-visualization categorical-data barplot hypothesis-testing statistical-significance chi-squared type-i-and-ii-errors pca scikit-learn conditional-expectation statistical-significance meta-analysis intuition r time-series multivariate-analysis garch machine-learning classification data-mining missing-data cart regression cross-validation matrix-decomposition categorical-data repeated-measures chi-squared assumptions contingency-tables prediction binary-data trend test-for-trend matrix-inverse anova categorical-data regression-coefficients standard-error r distributions exponential interarrival-time copula log-likelihood time-series forecasting prediction-interval mean standard-error meta-analysis meta-regression network-meta-analysis systematic-review normal-distribution multiple-regression generalized-linear-model poisson-distribution poisson-regression r sas cohens-kappa

1

サンプルの分位点の代わりにコーニッシュフィッシャー拡張を使用する理由

コーニッシュフィッシャー展開は瞬間に基づく分布の分位数を推定する方法を提供します。（この意味で、モーメントに基づく累積分布の推定値を提供するEdgeworth Expansionを補完するものだと考えています。）経験的作業よりもコーニッシュフィッシャー展開を好む状況を知りたいのですが。サンプル分位、またはその逆。いくつかの推測：計算上、サンプルのモーメントはオンラインで計算できますが、サンプルの変位値のオンライン推定は困難です。この場合、CFが「勝つ」。瞬間を予測する機能があれば、CFにより、これらの予測を分位点推定に活用できます。 CF展開では、観測値の範囲外の変位値の推定値が得られる可能性がありますが、サンプル変位値はおそらくそうではありません。 CFによって与えられた変位値推定値の周囲の信頼区間を計算する方法を知りません。この場合、サンプル分位は「勝ち」ます。 CF展開では、分布のより高い複数のモーメントを推定する必要があるようです。これらの推定値のエラーは、CF拡張がサンプル分位点よりも高い標準エラーを持っているような方法でおそらく複合します。他のもの？これらの方法の両方を使用した経験がある人はいますか？

11 distributions quantiles finance

1

分位数の関数としての期待値？

RV用の期待値と同じRVの変位値の関数として連続確率変数の期待値に関連する一般的な式がある場合、私は思っていた：として定義されるおよび変位値は次のように定義されます： for。XXX E(X)=∫xdFX(x)E(X)=∫xdFX(x)E(X) = \int x dF_X(x) QpX={x:FX(x)=p}=F−1X(p)QXp={x:FX(x)=p}=FX−1(p)Q^p_X = \{x : F_X(x) = p \} =F_X^{-1}(p) p∈(0,1)p∈(0,1)p\in(0,1) たとえば、次のような関数があります： GGGE(X)=∫p∈(0,1)G(QpX)dpE(X)=∫p∈(0,1)G(QXp)dpE(X) = \int_{p\in(0,1)} G(Q^p_X) dp

10 expected-value quantiles quantile-regression

6

Excelの四分位数

基本的な統計で通常使用される四分位数の定義に興味があります。私はStat 101タイプの本を持っていますが、それは直感的な定義を与えるだけです。「データの約4分の1が第1四分位以下になる...」ただし、データセットのQ1、Q2、Q3を計算する例を示します 5, 7, 9, 10, 11, 13, 14, 15, 16, 17, 18, 18, 20, 21, 37 15個のデータがあるため、Q2の中央値として15を選択します。次に、残りのデータを5から14、16から37の2つの半分に分割します。これらにはそれぞれ7つのデータが含まれ、それぞれのセットの中央値10と18をそれぞれQ1とQ3として見つけます。これは私が自分で計算する方法です。私はウィキペディアの記事を見ました、そしてそれは2つの方法を与えます。上記に同意し、両方のセットに中央値15を含めることもできます（ただし、偶数のデータポイントの場合、中央の2つの数値の平均である場合は中央値を含めません）。これはすべて私にとって理にかなっています。しかし、その後、Excelをチェックして、Excelでどのように計算されるかを確認しました。Excel 2010を使用しています。これには3つの異なる機能があります。Quartileは2007年と以前のバージョンで利用可能でした。彼らはあなたに2010年にこれを使うのをやめて欲しいようですが、それはまだ利用可能です。Quartile.Incは新しいものですが、私の知る限り、Quartileと完全に一致します。また、Quartile.Excもあります。最後の2つはどちらも2010年の新機能だと思います。今回は、整数1、2、3、...、10を使用してみました。Excelの中央値は5.5、Q1は3、Q3は8になると思います。中央値は中央の2つの数値の平均であるため、Wikipediaの両方の方法でこれらの答えが得られるためです。Excelは与える quartile number, Quartile.Inc, Quartile.Exc 1, 3.25, 2.75 2, 5.5, 5.5 3, 7.75, 8.25 これらのどちらも、私が以前に話したことに同意しません。 Excelのヘルプファイルの説明は次のとおりです。 Quartile.Inc-0..1からのパーセンタイル値に基づいて、データセットの四分位数を返します。 Quartile.Exc-0から1までのパーセンタイル値に基づいて、データセットの四分位数を返します。 Excelが使用しているこの定義を理解するのに役立つ人はいますか？

10 excel quantiles

1

参考資料：逆累積分布関数の末尾

統計で次の結果を見たことがあると思いますが、どこで思い出せないのでしょうか。場合正の確率変数であり、E（X ）< ∞、次いでε F - 1（1 - ε ）→ 0ときε → 0 +、Fでの累積分布関数であるX。XXXE(X)<∞E(X)<∞\mathbb{E}(X)<\inftyεF−1(1−ε)→0εF−1(1−ε)→0\varepsilon F^{-1}(1-\varepsilon) \to 0ε→0+ε→0+\varepsilon\to 0^+FFFXXX これは、等式を使用して幾何学的に見ることは容易であるとの水平カット考慮しε積分の曲線下面積の1 - Fを。E(X)=∫1−FE(X)=∫1−F\mathbb{E}(X)=\int 1-Fεε\varepsilon1−F1−F1-F この結果の参照と、名前があるかどうか知っていますか？

10 references quantiles cdf moments

2

成長チャートを作成する最良の方法

私は5から15歳（5、6、7のみなど、2.6歳のような小数値はありません）の負ではなく、継続的である健康変数のチャート（成長チャートと同様）を作成する必要があります50〜150の範囲（この範囲外の数個の値のみ）。90、95、99パーセンタイル曲線を作成し、これらのパーセンタイルのテーブルも作成する必要があります。サンプルサイズは約8000です。私は次の可能な方法をチェックして見つけました：分位点を見つけて、レス法を使用して、これらの分位点から滑らかな曲線を取得します。滑らかさの程度は「スパン」パラメータで調整できます。 LMS（Lambda-Mu-Sigma）メソッドを使用します（RでgamlssまたはVGAMパッケージを使用するなど）。分位回帰を使用します。各年齢グループの平均とSDを使用して、その年齢のパーセンタイルを推定し、パーセンタイル曲線を作成します。それを行う最良の方法は何ですか？「最良」とは、そのような成長曲線を作成するための標準的な方法であり、すべての人に受け入れられる理想的な方法を意味します。または、いくつかの制限があるかもしれませんが、受け入れ可能でより速い方法である、実装がより簡単で単純な方法。（たとえば、パーセンタイル値でloessを使用すると、gamlssパッケージのLMSを使用するよりもはるかに高速です）。また、そのメソッドの基本的なRコードになります。ご協力いただきありがとうございます。

10 ordinal-data quantiles regression-strategies generalized-least-squares growth-model

4

1つの中央値が別の中央値よりも低いという事実は、なぜグループ1の大部分がグループ2の大部分よりも少ないことを意味しないのですか？

以下の箱ひげ図は、（このデータセットでは）「ほとんどの男性がほとんどの女性よりも速い」と解釈できると信じていました。しかし、Rと統計のクイズに関するEdXコースは、それが正しくないと教えてくれました。私の直感が正しくない理由を教えてください。ここに質問があります： 2002年にニューヨークシティマラソンで出場した無作為のサンプルについて考えてみましょう。このデータセットは、UsingRパッケージにあります。ライブラリをロードしてから、nym.2002データセットをロードします。 library(dplyr) data(nym.2002, package="UsingR") ボックスプロットとヒストグラムを使用して、男性と女性の終了時間を比較します。次のうちどれが違いを最もよく説明していますか？男性と女性の分布は同じです。ほとんどの男性はほとんどの女性よりも速いです。男性と女性は同様に右に歪んだ分布をしており、前者は20分左にシフトしています。両方の分布は通常、平均で約30分の差で分布します。以下は、分位数、ヒストグラム、箱ひげ図としての男性と女性のニューヨークマラソン時間です。 # Men's time quantile 0% 25% 50% 75% 100% 147.3333 226.1333 256.0167 290.6375 508.0833 # Women's time quantile 0% 25% 50% 75% 100% 175.5333 250.8208 277.7250 309.4625 566.7833

9 quantiles histogram boxplot eda

1

ベータ分布の2つの分位数はそのパラメーターを決定しますか？

私は2つの変位値を与える場合及びそれらの対応する位置（L 1、L 2）開いた間隔で（各）（0 、1 ）私は常に、これらの変位値を持つベータ分布のパラメータを見つけることができるが、指定された場所？(q1,q2)(q1,q2)(q_1,q_2)(l1,l2)(l1,l2)(l_1,l_2)(0,1)(0,1)(0,1)

9 quantiles curve-fitting beta-distribution

1

重い裾の分布の順序統計量の漸近正規性

背景：重い裾の分布でモデル化したいサンプルがあります。観測値の広がりが比較的大きいなど、いくつかの極端な値があります。私の考えはこれを一般化されたパレート分布でモデル化することでしたので、私はそれを行いました。ここで、私の経験的データ（約100データポイント）の0.975分位点は、データに当てはめた一般化パレート分布の0.975分位点よりも低くなっています。さて、この違いが気になるものかどうかを確認する方法はあるのでしょうか。分位数の漸近分布は次のように与えられることがわかります。だから私は、データのフィッティングから得たのと同じパラメーターで一般化されたパレート分布の0.975分位の周りに95％の信頼帯をプロットしようとすることで私の好奇心を楽しませるのは良い考えだと思いました。ご覧のとおり、ここでは極端な値を処理しています。また、分散が非常に大きいため、密度関数の値は非常に小さく、信頼帯は上記の漸近正規性公式の分散を使用してのオーダーになります。±1012±1012\pm 10^{12} ±1.960.975∗0.025n(fGPD(q0.975))2±1.960.975∗0.025n(fGPD(q0.975))2\pm 1.96\frac{0.975*0.025}{n({f_{GPD}(q_{0.975})})^2} したがって、これは意味がありません。正の結果のみの分布があり、信頼区間には負の値が含まれています。ここで何かが起こっています。私は0.5分位の周りのバンドを計算すると、バンドがでないことを、巨大な、まだ巨大な。これが別の分布、つまり分布とどのように関係するかを見ていきます。分布から観測をシミュレートし、変位値が信頼帯内にあるかどうかを確認します。これを10000回実行して、信頼帯内にあるシミュレーションされた観測値の0.975 / 0.5変位値の比率を確認します。N(1,1)N(1,1)\mathcal{N}(1,1)n=100n=100n=100N(1,1)N(1,1)\mathcal{N}(1,1) ################################################ # Test at the 0.975 quantile ################################################ #normal(1,1) #find 0.975 quantile q_norm<-qnorm(0.975, mean=1, sd=1) #find density value at 97.5 quantile: f_norm<-dnorm(q_norm, mean=1, sd=1) #confidence bands absolute value: band=1.96*sqrt((0.975*0.025)/(100*(f_norm)^2)) u=q_norm+band l=q_norm-band hit<-1:10000 for(i in 1:10000){ d<-rnorm(n=100, mean=1, sd=1) …

9 confidence-interval quantiles asymptotics order-statistics

1

特定の分位点から分布の合計の分位点を計算する

データからの推定により、特定のレベルの分位数がわかっている独立確率変数があるとします。、...、。ランダム変数を合計として定義しましょう。レベル、つまりで合計の分位の値を計算する方法はありますか？NNNX1,...,XNX1,...,XNX_1, ..., X_Nαα\alphaα=P(X1<q1)α=P(X1<q1)\alpha = P(X_1 < q_1)α=P(XN<qN)α=P(XN<qN)\alpha = P(X_N < q_N)ZZZZ=∑Ni=1XiZ=∑i=1NXiZ = \sum_{i=1}^N X_iαα\alphaqzqzq_zα=P(Z<qZ)α=P(Z<qZ)\alpha = P(Z < q_Z) がガウス分布従う場合など、特定のケースではこれは簡単だと思いますが、の分布が不明である場合はよくわかりません。何か案は？XiXiX_i∀i∀i\forall iXiXiX_i

9 quantiles

1

ブートストラップを使用して1パーセンタイルのサンプリング分布を取得する

母集団からのサンプル（サイズ250）があります。人口の分布はわかりません。主な質問：母集団の1パーセンタイルの点推定が必要です。次に、点推定の周りに95％の信頼区間が必要です。私の点推定値は、サンプル1になり番目のパーセンタイル。私はそれをと表します。xxx その後、ポイント推定値の周囲に信頼区間を構築しようとします。ここでブートストラップを使用するのは理にかなっているのでしょうか。私はブートストラップに非常に慣れていないので、適切な用語を使用できない場合などはご容赦ください。ここに私がそれをやろうとした方法があります。元のサンプルから置き換えて、ランダムなサンプルを1000個描画します。それぞれから1パーセンタイルを取得します。したがって、私は1000ポイントを持っている- "1 stは -percentiles"。これらの1000ポイントの経験的分布を見てみましょう。その平均ます。次のように「バイアス」を示します：。私は2.5とり番目のパーセンタイルと97.5 番目の下、私は1の周りの95％信頼区間と呼ぶもののハイエンド得るために、1000ポイントのパーセンタイルをSTパーセンタイル元のサンプルのを。これらの点をおよびます。xmeanxmeanx_{mean}bias=xmean−xbias=xmean−x\text{bias}=x_{mean}-xx0.025x0.025x_{0.025}x0.975x0.975x_{0.975} 最後のステップは、この信頼区間を、元のサンプルの1パーセンタイル付近ではなく、母集団の1パーセンタイル付近になるように調整することです。したがって、を下限とし、を上限とします人口の1つの点推定値の周りの95％信頼区間の番目のパーセンタイル。この最後のインターバルが私が求めていたものです。x−bias−(xmean−x0.025)x−bias−(xmean−x0.025)x-\text{bias}-(x_{mean}-x_{0.025})x−bias+(x0.975−xmean)x−bias+(x0.975−xmean)x-\text{bias}+(x_{0.975}-x_{mean}) 重要な点は、私の意見では、それは1つのために使用するブートストラップに理にかなっているかどうかであるSTのかなり近い人口の未知の根本的な分布のテールにあるパーセンタイル。問題があるのではないかと思います。ブートストラップを使用して、最小値（または最大値）の信頼区間を構築することを検討してください。しかし、おそらくこのアプローチには欠陥がありますか？私にお知らせください。編集：もう少し問題についての考えを持って、私は私の解決策は、以下のことを意味していることがわかり：経験1 番目のパーセンタイル元のサンプルの1の偏った推定かもしれSTパーセンタイル人口の。もしそうなら、ポイント推定はバイアス調整されるべきです：。そうでない場合、バイアス調整された信頼区間は、バイアス未調整のポイント推定と互換性がありません。ポイント推定値と信頼区間の両方を調整するか、どちらも調整しない必要があります。x−biasx−biasx-\text{bias} 一方、見積もりにバイアスをかけることを許可しなかった場合は、バイアス調整を行う必要はありません。つまり、をポイント推定値として、を下限として、を95％の上限として信頼区間。この間隔が意味を成しているかどうかはわかりません...xxxx−(xmean−x0.025)x−(xmean−x0.025)x-(x_{mean}-x_{0.025})x+(x0.975−xmean)x+(x0.975−xmean)x+(x_{0.975}-x_{mean}) だから、サンプル1と仮定することは何の意味も持たないSTはパーセンタイル人口1の偏った推定値である番目のパーセンタイル？そうでない場合、私の代替ソリューションは正しいですか？

9 confidence-interval bootstrap quantiles extreme-value

タグ付けされた質問 「quantiles」

タグ付けされた質問「quantiles」