統計とビッグデータ quantiles

1

線形回帰を使用して顧客のログ（支出）を予測する問題について考えています。入力として使用する機能を検討していて、変数のパーセンタイルを入力として使用してもよいかどうか疑問に思っています。たとえば、会社の収益を入力として使用できます。私が疑問に思っているのは、代わりに会社の収益パーセンタイルを使用できるかどうかです。別の例は、カテゴリー産業分類子（NAICS）です。NAICSコードごとの中央値支出を見て、各NAICSコードを「NAICSパーセンタイル」に割り当てるとしたら、それは私が使用できる有効な説明変数ですか？パーセンタイルを使用するときに注意すべき問題があるかどうか疑問に思っていますか？ある意味で、ある種の特徴スケーリングと同等ですか？

9 regression linear-model quantiles predictor

1

分位点のみを指定して分布パラメーターを推定する方法はありますか？

いくつかの分位数しか与えられていない場合に、指定された分布に適合する方法はありますか？たとえば、ガンマ分散データセットがあると言った場合、経験値の 20％、30％、50％、90％の分位数はそれぞれ次のようになります。 20% 30% 50% 90% 0.3936833 0.4890963 0.6751703 1.3404074 どのようにしてパラメータを推定しますか？それを行う方法は複数ありますか、それともすでに特定の手順がありますか？さらに編集：ガンマ分布を具体的に尋ねるのではなく、質問を適切に説明できないので、これは単なる例です。私の仕事は、いくつかの（2-4）の分位数があり、いくつかの分布の（1-3）パラメータをできるだけ「近似」して推定することです。時々（または無限の）正確な解決策がある場合もあれば、そうでない場合もありますよね？

9 distributions quantiles fitting

2

グループ間の（いくつかの）分位Qの違いをテストしていますか？

3つのグループ（X）に分割されているいくつかのY変数について、グループを比較し、90％の変位値が3つのグループすべてで同じであるという仮説を立てます。どのようなテストを使用できますか？私が考えることができる1つのオプションは、分位回帰を使用することですが、他の選択肢/アプローチはありますか？中央値を比較したい場合は、クラスカルウォリス検定を使用できたと思います（ランクに基づいていますが、正しく覚えていれば、残差分布が対称である場合に同じ結果が得られます）。ありがとう。

9 hypothesis-testing anova median quantiles kruskal-wallis

2

データのROC曲線を計算する

そのため、ハミング距離を使用して生体認証特性から個人を認証しようとしている16のトライアルがあります。しきい値は3.5に設定されています。私のデータは以下であり、トライアル1のみが真陽性です。 Trial Hamming Distance 1 0.34 2 0.37 3 0.34 4 0.29 5 0.55 6 0.47 7 0.47 8 0.32 9 0.39 10 0.45 11 0.42 12 0.37 13 0.66 14 0.39 15 0.44 16 0.39 私の混乱のポイントは、このデータからROC曲線（FPR対TPR OR FAR対FRR）を作成する方法が本当にわからないということです。どちらでもかまいませんが、どうやって計算するのか混乱しています。任意の助けいただければ幸いです。

9 mathematical-statistics roc classification cross-validation pac-learning r anova survival hazard machine-learning data-mining hypothesis-testing regression random-variable non-independent normal-distribution approximation central-limit-theorem interpolation splines distributions kernel-smoothing r data-visualization ggplot2 distributions binomial random-variable poisson-distribution simulation kalman-filter regression lasso regularization lme4-nlme model-selection aic r mcmc dlm particle-filter r panel-data multilevel-analysis model-selection entropy graphical-model r distributions quantiles qq-plot svm matlab regression lasso regularization entropy inference r distributions dataset algorithms matrix-decomposition regression modeling interaction regularization expected-value exponential gamma-distribution mcmc gibbs probability self-study normality-assumption naive-bayes bayes-optimal-classifier standard-deviation classification optimization control-chart engineering-statistics regression lasso regularization regression references lasso regularization elastic-net r distributions aggregation clustering algorithms regression correlation modeling distributions time-series standard-deviation goodness-of-fit hypothesis-testing statistical-significance sample binary-data estimation random-variable interpolation distributions probability chi-squared predictor outliers regression modeling interaction

1

パーセンタイルと信頼区間の関係（平均）

この質問は、パーセンタイルと信頼区間の関係を誰かが私に尋ねたときに仕事で出てきました、そして私は私の考えを明確にするのに非常に苦労しました。コンテキストは、サンプル平均の95％信頼区間の推定に関する非常に単純な質問でした。中心極限定理は、サンプルサイズが十分に大きければ、任意の独立した確率変数の平均の標本分布は正常またはほぼ正常になると述べていることを理解しています。したがって、標本平均は正規分布持ちます。ここで、は標本標準偏差です。sN（x¯、s / n−−√）N(x¯,s/n)N(\bar{x}, s/\sqrt{n})sss ここで、帰無仮説が真であるとしましょう。次に、帰無仮説の下では、標本平均の周りの95％信頼区間はμ ˉ X ± 1.96 * S / √H0：μバツ¯= μH0:μx¯=μH_0: \mu_{\bar{x}} = \muμバツ¯± 1.96 ∗ s / n−−√μx¯±1.96∗s/n\mu_{\bar{x}} \pm 1.96 * s/\sqrt{n} 私の同僚からの質問は、具体的には次のとおりでした。標準誤差は、平均の標本分布の単なる標準偏差です。したがって、は、サイズ多くのサンプルのサンプル平均を計算することによって作成された分布の97.5パーセンタイルに相当しますか？ nμバツ¯+ 1.96 ∗ s / n−−√μx¯+1.96∗s/n\mu_{\bar{x}} + 1.96 * s/\sqrt{n}んnn パーセンタイルと信頼区間は2つの別々の概念であり、同僚の質問は2つの間の関係について尋ねていたので、質問は本当に奇妙でした。非常に混乱しましたが、私のポイントを明確にすることはできませんでした。どんな助けでも大歓迎です！

9 confidence-interval quantiles mean

1

Zスコアをパーセンタイルスコアに変換する簡単な方法はありますか？

zスコアをパーセンタイルスコアに変換するのに役立つ関数またはRパッケージを知っている人はいますか？最終目標は、回答者のグループをzスコアの高さに基づいて4つのカテゴリに分類またはランク付けすることです（最低スコア20％、最高スコア30％、最高スコア20％）。何か案は？よろしくお願いします！

9 r quantiles change-scores

2

データの50％が25〜75パーセンタイルになると言えるでしょうか。

次のデータフレームがあるとしましょう： TY_MAX 141 1.004622 142 1.004645 143 1.004660 144 1.004672 145 1.004773 146 1.004820 147 1.004814 148 1.004807 149 1.004773 150 1.004820 151 1.004814 152 1.004834 153 1.005117 154 1.005023 155 1.004928 156 1.004834 157 1.004827 158 1.005023 159 1.005248 160 1.005355 25th: 1.0031185409705132 50th: 1.004634349800723 75th: 1.0046683578907745 Calculated 50th: …

8 quantiles statsmodels

2

ガウス分布による四分位変換-Sklearnの実装

これは漠然とした質問かもしれませんが、Scikit-Learnの分位変換はどのように実装されているのでしょうか。歪んだデータセットをこのような正規分布に変換するにはどうすればよいのでしょうか。通常、scikit-learnはwikiへのリンクを提供しますが、この変換は提供しません。誰かが私を正しい方向に向けることができますか？ありがとう

8 data-transformation quantiles

3

分布の分析形式が不明な場合の変位値関数の取得方法

問題は、この[0]論文の377〜379ページにあります。連続分布と固定与えられた場合、以下を考慮してください：FFFz∈Rz∈Rz\in\mathbb{R} Lz(t)=PF(|z−Z|≤t)Lz(t)=PF(|z−Z|≤t)L_z(t)=P_F(|z-Z|\leq t) そして H(z)=L−1z(0.5)=medZ∼F|z−Z|H(z)=Lz−1(0.5)=medZ∼F|z−Z|H(z)=L^{-1}_z(0.5)=\underset{Z\sim F}{\mbox{med}}|z-Z| ここで、は正しい連続逆行列です。したがって、固定zの場合、これはすべてのZ \ sim Fからzまでの距離の中央値です。次に、関数について考えます。zL−1z(u)=inf{t:Lz(t)>u}Lz−1(u)=inf{t:Lz(t)>u}L^{-1}_z(u)=\inf\{t:L_z(t)>u\}zzzZZ∼FZ∼FZ\sim Fzzz L(t)=PF(H(Z)≤t)L(t)=PF(H(Z)≤t)L(t)=P_F(H(Z)\leq t) 今、私はH（z）の分析式を持っていませんH(z)H(z)H(z)（実際、そのための分析式は不可能だと確信しています）が、CDF Fが与えられればFFF、ルート探索アルゴリズムを使用してH(z)H(z)H(z)任意のzzz。このアプリケーションでは、興味があります： L−1(0.5)=medZ∼FH(Z)L−1(0.5)=medZ∼FH(Z)L^{-1}(0.5)=\underset{Z\sim F}{\mbox{med}}H(Z) これは、中央値であるH(Z)H(Z)H(Z)のために、再度、Z∼FZ∼FZ\sim F。を取得するために、グリッド上で多くの値に対応する値をルート検索アルゴリズムを使用して上記で説明したように）計算し、これらの値の重み付き中央値を取ります推定値としての（重み付き。H （z ）z H （z ）f （z ）L − 1（0.5 ）L−1(0.5)L−1(0.5)L^{-1}(0.5)H(z)H(z)H(z)zzzH(z)H(z)H(z)f(z)f(z)f(z)L−1(0.5)L−1(0.5)L^{-1}(0.5) 私の質問は：を取得するためのより正確な方法はありますか（この論文の執筆者は、計算方法を述べていません）L − 1（0.5 ）L−1(0.5)L−1(0.5)L^{-1}(0.5)L−1(0.5)L−1(0.5)L^{-1}(0.5) の値のグリッドはどのように選択する必要がありますか？zzz [0] OlaHössjer、Peter J. Rousseeuw、Christophe Croux。ロバストなスプレッド汎関数の推定量の漸近。Statistica Sinica 6（1996）、375-388。

8 mathematical-statistics quantiles cdf numerics quantile-function

2

パーセンタイルの計算は、累積密度関数の評価と同じですか？

私は、パーセンタイルのアイデアから、たとえば実数線を超えてジャンプしようとしています（n番目のパーセンタイルは、データポイントのn％がその下にあり、100-n％がその上にある位置です））、確率密度関数の下の面積の考え方。一連の数値の50％パーセンタイルを知りたい場合は、数値の半分が下にあり、半分の数値が上にある点を見つけます。これが50％のパーセンタイルです。これで完了です。 Zスコアなど、分布からの50％パーセンタイルを知りたい場合は、累積分布関数を0から50まで評価すれば完了です。これは正しいと言っていますか？これは直感的には正しいと思いますが、それを家にたたくには、いくらかの議論が必要です。または、完全にオフにすることもできます...

8 distributions quantiles

2

通常のマージンと指定された（ピアソン）相関による条件付き期待値の制限

別のフォーラムで次の質問を見ました。「成人男性の身長と体重の両方が通常のモデルで説明でき、これらの変数間の相関が0.65であると仮定します。男性の身長が彼を60パーセンタイルに配置する場合、彼の体重はどのパーセンタイルであると予想しますか？」問題のフォーラムの誰かが、質問はマージンが正常（height and weight ... can be described with normal models）であり、2変量の正常性について話しており、質問に単一の答えがないことをすでに指摘していることを私は知っています。明らかに、答えは実際の2変量依存関係（コピュラ）に依存します。私の質問は：通常のマージンと指定された母集団相関（ρρ\rho、ピアソン相関）が与えられた場合、X とYの両方が正規であり、相関ρがある場合、境界を見つけるのに適度に簡単な方法はありますか？E（Y| バツ= xq）E(Y|X=xq)E(Y|X=x_q)バツ、YX,YX,Yρρ\rho 条件付き期待値の正確な最大値と最小値がある場合、それ（および優先的には、それぞれが発生する状況*）を知っておくとよいでしょう。 *私はそれらの状況がどうなるかについて強い疑いを抱いています（つまり、関与する可能性のある依存の種類。特に、特定の種類の縮退分布が範囲を与えることを期待します）。深さ。（私は誰かがすでにそれを知っている可能性が高いと思います。）それができない場合、最大値と最小値の両方の上限または下限が興味深いでしょう。代数的な答えはいいでしょうが、私は代数的な答えを必ずしも必要としません（いくつかのアルゴリズムはそうするでしょう）。概算または部分的な回答が役立つ/役立つ場合があります。誰も良い答えを持っていない場合、私はそれを自分で試してみるかもしれません。

8 correlation normal-distribution quantiles copula bivariate

3

サンプルの分位バイアスの実証

いくつかのシミュレーションを行っているときに、サンプルの分位点が真の分位点の偏った推定量であることに気付きました。そして、私のシミュレーションによると、潜在的に非常に偏ったものです。経験的なCDFは偏っていないのでその結果には驚きましたが、インターネットでの調査の結果、それが本当であることがわかりました。私はそのバイアスがどこから来ているのかを理解しようとしましたが、サンプル分位点を扱うことは非常に困難です。だれかがそのバイアスの実証（そして理想的には定量化）を持っていますか？

8 estimation quantiles

1

分位回帰の標準化されたベータ係数を解釈することは可能ですか？

標準化されたデータの分位点回帰からの係数を解釈することは可能ですか？従属変数と独立変数を標準化し（平均を差し引き、標準偏差で除算）、次のような中央値の分位数回帰を実行するとします。xyyyバツxx qreg y x, q(0.5) スタタ。独立変数の推定係数はです。次の解釈は正しいですか？0.50.50.5 独立変数の標準偏差が1増加すると、従属変数の中央値が標準偏差増加しますか？0.50.50.5

8 regression stata quantiles

2

ランダムサンプリングによる単純な積分方程式の解法

してみましょう非負関数です。ようなを見つけることに興味があります。警告：私ができることは[0,1]のポイントでをサンプリングすることだけです。ただし、必要に応じて、fをランダムにサンプリングする場所を選択できます。 fffz∈[0,1]z∈[0,1]z \in [0,1]F [ 0 、1 ] F∫z0f(x)dx=12∫10f(x)dx∫0zf(x)dx=12∫01f(x)dx \int_0^{z} f(x)\,dx = \frac{1}{2}\int_0^1 f(x)\,dxfff[0,1][0,1][0,1]fff 質問：有限個のサンプルの後にzの不偏推定を取得することは可能zzzですか？もしそうなら、kkkサンプル後のそのような推定値の可能な最小の分散は何ですか？そうでない場合、zを推定するために利用できる手順zzzと、それに関連する収束時間は何ですか。コメントでDouglas Zareが指摘したように、関数がゼロに近いか非常に大きい場合、これを行うのは非常に困難です。幸いなことに、これを使用する必要がある関数は上と下からバインドされているため、1 \ leq f（x）\ leq 2と仮定しましょう1≤f(x)≤21≤f(x)≤21 \leq f(x) \leq 2。さらに、fffがリプシッツであるか、それが役立つ場合は微分可能であると仮定することもできます。

8 sampling monte-carlo quantiles quasi-monte-carlo

3

サーバー稼働時間パフォーマンスデータの外れ値を特定する方法

サーバーの稼働時間とパフォーマンスデータのリストのリストを作成するpythonスクリプトがあり、各サブリスト（または「行」）には特定のクラスターの統計が含まれています。たとえば、適切にフォーマットされた次のようになります。 ------- ------------- ------------ ---------- ------------------- Cluster %Availability Requests/Sec Errors/Sec %Memory_Utilization ------- ------------- ------------ ---------- ------------------- ams-a 98.099 1012 678 91 bos-a 98.099 1111 12 91 bos-b 55.123 1513 576 22 lax-a 99.110 988 10 89 pdx-a 98.123 1121 11 90 ord-b 75.005 1301 123 100 sjc-a 99.020 1000 10 …

8 outliers quantiles

タグ付けされた質問 「quantiles」

タグ付けされた質問「quantiles」