タグ付けされた質問 「pdf」

連続確率変数の確率密度関数(PDF)は、可能な各値の相対確率を示します。このタグは、離散確率質量関数(PMF)にも使用します。

1
逆ウィシャート分布行列の対角線の周辺分布
仮定。対角要素の周辺分布に興味があります。の部分行列の分布に関するいくつかの簡単な結果があります(少なくとも一部はウィキペディアにリストされています)。これから、対角線上の任意の単一要素の周辺分布は逆ガンマであることがわかります。しかし、私は共同分布を推測することができませんでした。DIAG (X )= (X 11、... 、X P P)Xバツ〜InvWishart(ν、Σ0)バツ〜InvWishart⁡(ν、Σ0)X\sim \operatorname{InvWishart}(\nu, \Sigma_0)診断(X)= (x11、… 、xP P)診断⁡(バツ)=(バツ11、…、バツpp)\operatorname{diag}(X) = (x_{11}, \dots, x_{pp})バツバツX 多分それは次のような構成によって導き出せると思った p (x11| バツ私私、i > 1 )p (x22| バツ私私、i > 2 )… p (x(p − 1 )(p − 1 )| バツP P)p (xP P)、p(バツ11|バツ私私、私>1)p(バツ22|バツ私私、私>2)…p(バツ(p−1)(p−1)|バツpp)p(バツpp)、p(x_{11} | x_{ii}, i\gt 1)p(x_{22}|x_{ii}, i>2)\dots p(x_{(p-1)(p-1)}|x_{pp})p(x_{pp}), しかし、私はそれをどこにも持ってこなかったし、さらに何か簡単なものを見逃していると疑っています。この「知られている」べきであるように思えますが、私はそれを見つけることができませんでした。

4
新しいベクターをPCA空間に投影する方法は?
主成分分析(PCA)を実行した後、新しいベクトルをPCA空間に投影します(つまり、PCA座標系で座標を見つけます)。 を使用してR言語でPCAを計算しましたprcomp。これで、ベクトルにPCA回転行列を掛けることができるはずです。このマトリックスの主成分を行または列に配置する必要がありますか?
21 r  pca  r  variance  heteroscedasticity  misspecification  distributions  time-series  data-visualization  modeling  histogram  kolmogorov-smirnov  negative-binomial  likelihood-ratio  econometrics  panel-data  categorical-data  scales  survey  distributions  pdf  histogram  correlation  algorithms  r  gpu  parallel-computing  approximation  mean  median  references  sample-size  normality-assumption  central-limit-theorem  rule-of-thumb  confidence-interval  estimation  mixed-model  psychometrics  random-effects-model  hypothesis-testing  sample-size  dataset  large-data  regression  standard-deviation  variance  approximation  hypothesis-testing  variance  central-limit-theorem  kernel-trick  kernel-smoothing  error  sampling  hypothesis-testing  normality-assumption  philosophical  confidence-interval  modeling  model-selection  experiment-design  hypothesis-testing  statistical-significance  power  asymptotics  information-retrieval  anova  multiple-comparisons  ancova  classification  clustering  factor-analysis  psychometrics  r  sampling  expectation-maximization  markov-process  r  data-visualization  correlation  regression  statistical-significance  degrees-of-freedom  experiment-design  r  regression  curve-fitting  change-point  loess  machine-learning  classification  self-study  monte-carlo  markov-process  references  mathematical-statistics  data-visualization  python  cart  boosting  regression  classification  robust  cart  survey  binomial  psychometrics  likert  psychology  asymptotics  multinomial 

2
2つの分布間のHellinger距離の不偏推定量はありますか?
密度分布から分布観察する設定では、密度別の分布、すなわち 距離の不偏推定量(基づく)があるのだろうかX1,…,XnX1,…,XnX_1,\ldots,X_nX 、I 、F 0 H(F 、F 0)= { 1 - ∫ X √fffXiXiX_if0f0f_0H(f,f0)={1−∫Xf(x)f0(x)−−−−−−−−√dx}1/2.H(f,f0)={1−∫Xf(x)f0(x)dx}1/2. \mathfrak{H}(f,f_0) = \left\{ 1 - \int_\mathcal{X} \sqrt{f(x)f_0(x)} \text{d}x \right\}^{1/2}\,.

4
「確率密度関数の下の総面積は1」-何に対してですか?
概念的には、「PDFの下の総面積は1」というフレーズの意味を理解しています。結果の可能性の合計間隔に含まれる可能性が100%であることを意味する必要があります。 しかし、「幾何学的」な観点からそれを本当に理解することはできません。たとえば、PDFでx軸が長さを表す場合、xがkmではなくmmで測定された場合、曲線の下の総面積は大きくなりませんか? 関数が直線に平坦化された場合、曲線の下の領域がどのように見えるかを常に想像してみます。その行の高さ(y軸上の位置)はどのPDFでも同じでしょうか、それとも関数が定義されているx軸上の間隔に依存する値を持っていますか?

3
どのよう、極性分散、座標がと?
ランダムポイントのデカルト座標の座標を選択しますst。x 、yバツ、yx,y(x 、y)〜U(− 10、10 )× U(− 10 、10 )(バツ、y)〜うん(−10、10)×うん(−10、10)(x,y) \sim U(-10,10) \times U(-10,10) したがって、半径、のpdfが示すように均一に分布していません。 ρρ = x2+ y2−−−−−−√ρ=バツ2+y2\rho = \sqrt{x^2 + y^2}ρρ\rho それにもかかわらず、私はがほぼ均一であることを期待し、エッジの4つの残り物によるアーティファクトを除きます。θ = arctanyバツθ=アークタン⁡yバツ\theta = \arctan{\frac{y}{x}} 以下は、\ thetaおよび\ rhoの確率論的に計算された確率密度関数です。 θθ\thetaρρ\rho ここで、 stに分布させると、は均一に分布しているように見えます。、X 、Y 〜N (0 、20 2)× N (0 、20 2)θx 、yバツ、yx,yx 、y〜N(0 、202)×N(0 、202)バツ、y〜N(0、202)×N(0、202)x,y \sim N(0,20^2)\times N(0,20^2)θθ\theta なぜはで均一ではなく、均一であるの?(X …



2
サンプルのCDFが均一に分布している理由
ここで、cdfを使用した連続分布からのサンプルが与えられ、対応するサンプルが標準的な均一分布に従うことを読みました。X1,X2,...,XnX1,X2,...,Xn X_1,X_2,...,X_n FXFX F_X Ui=FX(Xi)Ui=FX(Xi) U_i = F_X(X_i) Pythonの定性シミュレーションを使用してこれを検証しましたが、関係を簡単に検証できました。 import matplotlib.pyplot as plt import scipy.stats xs = scipy.stats.norm.rvs(5, 2, 10000) fig, axes = plt.subplots(1, 2, figsize=(9, 3)) axes[0].hist(xs, bins=50) axes[0].set_title("Samples") axes[1].hist( scipy.stats.norm.cdf(xs, 5, 2), bins=50 ) axes[1].set_title("CDF(samples)") 結果は次のプロットになります。 これがなぜ起こるのか理解できません。私はそれがCDFの定義とPDFとの関係に関係していると思いますが、何かが欠けています... 誰かが私にその主題に関するいくつかの読書を教えてくれたり、私が主題に関するいくつかの直観をつかむのを手伝ってくれたりしていただければ幸いです。 編集:CDFは次のようになります。
17 pdf  uniform  cdf  intuition 

2
分布何ですか、一様分布では?
4つの独立した均一に分布した変数あります 。の分布を計算したい。Iは、分布計算あるとしたがって)、およびは今、合計分布は(も独立)理由a,b,c,da,b,c,da,b,c,d[0,1][0,1][0,1](a−d)2+4bc(a−d)2+4bc(a-d)^2+4bcu2=4bcu2=4bcu_2=4bcf2(u2)=−14lnu24f2(u2)=−14ln⁡u24f_2(u_2)=-\frac{1}{4}\ln\frac{u_2}{4}u2∈(0,4]u2∈(0,4]u_2\in(0,4]u1=(a−d)2u1=(a−d)2u_1=(a-d)^2f1(u1)=1−u1−−√u1−−√.f1(u1)=1−u1u1.f_1(u_1)=\frac{1-\sqrt{u_1}}{\sqrt{u_1}}.u1+u2u1+u2u_1+u_2u1,u2u1,u2u_1,\, u_2fu1+u2(x)=∫+∞−∞f1(x−y)f2(y)dy=−14∫401−x−y−−−−√x−y−−−−√⋅lny4dy,fu1+u2(x)=∫−∞+∞f1(x−y)f2(y)dy=−14∫041−x−yx−y⋅ln⁡y4dy,f_{u_1+u_2}(x)=\int_{-\infty}^{+\infty}f_1(x-y)f_2(y)dy=-\frac{1}{4}\int_0^4\frac{1-\sqrt{x-y}}{\sqrt{x-y}}\cdot\ln\frac{y}{4}dy,y∈(0,4]y∈(0,4]y\in(0,4]。ここでは、でなければならないため、積分は等しくなりそれをMathematicaに挿入して、x>yx>yx>yfu1+u2(x)=−14∫x01−x−y−−−−√x−y−−−−√⋅lny4dy.fu1+u2(x)=−14∫0x1−x−yx−y⋅ln⁡y4dy.f_{u_1+u_2}(x)=-\frac{1}{4}\int_0^{x}\frac{1-\sqrt{x-y}}{\sqrt{x-y}}\cdot\ln\frac{y}{4}dy.fu1+u2(x)=14[−x+xlnx4−2x−−√(−2+lnx)].fu1+u2(x)=14[−x+xln⁡x4−2x(−2+ln⁡x)].f_{u_1+u_2}(x)=\frac{1}{4}\left[-x+x\ln\frac{x}{4}-2\sqrt{x}\left(-2+\ln x\right)\right]. 私はそれぞれ個の数字で構成される4つの独立したセット作成し、ヒストグラムを描きました:a,b,c,da,b,c,da,b,c,d10610610^6(a−d)2+4bc(a−d)2+4bc(a-d)^2+4bc そしてプロットを描きました:fu1+u2(x)fu1+u2(x)f_{u_1+u_2}(x) 一般に、プロットはヒストグラムに似ていますが、間隔ほとんどが負です(ルートは2.27034です)。そして、正の部分の積分はです。(0,5)(0,5)(0,5)≈0.77≈0.77\approx 0.77 間違いはどこですか?それとも、どこで何かが欠けていますか? 編集: PDFを表示するためにヒストグラムをスケーリングしました。 編集2:私は推論のどこに問題があるのか​​を知っていると思う-統合の限界。そのためと、私はできません単にプロットショー私は統合する必要があり地域。:y∈(0,4]y∈(0,4]y\in (0,4]x−y∈(0,1]x−y∈(0,1]x-y\in(0,1]∫x0∫0x\int_0^x つまり、にはがあり(これが、一部が正しい理由です)、にがあり、 in。残念ながら、Mathematicaは後者の2つの積分の計算に失敗します(まあ、2番目の計算は、出力に虚数単位があり、すべてを損なうため... )。∫x0∫0x\int_0^xy∈(0,1]y∈(0,1]y\in(0,1]fff∫xx−1∫x−1x\int_{x-1}^xy∈(1,4]y∈(1,4]y\in(1,4]∫4x−1∫x−14\int_{x-1}^4y∈(4,5]y∈(4,5]y\in (4,5] 編集3: Mathematicaは次のコードで最後の3つの積分を計算できるようです: (1/4)*Integrate[((1-Sqrt[u1-u2])*Log[4/u2])/Sqrt[u1-u2],{u2,0,u1}, Assumptions ->0 <= u2 <= u1 && u1 > 0] (1/4)*Integrate[((1-Sqrt[u1-u2])*Log[4/u2])/Sqrt[u1-u2],{u2,u1-1,u1}, Assumptions -> 1 <= u2 <= 3 && u1 > 0] (1/4)*Integrate[((1-Sqrt[u1-u2])*Log[4/u2])/Sqrt[u1-u2],{u2,u1-1,4}, Assumptions -> 4 <= u2 <= 4 …

3
pdfとpmfとcdfには同じ情報が含まれていますか?
pdfとpmfとcdfには同じ情報が含まれていますか? 私にとって、pdfは特定のポイント(基本的には確率の下の領域)に確率全体を与えます。 pmfは、特定のポイントの確率を示します。 cdfは、特定のポイントの下での確率を​​示します。 だから私にはpdfとcdfは同じ情報を持っていますが、pmfはx分布上の点の確率を与えるのでそうではありません。

5
単変量のランダム変数の平均は、常にその分位数関数の積分に等しくなりますか?
単変量のランダム変数の分位関数(逆累積分布関数)をp = 0からp = 1に統合すると、変数の平均が生成されることに気付きました。私は今までこの関係について聞いたことがありませんので、私は不思議に思っています:これは常に事実ですか?もしそうなら、この関係は広く知られていますか? Pythonの例を次に示します。 from math import sqrt from scipy.integrate import quad from scipy.special import erfinv def normalPdf(x, mu, sigma): return 1.0 / sqrt(2.0 * pi * sigma**2.0) * exp(-(x - mu)**2.0 / (2.0 * sigma**2.0)) def normalQf(p, mu, sigma): return mu + sigma * sqrt(2.0) * erfinv(2.0 …

1
Rの密度関数から確率密度関数を見つける/推定する方法
X分布が不明なような変数があるとします。Mathematicaでは、SmoothKernelDensity関数を使用して推定密度関数を得ることができます。この推定密度関数は、「密度」がの結果であると仮定する形式のPDFような値の確率密度関数を計算する関数とともに使用できます。Rにそのような機能があれば良いでしょう。これがMathematicaでの動作です。XPDF[density,X]SmoothKernelDensity http://reference.wolfram.com/mathematica/ref/SmoothKernelDistribution.html 例として(Mathematica関数に基づいて): data = RandomVariate[NormalDistribution[], 100]; #generates 100 values from N(0,1) density= SmoothKernelDistribution[data]; #estimated density PDF[density, 2.345] returns 0.0588784 ここでは、PDFに関する詳細情報を見つけることができます。 http://reference.wolfram.com/mathematica/ref/PDF.html density(X)Rを使用して密度関数をプロットでき、その使用によりecdf(X)経験的累積分布関数を取得できることを知っていますが、Mathematicaについて説明した内容に基づいてRで同じことを行うことは可能ですか? どんな助けとアイデアも大歓迎です。
17 r  pdf  cdf 

4
どちらを信じるべきか:コルモゴロフ-スミルノフ検定またはQQプロット?
連続データのデータセットがパラメーターshape 1.7およびrate 0.000063のガンマ分布に従うかどうかを判断しようとしています。====== 問題は、Rを使用してデータセット QQプロットを作成するxxxして、理論的な分布ガンマ(1.7、0.000063)に対すると、経験データがガンマ分布とほぼ一致することを示すプロットが得られることです。ECDFプロットでも同じことが起こります。 私はコルモゴロフ-スミルノフ検定を実行するときしかし、それは私に不当に小さな与えの-値&lt; 1 %に。ppp&lt;1%&lt;1%<1\% どちらを信じるべきですか?グラフィック出力またはKSテストからの結果?

1
帰無仮説の下で交換可能なサンプルの背後にある直感は何ですか?
順列テスト(ランダム化テスト、再ランダム化テスト、または正確なテストとも呼ばれます)は非常に便利で、たとえば、必要な正規分布の仮定がt-test満たされていない場合や、ランク付けによる値の変換時に役立ちますノンパラメトリックテストのようにMann-Whitney-U-test、より多くの情報が失われます。ただし、この種の検定を使用する場合、帰無仮説の下でのサンプルの交換可能性の仮定は1つだけの仮定を見落とすべきではありません。coinRパッケージで実装されているようなサンプルが3つ以上ある場合にも、この種のアプローチを適用できることも注目に値します。 この仮定を説明するために、平易な英語で比fig的な言葉や概念的な直観を使ってください。これは、私のような非統計学者の間で見過ごされているこの問題を明確にするのに非常に役立つでしょう。 注: 置換テストの適用が同じ仮定の下で保持または無効にならない場合に言及することは非常に役立ちます。 更新: 私の地区の地元の診療所から無作為に50人の被験者を収集したとします。彼らは、1:1の比率で薬またはプラセボを無作為に割り当てられました。それらはすべてPar1、V1(ベースライン)、V2(3か月後)、およびV3(1年後)のパラメーター1について測定されました。50個の被験者はすべて、機能Aに基づいて2つのグループにサブグループ化できます。Aポジティブ= 20およびAネガティブ=30。これらは、機能Bに基づいて別の2つのグループにサブグループ化することもできます。Bポジティブ= 15およびBネガティブ=35 。今、私はPar1すべての訪問ですべての被験者からの値を持っています。交換可能性の仮定の下で、次のPar1場合に順列検定を使用するレベルを比較でき ますか?-薬物と被験者をV2でプラセボを投与した被験者と比較する ますか?-機能Aの対象とV2の機能Bの対象を比較しますか? -V2で機能Aを持つ対象とV3で機能Aを持つ対象を比較しますか? -この比較はどのような状況で無効であり、交換可能性の仮定に違反しますか?
15 hypothesis-testing  permutation-test  exchangeability  r  statistical-significance  loess  data-visualization  normal-distribution  pdf  ggplot2  kernel-smoothing  probability  self-study  expected-value  normal-distribution  prior  correlation  time-series  regression  heteroscedasticity  estimation  estimators  fisher-information  data-visualization  repeated-measures  binary-data  panel-data  mathematical-statistics  coefficient-of-variation  normal-distribution  order-statistics  regression  machine-learning  one-class  probability  estimators  forecasting  prediction  validation  finance  measurement-error  variance  mean  spatial  monte-carlo  data-visualization  boxplot  sampling  uniform  chi-squared  goodness-of-fit  probability  mixture  theory  gaussian-mixture  regression  statistical-significance  p-value  bootstrap  regression  multicollinearity  correlation  r  poisson-distribution  survival  regression  categorical-data  ordinal-data  ordered-logit  regression  interaction  time-series  machine-learning  forecasting  cross-validation  binomial  multiple-comparisons  simulation  false-discovery-rate  r  clustering  frequency  wilcoxon-mann-whitney  wilcoxon-signed-rank  r  svm  t-test  missing-data  excel  r  numerical-integration  r  random-variable  lme4-nlme  mixed-model  weighted-regression  power-law  errors-in-variables  machine-learning  classification  entropy  information-theory  mutual-information 

2
Rのカーネル密度推定の「pdf」の下の領域
Rの「密度」関数を使用してカーネル密度の推定を試みています。結果を解釈してさまざまなデータセットを比較するのは、曲線下の面積が必ずしも1であるとは限らないため、多少困難です。確率密度関数(pdf) には、面積。カーネル密度の推定値がpdfを報告すると仮定しています。私が使用していますintegrate.xyからsfsmisc曲線下面積を推定します。ϕ(x)ϕ(x)\phi(x)∫∞−∞ϕ(x)dx=1∫−∞∞ϕ(x)dx=1\int_{-\infty}^\infty \phi(x) dx = 1 &gt; # generate some data &gt; xx&lt;-rnorm(10000) &gt; # get density &gt; xy &lt;- density(xx) &gt; # plot it &gt; plot(xy) &gt; # load the library &gt; library(sfsmisc) &gt; integrate.xy(xy$x,xy$y) [1] 1.000978 &gt; # fair enough, area close to 1 &gt; # use another …

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.