タグ付けされた質問 「pdf」

連続確率変数の確率密度関数(PDF)は、可能な各値の相対確率を示します。このタグは、離散確率質量関数(PMF)にも使用します。

1
すべての可能なペアを使用して正規混合分布を作成する密度推定法の名前は何ですか?
私はちょうど一次元の密度推定値を作成するきちんとした(必ずしも良いとは限りません)方法を考えました、私の質問は: この密度推定方法には名前がありますか?そうでない場合、それは文献の他の方法の特殊なケースですか? ここでの方法である:我々は、ベクターが有するX=[x1,x2,...,xn]X=[x1,x2,...,xn]X = [x_1,x_2,...,x_n]は、推定したい未知の分布から引き出されたと仮定します。これを行う方法は、すべての可能な値のペアを取得し、各ペアに対してを最尤法を使用して正規分布に適合させることです。結果の密度推定値は、結果のすべての法線で構成される混合分布になり、各法線には同じ重みが与えられます。XXX[xi,xj]i≠j[xi,xj]i≠j[x_i,x_j]_{i \neq j} 次の図は、ベクトルこのメソッドを使用する方法を示しています。ここで、円はデータポイント、色付きの法線は可能な各ペアを使用して推定された最尤分布、太い黒線は結果の密度推定(混合分布)を示しています。[−1.3,0.15,0.73,1.4][−1.3,0.15,0.73,1.4][-1.3,0.15,0.73,1.4] ところで、結果の混合分布からサンプルを引き出すRのメソッドを実装するのは本当に簡単です。 # Generating some "data" x <- rnorm(30) # Drawing from the density estimate using the method described above. density_estimate_sample <- replicate(9999, { pair <- sample(x, size = 2) rnorm(1, mean(pair), sd(pair)) }) # Plotting the density estimate compared with # the …

5
非常に多数のデータポイントで値の代入を実行する方法は?
非常に大きなデータセットがあり、約5%のランダムな値が欠落しています。これらの変数は互いに相関しています。次のRデータセットの例は、ダミーの相関データを使用した単なるおもちゃの例です。 set.seed(123) # matrix of X variable xmat <- matrix(sample(-1:1, 2000000, replace = TRUE), ncol = 10000) colnames(xmat) <- paste ("M", 1:10000, sep ="") rownames(xmat) <- paste("sample", 1:200, sep = "") #M variables are correlated N <- 2000000*0.05 # 5% random missing values inds <- round ( runif(N, 1, length(xmat)) …
12 r  random-forest  missing-data  data-imputation  multiple-imputation  large-data  definition  moving-window  self-study  categorical-data  econometrics  standard-error  regression-coefficients  normal-distribution  pdf  lognormal  regression  python  scikit-learn  interpolation  r  self-study  poisson-distribution  chi-squared  matlab  matrix  r  modeling  multinomial  mlogit  choice  monte-carlo  indicator-function  r  aic  garch  likelihood  r  regression  repeated-measures  simulation  multilevel-analysis  chi-squared  expected-value  multinomial  yates-correction  classification  regression  self-study  repeated-measures  references  residuals  confidence-interval  bootstrap  normality-assumption  resampling  entropy  cauchy  clustering  k-means  r  clustering  categorical-data  continuous-data  r  hypothesis-testing  nonparametric  probability  bayesian  pdf  distributions  exponential  repeated-measures  random-effects-model  non-independent  regression  error  regression-to-the-mean  correlation  group-differences  post-hoc  neural-networks  r  time-series  t-test  p-value  normalization  probability  moments  mgf  time-series  model  seasonality  r  anova  generalized-linear-model  proportion  percentage  nonparametric  ranks  weighted-regression  variogram  classification  neural-networks  fuzzy  variance  dimensionality-reduction  confidence-interval  proportion  z-test  r  self-study  pdf 

1
RのPROC Mixedとlme / lmerの違い-自由度
注:法的な理由で以前の質問を削除する必要があったため、この質問は再投稿です。 SASのPROC MIXED をR lmeのnlmeパッケージの関数と比較していると、やや紛らわしい違いを見つけました。より具体的には、異なるテストの自由度はとの間PROC MIXEDで異なり、lmeなぜだろうと思いました。 次のデータセットから開始します(以下のRコード)。 ind:測定が行われる個人を示す因子 fac:測定が行われる臓器 trt:治療を示す因子 y:連続応答変数 アイデアは、次の単純なモデルを構築することです: y ~ trt + (ind):indランダムな要因として y ~ trt + (fac(ind)):facにネストされたindランダムな要因として、 最後のモデルでは特異性が生じることに注意してください。とのyすべての組み合わせに対しての値は1つだけです。indfac 最初のモデル SASでは、次のモデルを作成します。 PROC MIXED data=Data; CLASS ind fac trt; MODEL y = trt /s; RANDOM ind /s; run; チュートリアルによると、使用しているRの同じモデルnlmeは次のようになります。 > require(nlme) > options(contrasts=c(factor="contr.SAS",ordered="contr.poly")) > m2<-lme(y~trt,random=~1|ind,data=Data) 両方のモデルは、係数とそのSEに対して同じ推定値を与えますがtrt、の効果に対してF検定を実行する場合、異なる自由度を使用します。 SAS …
12 r  mixed-model  sas  degrees-of-freedom  pdf  unbiased-estimator  distance-functions  functional-data-analysis  hellinger  time-series  outliers  c++  relative-risk  absolute-risk  rare-events  regression  t-test  multiple-regression  survival  teaching  multiple-regression  regression  self-study  t-distribution  machine-learning  recommender-system  self-study  binomial  standard-deviation  data-visualization  r  predictive-models  pearson-r  spearman-rho  r  regression  modeling  r  categorical-data  data-visualization  ggplot2  many-categories  machine-learning  cross-validation  weka  microarray  variance  sampling  monte-carlo  regression  cross-validation  model-selection  feature-selection  elastic-net  distance-functions  information-theory  r  regression  mixed-model  random-effects-model  fixed-effects-model  dataset  data-mining 

1
背の高い長方形行列による確率変数の線形変換
確率密度関数を持つ分布から引き出されたランダムなベクトルがあるとしましょう。我々は直線フルランク、それを変換した場合行列取得するその後の密度によって与えられる。F → X( → X)N×NA → Y =A → X → Y F → Y( → Y)=1バツ⃗ ∈ RんX→∈Rn\vec{X} \in \mathbb{R}^nfバツ⃗ (x⃗ )fX→(x→)f_\vec{X}(\vec{x})n × nn×nn \times nあAAY⃗ = A X⃗ Y→=AX→\vec{Y} = A\vec{X}Y⃗ Y→\vec{Y}fY⃗ (y⃗ )= 1| det A |fバツ⃗ (A− 1y⃗ )。fY→(y→)=1|detA|fX→(A−1y→). f_{\vec{Y}}(\vec{y}) = \frac{1}{\left|\det A\right|}f_{\vec{X}}(A^{-1}\vec{y}). ここで、代わりにバツ⃗ X→\vec{X}をm × …

1
Yの密度=ガンマ分布Xのlog(X)
この質問はこの投稿に密接に関連しています ランダム変数、を定義するとします。確率密度関数を見つけたいのですが。X∼Gamma(k,θ)X∼Gamma(k,θ)X \sim \text{Gamma}(k, \theta)Y=log(X)Y=log⁡(X)Y = \log(X)YYY 私は当初、累積分布関数Xを定義し、変数を変更し、積分の「内側」を密度として取ると思っていました。 P(X≤c)P(Y≤logc)=∫c01θk1Γ(k)xk−1e−xθdx=∫log(c)log(0)1θk1Γ(k)exp(y)k−1e−exp(y)θexp(y)dyP(X≤c)=∫0c1θk1Γ(k)xk−1e−xθdxP(Y≤log⁡c)=∫log⁡(0)log⁡(c)1θk1Γ(k)exp⁡(y)k−1e−exp⁡(y)θexp⁡(y)dy\begin{align} P(X \le c) & = \int_{0}^{c} \frac{1}{\theta^k} \frac{1}{\Gamma(k)} x^{k- 1} e^{-\frac{x}{\theta}} dx \\ P(Y \le \log c) & = \int_{\log(0)}^{\log(c)} \frac{1}{\theta^k} \frac{1}{\Gamma(k)} \exp(y)^{k- 1} e^{-\frac{\exp(y)}{\theta}} \exp(y) dy \\ \end{align} ここでは、と、と定義に観点からsubを使用しています。y=logxy=log⁡xy = \log xdy=1xdxdy=1xdxdy = \frac{1}{x} dxxxxdxdxdxyyy 残念ながら、出力は1に統合されません。間違いがどこにあるのかわかりません。誰かが私のエラーの場所を教えてもらえますか?

1
最初のk(経験的)モーメントを使用して、近似PDF(つまり、密度推定)をフィットさせる方法は?
データセットの(最初の)モーメントを推定できる状況があり、それを使用して密度関数の推定を生成したいと考えています。kkk 私はすでにピアソン分布に出くわしましたが、それが最初の4つのモーメントのみに依存していることを認識しました(モーメントの可能な組み合わせにいくつかの制限があります)。 さらに、仮定を使用しない場合、有限のモーメントセットは特定の分布を「固定」するのに十分ではないことも理解しています。ただし、(ピアソンファミリーのディストリビューション以外の)より一般的なクラスのディストリビューションを希望します。他の質問を見て、私はそのような分布を見つけることができませんでした(参照:ここ、ここ、ここ、ここ、ここ、ここ、およびここ)。 モーメントの任意のセットに対して定義できるいくつかの(「単純な」)一般化された分布ファミリーはありますか?(標準の正規分布を取り、モーメントのすべてのセットで確認されるまで変換する一連の変換)kkkkkkk (他のモーメントが0であると仮定しても、あまり気にしません)k+1…∞k+1…∞k+1\ldots\infty ありがとう。 ps:私は、拡張された例を喜んでいます。Rコードの例が望ましい。

1
共分散、相互共分散、自己相関/相互相関、パワースペクトル密度を直感的に理解
現在、ECE学士号の基本統計のファイナルを勉強しています。 数学はほとんど落ち込んでいると思いますが、数字が実際に何を意味するのかを直感的に理解できていません。 E [X]は、確率で重み付けされたXのすべての結果の「加重平均」です。 Var [X]は、E [X]の2乗から予想される分散を与えるため、分布の「ぼやけ」について何かを教えてくれます。 他のプロパティは式を知っていますが、直感に欠けています。誰かがそれを助けるための良い説明/リソースを持っていますか?

5
二変量正規分布データから楕円領域を取得する方法は?
私は次のようなデータを持っています: 私は正規分布を適用しようとしました(カーネル密度の推定はうまく機能しますが、それほど高い精度は必要ありません)。これは非常にうまく機能します。密度プロットは楕円を作成します。 その楕円関数を取得して、点が楕円の領域内にあるかどうかを判断する必要があります。どうやってするか? RまたはMathematicaコードを歓迎します。
11 r  regression  pdf  bivariate 

5
連続確率変数が固定小数点をとる確率
私は、連続確率変数の確率密度関数は次のように定義された入門統計クラスにいる。私は理解しているの積分∫ F (X )D 、X = 0P{X∈B}=∫Bf(x)dxP{X∈B}=∫Bf(x)dxP\left\{X\in B\right\}=\int_B f\left(x\right)dx∫aaf(x)dx=0∫aaf(x)dx=0\int\limits_a^af(x)dx=0しかし、これは連続確率変数の直感では修正できません。Xとは、列車が到着する時刻tからの分数に等しい確率変数です。電車が今からちょうど5分後に到着する確率を計算するにはどうすればよいですか?この確率をゼロにするにはどうすればよいですか?それは不可能ですか?列車が今からちょうど5分後に到着した場合、確率0の場合にどうなるでしょうか。 ありがとう。

1
シグモイド曲線の直線部分の勾配の推定
私はこの仕事を与えられて困惑しました。同僚から、次のグラフのとx l o w e rを推定するように依頼されました。xupperxupperx_{upper}xlowerxlowerx_{lower} 曲線は実際には累積分布であり、xはある種の測定値です。彼は、累積関数が直線になり始め、直線から逸脱したときのxの対応する値を知りたいと思っています。 微分を使用してポイントの勾配を見つけることができることは理解していますが、直線をいつ呼び出すことができるかを判断する方法がわかりません。いくつかの既存のアプローチ/文学への少しのナッジは非常に高く評価されます。 この種の調査で関連するパッケージや例を知っていたら、Rも知っています。 どうもありがとう。 更新 Floundererのおかげで、作業をさらに拡張し、フレームワークを設定し、あちこちでパラメーターをいじくり回すことができました。学習目的のために、ここに私の現在のコードとグラフィック出力があります。 library(ESPRESSO) x <- skew.rnorm(800, 150, 5, 3) x <- sort(x) meanX <- mean(x) sdX <- sd(x) stdX <- (x-meanX)/sdX y <- pnorm(stdX) par(mfrow=c(2,2), mai=c(1,1,0.3,0.3)) hist(x, col="#03718750", border="white", main="") nq <- diff(y)/diff(x) plot.ts(nq, col="#6dc03480") log.nq <- log(nq) low <- …


3
が連続で
言うYYY連続確率変数であり、そしてXXX離散的なものです。 Pr(X=x|Y=y)=Pr(X=x)Pr(Y=y|X=x)Pr(Y=y)Pr(X=x|Y=y)=Pr(X=x)Pr(Y=y|X=x)Pr(Y=y) \Pr(X=x|Y=y) = \frac{\Pr(X=x)\Pr(Y=y|X=x)}{\Pr(Y=y)} ご存知のように、Yは連続確率変数であるため、です。そして、これに基づいて、確率Pr (X = x | Y = y )は未定義であると結論づけたくなります。Pr(Y=y)=0Pr(Y=y)=0\Pr(Y=y) = 0YYYPr(X=x|Y=y)Pr(X=x|Y=y)\Pr(X=x|Y=y) しかし、ウィキペディアはここに主張する:以下のように、それが実際に定義されていること Pr(X=x|Y=y)=Pr(X=x)fY|X=x(y)fY(y)Pr(X=x|Y=y)=Pr(X=x)fY|X=x(y)fY(y) \Pr(X=x|Y=y) = \frac{\Pr(X=x) f_{Y|X=x}(y)}{f_Y(y)} 質問:ウィキペディアがその確率を定義するためにどのように管理したのですか? 私の試み 制限に関してWikipediaの結果を取得するための私の試みは次のとおりです: Pr(X=x|Y=y)=Pr(X=x)Pr(Y=y|X=x)Pr(Y=y)=limd→0Pr(X=x)(d×fY|X=x(y))(d×fY(y))=limd→0Pr(X=x)(d×fY|X=x(y))(d×fY(y))=Pr(X=x)fY|X=x(y)fY(y)Pr(X=x|Y=y)=Pr(X=x)Pr(Y=y|X=x)Pr(Y=y)=limd→0Pr(X=x)(d×fY|X=x(y))(d×fY(y))=limd→0Pr(X=x)(d×fY|X=x(y))(d×fY(y))=Pr(X=x)fY|X=x(y)fY(y)\begin{split}\require{cancel} \Pr(X=x|Y=y) &= \frac{\Pr(X=x)\Pr(Y=y|X=x)}{\Pr(Y=y)}\\ &= \lim_{d \rightarrow 0}\frac{\Pr(X=x) \big(d \times f_{Y|X=x}(y)\big)}{\big(d \times f_Y(y)\big)}\\ &= \lim_{d \rightarrow 0}\frac{\Pr(X=x) \big(\cancel{d} \times f_{Y|X=x}(y)\big)}{\big(\cancel{d} \times f_Y(y)\big)}\\ &= \frac{\Pr(X=x) f_{Y|X=x}(y)}{f_Y(y)}\\ …

1
なぜ(は打ち切られている)なのか
問題セットで私はこの「補題」を証明しましたが、その結果は私には直観的ではありません。は、打ち切りモデルの標準正規分布です。ZZZ 正式には、 、およびです。次に、 したがって、切り捨てられたドメインの期待値の式と切り捨てのポイントでの密度間には、何らかの関係があります。誰かがこの背後にある直感を説明できますか?Z∗∼Norm(0,σ2)Z∗∼Norm(0,σ2)Z^* \sim Norm(0, \sigma^2)Z=max(Z∗,c)Z=max(Z∗,c)Z = max(Z^*, c)(c)E[Z|Z>c]=∫∞cziϕ(zi)dzi=12π−−√∫∞cziexp(−12z2i)dzi=12π−−√exp(−12c2) (Integration by substitution)=ϕ(c)E[Z|Z>c]=∫c∞ziϕ(zi)dzi=12π∫c∞ziexp(−12zi2)dzi=12πexp(−12c2) (Integration by substitution)=ϕ(c)\begin{align} E[Z|Z>c] &= \int_c^\infty z_i \phi({z_i})\mathrm{d}z_i \\ &= \frac{1}{\sqrt{2\pi}}\int_c^\infty z_i \exp\!\bigg(\frac{-1}{2}z_i^2\bigg)\mathrm{d}z_i \\ &= \frac{1}{\sqrt{2\pi}} \exp\!\bigg(\frac{-1}{2}c^2\bigg) \quad\quad\quad\quad\text{ (Integration by substitution)}\\ &= \phi(c) \end{align}(c)(c)(c)

2
非対称分布のカーネル密度推定
ましょう不明(確かに非対称)確率分布から引き出される観測。{ x1、… 、xN}{バツ1、…、バツN}\{x_1,\ldots,x_N\} 私はKDEのアプローチを使用して確率分布を見つけたい ただし、ガウスカーネルを使用しようとしましたが、対称であるため、パフォーマンスが低下しました。したがって、ガンマカーネルとベータカーネルに関するいくつかの作業がリリースされたことがわかりましたが、それらの操作方法はわかりませんでした。f^(x )= 1NhΣi = 1NK( x − x私h)f^(バツ)=1NhΣ私=1NK(バツ−バツ私h) \hat{f}(x) = \frac{1}{Nh}\sum_{i=1}^{N} K\bigl(\frac{x-x_i}{h}\bigr) 私の質問は次のとおりです。基礎となる分布のサポートが区間でないとすると、この非対称のケースを処理する方法を?[ 0 、1 ][0、1][0,1]

1
条件付き密度プロットの解釈
条件付き密度プロットを正しく解釈する方法を教えてください。でRで作成したものを2つ挿入しましたcdplot。 たとえば、変数1が150の場合、結果が1になる確率は約80%ですか? 濃い灰色の領域は、条件付き確率がResult1に等しい確率です。 cdplotドキュメントから: cdplotは、yの周辺分布によって重み付けされたyのレベルを指定して、xの条件付き密度を計算します。密度は、yのレベルにわたって累積的に導出されます。 この累積は、これらのプロットの解釈にどのように影響しますか?

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.