タグ付けされた質問 「distributions」

分布は、確率または頻度の数学的記述です。

3
スパイクなしの打ち切られたガウス曲線の平均とst devの推定
平均mと標準偏差sの正規分布に従ってデータを生成するブラックボックスがあるとします。ただし、それが0未満の値を出力する場合は常に何も記録しないと仮定します(そのような値が出力されたとさえ言えません)。スパイクのない打ち切りガウス分布があります。 これらのパラメータをどのように推定できますか?

1
R / mgcv:なぜte()とti()テンソル積が異なる表面を生成するのですか?
のmgcvパッケージにRは、テンソル積の相互作用をフィッティングするための2つの関数がte()ありti()ます。私は2つの作業の基本的な分業を理解しています(非線形の相互作用を当てはめるか、この相互作用を主効果と相互作用に分解するか)。私が理解していないのは、なぜte(x1, x2)、そしてti(x1) + ti(x2) + ti(x1, x2)(わずかに)異なる結果を生成するのかということです。 MWE(から適応?ti): require(mgcv) test1 <- function(x,z,sx=0.3,sz=0.4) { x <- x*20 (pi**sx*sz)*(1.2*exp(-(x-0.2)^2/sx^2-(z-0.3)^2/sz^2)+ 0.8*exp(-(x-0.7)^2/sx^2-(z-0.8)^2/sz^2)) } n <- 500 x <- runif(n)/20;z <- runif(n); xs <- seq(0,1,length=30)/20;zs <- seq(0,1,length=30) pr <- data.frame(x=rep(xs,30),z=rep(zs,rep(30,30))) truth <- matrix(test1(pr$x,pr$z),30,30) f <- test1(x,z) y <- f + rnorm(n)*0.2 par(mfrow = c(2,2)) # …
11 r  gam  mgcv  conditional-probability  mixed-model  references  bayesian  estimation  conditional-probability  machine-learning  optimization  gradient-descent  r  hypothesis-testing  wilcoxon-mann-whitney  time-series  bayesian  inference  change-point  time-series  anova  repeated-measures  statistical-significance  bayesian  contingency-tables  regression  prediction  quantiles  classification  auc  k-means  scikit-learn  regression  spatial  circular-statistics  t-test  effect-size  cohens-d  r  cross-validation  feature-selection  caret  machine-learning  modeling  python  optimization  frequentist  correlation  sample-size  normalization  group-differences  heteroscedasticity  independence  generalized-least-squares  lme4-nlme  references  mcmc  metropolis-hastings  optimization  r  logistic  feature-selection  separation  clustering  k-means  normal-distribution  gaussian-mixture  kullback-leibler  java  spark-mllib  data-visualization  categorical-data  barplot  hypothesis-testing  statistical-significance  chi-squared  type-i-and-ii-errors  pca  scikit-learn  conditional-expectation  statistical-significance  meta-analysis  intuition  r  time-series  multivariate-analysis  garch  machine-learning  classification  data-mining  missing-data  cart  regression  cross-validation  matrix-decomposition  categorical-data  repeated-measures  chi-squared  assumptions  contingency-tables  prediction  binary-data  trend  test-for-trend  matrix-inverse  anova  categorical-data  regression-coefficients  standard-error  r  distributions  exponential  interarrival-time  copula  log-likelihood  time-series  forecasting  prediction-interval  mean  standard-error  meta-analysis  meta-regression  network-meta-analysis  systematic-review  normal-distribution  multiple-regression  generalized-linear-model  poisson-distribution  poisson-regression  r  sas  cohens-kappa 

1
直感的に、なぜクロスエントロピーは2つの確率分布の距離の尺度になるのでしょうか。
2つの離散分布および場合、クロスエントロピーは次のように定義されます。pppqqq H(p 、q)= − ∑バツp (x )ログq(x )。H(p、q)=−Σバツp(バツ)ログ⁡q(バツ)。H(p,q)=-\sum_x p(x)\log q(x). なぜこれが2つの確率分布間の距離を直感的に測定できるのでしょうか。 私がいることがわかりエントロピーである、の対策「驚き」。、部分的に置き換える尺度であるすることにより。私はまだ定義の背後にある直感的な意味を理解していません。H(p 、p )H(p、p)H(p,p)ppppppH(p 、q)H(p、q)H(p,q)pppqqq

2
log-oddsディストリビューションとは何ですか?
私は機械学習の教科書(Wittenらによるデータマイニング、2011年)を読んでいて、この箇所に出くわしました。 ...さらに、さまざまなディストリビューションを使用できます。通常、正規分布は数値属性には適していますが、最小値が事前に決定されているが上限はない属性には適していません。この場合、「対数正規」分布がより適切です。上と下にバインドされている数値属性は、「log-odds」分布によってモデル化できます。 このディストリビューションについて聞いたことがありません。「log-odds distribution」を探しましたが、関連する完全一致は見つかりませんでした。誰かが私を助けてくれますか?この分布とは何ですか?なぜそれが上下の境界を持つ数値に役立つのですか? PS私は統計学者ではなくソフトウェアエンジニアです。

3
最小二乗法はいつ悪い考えですか?
回帰モデルがある場合: where and、Y= Xβ+ εY=Xβ+ε Y = X\beta + \varepsilon V [ε]=Id∈ Rn × nV[ε]=Id∈Rn×n\mathbb{V}[\varepsilon] = Id \in \mathcal{R} ^{n \times n}E [ε]=(0、…、0)E[ε]=(0,…,0)\mathbb{E}[\varepsilon]=(0, \ldots , 0) 使用するだろうというとき、通常の最小二乗推定量、推定のための貧しい人々の選択では?βOLSβOLS\beta_{\text{OLS}}ββ\beta 最小二乗法がうまく機能しない例を理解しようとしています。したがって、私は以前の仮説を満たしているが悪い結果をもたらすエラーの分布を探しています。分布のファミリーが平均と分散によって決定されるとしたら、それは素晴らしいことです。そうでなければ、それも大丈夫です。 「悪い結果」は少し漠然としていることは知っていますが、理にかなっていると思います。 混乱を避けるために、私は最小二乗法が最適ではなく、リッジ回帰のようなより良い推定量があることを知っています。しかし、それは私が目指していることではありません。最小二乗が不自然な例を挙げたいです。 エラーベクトルは非凸領域にあると想像できますが、それについてはよくわかりません。ϵϵ\epsilonRnRn\mathbb{R}^n 編集1:回答を助けるためのアイデアとして(これをさらに進める方法がわからない)。は青です。したがって、線形不偏推定量が適切でない場合を考えると役立つ場合があります。βOLSβOLS\beta_{\text{OLS}} 編集2:ブライアンが指摘したように、条件が悪い場合、分散が大きすぎるためは悪い考えであり、代わりにリッジ回帰を使用する必要があります。私は、最小二乗法をうまく機能させないために、どの分布がであるべきかを知ることに興味があります。XX′XX′XX'βOLSβOLS\beta_{\text{OLS}}εε\varepsilon βOLS∼β+(X′X)−1X′εβOLS∼β+(X′X)−1X′ε\beta_{\text{OLS}} \sim \beta+(X'X)^{-1}X'\varepsilonこの推定器を非効率にするゼロ平均と恒等分散行列のある分布はありますか?εε\varepsilon

3
データがログの正規分布に適合するかどうかを確認するにはどうすればよいですか?
Rデータが対数正規分布またはパレート分布に適合しているかどうかを確認したい。どうすればできますか?おそらくks.test私はそれを行うのに役立つでしょうが、私のデータのパレート分布のおよびパラメータをどのように取得できますか?αα\alphakkk


1
サンプルの分位点の代わりにコーニッシュフィッシャー拡張を使用する理由
コーニッシュフィッシャー展開は瞬間に基づく分布の分位数を推定する方法を提供します。(この意味で、モーメントに基づく累積分布の推定値を提供するEdgeworth Expansionを補完するものだと考えています。)経験的作業よりもコーニッシュフィッシャー展開を好む状況を知りたいのですが。サンプル分位、またはその逆。いくつかの推測: 計算上、サンプルのモーメントはオンラインで計算できますが、サンプルの変位値のオンライン推定は困難です。この場合、CFが「勝つ」。 瞬間を予測する機能があれば、CFにより、これらの予測を分位点推定に活用できます。 CF展開では、観測値の範囲外の変位値の推定値が得られる可能性がありますが、サンプル変位値はおそらくそうではありません。 CFによって与えられた変位値推定値の周囲の信頼区間を計算する方法を知りません。この場合、サンプル分位は「勝ち」ます。 CF展開では、分布のより高い複数のモーメントを推定する必要があるようです。これらの推定値のエラーは、CF拡張がサンプル分位点よりも高い標準エラーを持っているような方法でおそらく複合します。 他のもの?これらの方法の両方を使用した経験がある人はいますか?

1
サンプルの算術平均が同じ分布に従うコーシー以外の分布はありますか?
場合次いで、コーシー分布に従うY = ˉ X = 1バツXXまた、全く同じ分布次Xを、このスレッドを参照してください。Y= X¯= 1んΣんi = 1バツ私Y=X¯=1n∑i=1nXiY = \bar{X} = \frac{1}{n} \sum_{i=1}^n X_iバツXX この物件に名前はありますか? これが当てはまる他のディストリビューションはありますか? 編集 この質問をする別の方法: せ確率密度を有するランダム変数であるF (X )。バツXXf(x )f(x)f(x) 聞かせて、Xiはi番目の観測表すXを。Y= 1んΣんi = 1バツ私Y=1n∑i=1nXiY=\frac 1 n\sum_{i=1} ^n X_iバツ私XiX_iバツXX 自体は、 Xの特定の値を条件とせずに、確率変数と見なすことができます。YYYバツXX がコーシー分布に従う場合、Yの確率密度関数はf (x )です。バツXXYYYf(x)f(x)f(x) 用(非自明*)確率密度関数の他の種類がありでその結果Yは、の確率密度関数を有するF (xは)?f(x)f(x)f(x)YYYf(x)f(x)f(x) *私が考えることができる唯一の些細な例は、ディラックのデルタです。つまり、確率変数ではありません。

5
生成する方法
平均値0のシーケンスを生成する方法を知っています。たとえば、Matlab で長さ10000の± 1シーケンスを生成する場合は、次のようになります。±1±1\pm 1000±1±1\pm 1100001000010000 2*(rand(1, 10000, 1)<=.5)-1 ただし、平均0.05のシーケンスを生成する方法、つまり、1がわずかに好ましい場合はどうでしょうか。±1±1\pm 10.050.050.05111

3
二変量二項分布を可視化する
質問: 3次元空間では2変量2項分布はどのように見えますか? 以下は、パラメーターのさまざまな値について視覚化したい特定の関数です。つまり、、p 1、およびp 2です。nnnp1p1p_{1}p2p2p_{2} f(x1,x2)=n!x1!x2!px11px22,x1+x2=n,p1+p2=1.f(x1,x2)=n!x1!x2!p1x1p2x2,x1+x2=n,p1+p2=1.f(x_{1},x_{2}) = \frac{n!}{x_{1}!x_{2}!}p_{1}^{x_{1}}p_{2}^{x_{2}}, \qquad x_{1}+x_{2}=n, \quad p_{1}+p_{2}=1. 2つの制約があることに注意してください。およびp 1 + p 2 = 1です。さらに、nは正の整数、たとえば5です。x1+x2=nx1+x2=nx_{1}+x_{2}=np1+p2=1p1+p2=1p_{1}+p_{2}=1nnn555 LaTeX(TikZ / PGFPLOTS)を使用して関数をプロットする試みが2回行われました。そうすることで、、p 1 = 0.1とp 2 = 0.9、およびn = 5、p 1 = 0.4とp 2 = 0.6の値について、以下のグラフを取得します。ドメイン値に制約を実装することに成功していません。x 1 + x 2 = nなので、少し困惑しています。n=5n=5n=5p1=0.1p1=0.1p_{1}=0.1p2=0.9p2=0.9p_{2}=0.9n=5n=5n=5p1=0.4p1=0.4p_{1}=0.4p2=0.6p2=0.6p_{2}=0.6x1+x2=nx1+x2=nx_{1}+x_{2}=n 任意の言語(R、MATLABなど)で作成された視覚化は問題ありませんが、私はTikZ / PGFPLOTSを使用してLaTeXで作業しています。 最初の試み 、 p 1 = …

1
非相関性が独立性を意味するのはどの分布ですか?
古くからある統計では、「無相関は独立を意味するものではありません」としています。通常、このリマインダーは、「2つの変数が一緒に正規分布しているにもかかわらず、無相関が独立性を暗示している」という心理的に心地よい(そして科学的に正しい)ステートメントで補足されます。 幸せな例外の数を1から2に増やすことができます。2つの変数がベルヌーイ分布である場合、再び、無相関は独立性を意味します。場合とYは 2 Bermoulli RVの、あるX 〜B (q個のX)、XXXYYY、我々が持っているため、 P (X = 1 )= E (X )= Q 、X、および同様のための Y、それらの共分散でありますX∼B(qx),Y∼B(qy)X∼B(qx),Y∼B(qy)X \sim B(q_x),\; Y \sim B(q_y)P(X=1)=E(X)=qxP(X=1)=E(X)=qxP(X=1) = E(X) = q_xYYY Cov(X,Y)=E(XY)−E(X)E(Y)=∑SXYp(x,y)xy−qxqyCov⁡(X,Y)=E(XY)−E(X)E(Y)=∑SXYp(x,y)xy−qxqy\operatorname{Cov}(X,Y)= E(XY) - E(X)E(Y) = \sum_{S_{XY}}p(x,y)xy - q_xq_y =P(X=1,Y=1)−qxqy=P(X=1∣Y=1)P(Y=1)−qxqy=P(X=1,Y=1)−qxqy=P(X=1∣Y=1)P(Y=1)−qxqy = P(X=1,Y=1) - q_xq_y = P(X=1\mid Y=1)P(Y=1)-q_xq_y =(P(X=1∣Y=1)−qx)qy=(P(X=1∣Y=1)−qx)qy= \Big(P(X=1\mid Y=1)-q_x\Big)q_y 無相関のために、共分散がゼロである必要があります。 Cov(X,Y)=0⇒P(X=1∣Y=1)=P(X=1)Cov⁡(X,Y)=0⇒P(X=1∣Y=1)=P(X=1)\operatorname{Cov}(X,Y) = 0 …


2
なぜマクネマーの検定は正規分布ではなくカイ二乗を使用するのですか?
正確でないマクネマーの検定がカイ二乗漸近分布をどのように使用するかに気づきました。しかし、正確な検定(2つのケースのテーブルの場合)は二項分布に依存しているため、二項分布の正規近似を提案することが一般的ではないのはなぜですか。 ありがとう。

4
データをN個の等しいグループに分割
4つの列の値を含むデータフレームがあります。 たとえば、次のようにID、price、click count、rating 私がしたいのは、このデータフレームをN個の異なるグループに「分割」して、各グループが同じ分布の価格、クリック数、および評価属性を持つ同じ数の行を持つことです。 私はこれに取り組む方法について少しの考えもないので、アドバイスは強く感謝します!
11 r  distributions 

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.