統計とビッグデータ distributions

3

平均mと標準偏差sの正規分布に従ってデータを生成するブラックボックスがあるとします。ただし、それが0未満の値を出力する場合は常に何も記録しないと仮定します（そのような値が出力されたとさえ言えません）。スパイクのない打ち切りガウス分布があります。これらのパラメータをどのように推定できますか？

11 distributions estimation

1

R / mgcv：なぜte（）とti（）テンソル積が異なる表面を生成するのですか？

のmgcvパッケージにRは、テンソル積の相互作用をフィッティングするための2つの関数がte()ありti()ます。私は2つの作業の基本的な分業を理解しています（非線形の相互作用を当てはめるか、この相互作用を主効果と相互作用に分解するか）。私が理解していないのは、なぜte(x1, x2)、そしてti(x1) + ti(x2) + ti(x1, x2)（わずかに）異なる結果を生成するのかということです。 MWE（から適応?ti）： require(mgcv) test1 <- function(x,z,sx=0.3,sz=0.4) { x <- x*20 (pi**sx*sz)*(1.2*exp(-(x-0.2)^2/sx^2-(z-0.3)^2/sz^2)+ 0.8*exp(-(x-0.7)^2/sx^2-(z-0.8)^2/sz^2)) } n <- 500 x <- runif(n)/20;z <- runif(n); xs <- seq(0,1,length=30)/20;zs <- seq(0,1,length=30) pr <- data.frame(x=rep(xs,30),z=rep(zs,rep(30,30))) truth <- matrix(test1(pr$x,pr$z),30,30) f <- test1(x,z) y <- f + rnorm(n)*0.2 par(mfrow = c(2,2)) # …

11 r gam mgcv conditional-probability mixed-model references bayesian estimation conditional-probability machine-learning optimization gradient-descent r hypothesis-testing wilcoxon-mann-whitney time-series bayesian inference change-point time-series anova repeated-measures statistical-significance bayesian contingency-tables regression prediction quantiles classification auc k-means scikit-learn regression spatial circular-statistics t-test effect-size cohens-d r cross-validation feature-selection caret machine-learning modeling python optimization frequentist correlation sample-size normalization group-differences heteroscedasticity independence generalized-least-squares lme4-nlme references mcmc metropolis-hastings optimization r logistic feature-selection separation clustering k-means normal-distribution gaussian-mixture kullback-leibler java spark-mllib data-visualization categorical-data barplot hypothesis-testing statistical-significance chi-squared type-i-and-ii-errors pca scikit-learn conditional-expectation statistical-significance meta-analysis intuition r time-series multivariate-analysis garch machine-learning classification data-mining missing-data cart regression cross-validation matrix-decomposition categorical-data repeated-measures chi-squared assumptions contingency-tables prediction binary-data trend test-for-trend matrix-inverse anova categorical-data regression-coefficients standard-error r distributions exponential interarrival-time copula log-likelihood time-series forecasting prediction-interval mean standard-error meta-analysis meta-regression network-meta-analysis systematic-review normal-distribution multiple-regression generalized-linear-model poisson-distribution poisson-regression r sas cohens-kappa

1

直感的に、なぜクロスエントロピーは2つの確率分布の距離の尺度になるのでしょうか。

2つの離散分布および場合、クロスエントロピーは次のように定義されます。pppqqq H（p 、q）= − ∑バツp （x ）ログq（x ）。H（p、q）=−Σバツp（バツ）ログ⁡q（バツ）。H(p,q)=-\sum_x p(x)\log q(x). なぜこれが2つの確率分布間の距離を直感的に測定できるのでしょうか。私がいることがわかりエントロピーである、の対策「驚き」。、部分的に置き換える尺度であるすることにより。私はまだ定義の背後にある直感的な意味を理解していません。H（p 、p ）H（p、p）H(p,p)ppppppH（p 、q）H（p、q）H(p,q)pppqqq

11 probability distributions cross-entropy

2

log-oddsディストリビューションとは何ですか？

私は機械学習の教科書（Wittenらによるデータマイニング、2011年）を読んでいて、この箇所に出くわしました。 ...さらに、さまざまなディストリビューションを使用できます。通常、正規分布は数値属性には適していますが、最小値が事前に決定されているが上限はない属性には適していません。この場合、「対数正規」分布がより適切です。上と下にバインドされている数値属性は、「log-odds」分布によってモデル化できます。このディストリビューションについて聞いたことがありません。「log-odds distribution」を探しましたが、関連する完全一致は見つかりませんでした。誰かが私を助けてくれますか？この分布とは何ですか？なぜそれが上下の境界を持つ数値に役立つのですか？ PS私は統計学者ではなくソフトウェアエンジニアです。

11 machine-learning distributions

3

最小二乗法はいつ悪い考えですか？

回帰モデルがある場合： where and、Y= Xβ+ εY=Xβ+ε Y = X\beta + \varepsilon V [ε]=Id∈ Rn × nV[ε]=Id∈Rn×n\mathbb{V}[\varepsilon] = Id \in \mathcal{R} ^{n \times n}E [ε]=（0、…、0）E[ε]=(0,…,0)\mathbb{E}[\varepsilon]=(0, \ldots , 0) 使用するだろうというとき、通常の最小二乗推定量、推定のための貧しい人々の選択では？βOLSβOLS\beta_{\text{OLS}}ββ\beta 最小二乗法がうまく機能しない例を理解しようとしています。したがって、私は以前の仮説を満たしているが悪い結果をもたらすエラーの分布を探しています。分布のファミリーが平均と分散によって決定されるとしたら、それは素晴らしいことです。そうでなければ、それも大丈夫です。「悪い結果」は少し漠然としていることは知っていますが、理にかなっていると思います。混乱を避けるために、私は最小二乗法が最適ではなく、リッジ回帰のようなより良い推定量があることを知っています。しかし、それは私が目指していることではありません。最小二乗が不自然な例を挙げたいです。エラーベクトルは非凸領域にあると想像できますが、それについてはよくわかりません。ϵϵ\epsilonRnRn\mathbb{R}^n 編集1：回答を助けるためのアイデアとして（これをさらに進める方法がわからない）。は青です。したがって、線形不偏推定量が適切でない場合を考えると役立つ場合があります。βOLSβOLS\beta_{\text{OLS}} 編集2：ブライアンが指摘したように、条件が悪い場合、分散が大きすぎるためは悪い考えであり、代わりにリッジ回帰を使用する必要があります。私は、最小二乗法をうまく機能させないために、どの分布がであるべきかを知ることに興味があります。XX′XX′XX'βOLSβOLS\beta_{\text{OLS}}εε\varepsilon βOLS∼β+(X′X)−1X′εβOLS∼β+(X′X)−1X′ε\beta_{\text{OLS}} \sim \beta+(X'X)^{-1}X'\varepsilonこの推定器を非効率にするゼロ平均と恒等分散行列のある分布はありますか？εε\varepsilon

11 regression distributions least-squares

3

データがログの正規分布に適合するかどうかを確認するにはどうすればよいですか？

Rデータが対数正規分布またはパレート分布に適合しているかどうかを確認したい。どうすればできますか？おそらくks.test私はそれを行うのに役立つでしょうが、私のデータのパレート分布のおよびパラメータをどのように取得できますか？αα\alphakkk

11 r regression distributions lognormal pareto-distribution

1

それからの描画が別の事前に指定された分布からの描画と相関するような分布を定義するにはどうすればよいですか？

どのようにして確率変数の分布定義ないようから延伸ことYが有する相関ρとX 1、X 1は、累積分布関数を持つ分布から単一の延伸されF X（Xは）？ YYYYYYρρ\rhox1x1x_1x1x1x_1FX(x)FX(x)F_{X}(x)

11 distributions probability correlation random-variable conditional-probability

1

サンプルの分位点の代わりにコーニッシュフィッシャー拡張を使用する理由

コーニッシュフィッシャー展開は瞬間に基づく分布の分位数を推定する方法を提供します。（この意味で、モーメントに基づく累積分布の推定値を提供するEdgeworth Expansionを補完するものだと考えています。）経験的作業よりもコーニッシュフィッシャー展開を好む状況を知りたいのですが。サンプル分位、またはその逆。いくつかの推測：計算上、サンプルのモーメントはオンラインで計算できますが、サンプルの変位値のオンライン推定は困難です。この場合、CFが「勝つ」。瞬間を予測する機能があれば、CFにより、これらの予測を分位点推定に活用できます。 CF展開では、観測値の範囲外の変位値の推定値が得られる可能性がありますが、サンプル変位値はおそらくそうではありません。 CFによって与えられた変位値推定値の周囲の信頼区間を計算する方法を知りません。この場合、サンプル分位は「勝ち」ます。 CF展開では、分布のより高い複数のモーメントを推定する必要があるようです。これらの推定値のエラーは、CF拡張がサンプル分位点よりも高い標準エラーを持っているような方法でおそらく複合します。他のもの？これらの方法の両方を使用した経験がある人はいますか？

11 distributions quantiles finance

1

サンプルの算術平均が同じ分布に従うコーシー以外の分布はありますか？

場合次いで、コーシー分布に従うY = ˉ X = 1バツXXまた、全く同じ分布次Xを、このスレッドを参照してください。Y= X¯= 1んΣんi = 1バツ私Y=X¯=1n∑i=1nXiY = \bar{X} = \frac{1}{n} \sum_{i=1}^n X_iバツXX この物件に名前はありますか？これが当てはまる他のディストリビューションはありますか？編集この質問をする別の方法：せ確率密度を有するランダム変数であるF （X ）。バツXXf（x ）f(x)f(x) 聞かせて、Xiはi番目の観測表すXを。Y= 1んΣんi = 1バツ私Y=1n∑i=1nXiY=\frac 1 n\sum_{i=1} ^n X_iバツ私XiX_iバツXX 自体は、 Xの特定の値を条件とせずに、確率変数と見なすことができます。YYYバツXX がコーシー分布に従う場合、Yの確率密度関数はf （x ）です。バツXXYYYf(x)f(x)f(x) 用（非自明*）確率密度関数の他の種類がありでその結果Yは、の確率密度関数を有するF （xは）？f(x)f(x)f(x)YYYf(x)f(x)f(x) *私が考えることができる唯一の些細な例は、ディラックのデルタです。つまり、確率変数ではありません。

11 distributions expected-value central-limit-theorem cauchy

5

生成する方法

平均値0のシーケンスを生成する方法を知っています。たとえば、Matlab で長さ10000の± 1シーケンスを生成する場合は、次のようになります。±1±1\pm 1000±1±1\pm 1100001000010000 2*(rand(1, 10000, 1)<=.5)-1 ただし、平均0.05のシーケンスを生成する方法、つまり、1がわずかに好ましい場合はどうでしょうか。±1±1\pm 10.050.050.05111

11 distributions sampling random-generation

3

二変量二項分布を可視化する

質問： 3次元空間では2変量2項分布はどのように見えますか？以下は、パラメーターのさまざまな値について視覚化したい特定の関数です。つまり、、p 1、およびp 2です。nnnp1p1p_{1}p2p2p_{2} f(x1,x2)=n!x1!x2!px11px22,x1+x2=n,p1+p2=1.f(x1,x2)=n!x1!x2!p1x1p2x2,x1+x2=n,p1+p2=1.f(x_{1},x_{2}) = \frac{n!}{x_{1}!x_{2}!}p_{1}^{x_{1}}p_{2}^{x_{2}}, \qquad x_{1}+x_{2}=n, \quad p_{1}+p_{2}=1. 2つの制約があることに注意してください。およびp 1 + p 2 = 1です。さらに、nは正の整数、たとえば5です。x1+x2=nx1+x2=nx_{1}+x_{2}=np1+p2=1p1+p2=1p_{1}+p_{2}=1nnn555 LaTeX（TikZ / PGFPLOTS）を使用して関数をプロットする試みが2回行われました。そうすることで、、p 1 = 0.1とp 2 = 0.9、およびn = 5、p 1 = 0.4とp 2 = 0.6の値について、以下のグラフを取得します。ドメイン値に制約を実装することに成功していません。x 1 + x 2 = nなので、少し困惑しています。n=5n=5n=5p1=0.1p1=0.1p_{1}=0.1p2=0.9p2=0.9p_{2}=0.9n=5n=5n=5p1=0.4p1=0.4p_{1}=0.4p2=0.6p2=0.6p_{2}=0.6x1+x2=nx1+x2=nx_{1}+x_{2}=n 任意の言語（R、MATLABなど）で作成された視覚化は問題ありませんが、私はTikZ / PGFPLOTSを使用してLaTeXで作業しています。最初の試み、 p 1 = …

11 probability data-visualization binomial discrete-data distributions

1

非相関性が独立性を意味するのはどの分布ですか？

古くからある統計では、「無相関は独立を意味するものではありません」としています。通常、このリマインダーは、「2つの変数が一緒に正規分布しているにもかかわらず、無相関が独立性を暗示している」という心理的に心地よい（そして科学的に正しい）ステートメントで補足されます。幸せな例外の数を1から2に増やすことができます。2つの変数がベルヌーイ分布である場合、再び、無相関は独立性を意味します。場合とYは 2 Bermoulli RVの、あるX 〜B （q個のX）、XXXYYY、我々が持っているため、 P （X = 1 ）= E （X ）= Q 、X、および同様のための Y、それらの共分散でありますX∼B(qx),Y∼B(qy)X∼B(qx),Y∼B(qy)X \sim B(q_x),\; Y \sim B(q_y)P(X=1)=E(X)=qxP(X=1)=E(X)=qxP(X=1) = E(X) = q_xYYY Cov(X,Y)=E(XY)−E(X)E(Y)=∑SXYp(x,y)xy−qxqyCov⁡(X,Y)=E(XY)−E(X)E(Y)=∑SXYp(x,y)xy−qxqy\operatorname{Cov}(X,Y)= E(XY) - E(X)E(Y) = \sum_{S_{XY}}p(x,y)xy - q_xq_y =P(X=1,Y=1)−qxqy=P(X=1∣Y=1)P(Y=1)−qxqy=P(X=1,Y=1)−qxqy=P(X=1∣Y=1)P(Y=1)−qxqy = P(X=1,Y=1) - q_xq_y = P(X=1\mid Y=1)P(Y=1)-q_xq_y =(P(X=1∣Y=1)−qx)qy=(P(X=1∣Y=1)−qx)qy= \Big(P(X=1\mid Y=1)-q_x\Big)q_y 無相関のために、共分散がゼロである必要があります。 Cov(X,Y)=0⇒P(X=1∣Y=1)=P(X=1)Cov⁡(X,Y)=0⇒P(X=1∣Y=1)=P(X=1)\operatorname{Cov}(X,Y) = 0 …

11 probability distributions correlation mathematical-statistics independence

2

Rのロバストな多変量ガウスフィット

一般化されたガウス分布を、かなりの数の外れ値と高いレバレッジを含む7次元の点群に適合させる必要があります。この仕事に適したRパッケージを知っていますか？

11 r distributions normal-distribution robust

2

なぜマクネマーの検定は正規分布ではなくカイ二乗を使用するのですか？

正確でないマクネマーの検定がカイ二乗漸近分布をどのように使用するかに気づきました。しかし、正確な検定（2つのケースのテーブルの場合）は二項分布に依存しているため、二項分布の正規近似を提案することが一般的ではないのはなぜですか。ありがとう。

11 distributions binomial chi-squared normal-distribution

4

データをN個の等しいグループに分割

4つの列の値を含むデータフレームがあります。たとえば、次のようにID、price、click count、rating 私がしたいのは、このデータフレームをN個の異なるグループに「分割」して、各グループが同じ分布の価格、クリック数、および評価属性を持つ同じ数の行を持つことです。私はこれに取り組む方法について少しの考えもないので、アドバイスは強く感謝します！

11 r distributions

タグ付けされた質問 「distributions」

タグ付けされた質問「distributions」