統計とビッグデータ

統計、機械学習、データ分析、データマイニング、およびデータの視覚化に興味がある人のためのQ&A

8
時系列分析の落とし穴
時系列分析で自己学習を始めたばかりです。一般的な統計には当てはまらない潜在的な落とし穴がいくつかあることに気付きました。それで、一般的な統計的罪とは何ですか?、 私は質問したい: 時系列分析における一般的な落とし穴または統計的な罪とは何ですか? これは、コミュニティWikiであり、回答ごとに1つの概念があります。一般的な統計上の罪とは何ですか?

3
条件付きガウス分布の背後にある直感とは何ですか?
と仮定します。その後の条件付き分布と仮定多変量通常、平均して分布しています。X∼N2(μ,Σ)X∼N2(μ,Σ)\mathbf{X} \sim N_{2}(\mathbf{\mu}, \mathbf{\Sigma})X1X1X_1X2=x2X2=x2X_2 = x_2 E[P(X1|X2=x2)]=μ1+σ12σ22(x2−μ2)E[P(X1|X2=x2)]=μ1+σ12σ22(x2−μ2) E[P(X_1 | X_2 = x_2)] = \mu_1+\frac{\sigma_{12}}{\sigma_{22}}(x_2-\mu_2) および分散:Var[P(X1|X2=x2)]=σ11−σ212σ22Var[P(X1|X2=x2)]=σ11−σ122σ22{\rm Var}[P(X_1 | X_2 = x_2)] = \sigma_{11}-\frac{\sigma_{12}^{2}}{\sigma_{22}} より多くの情報があるため、分散が減少することは理にかなっています。しかし、平均式の背後にある直感は何ですか?と間の共分散は、条件付き平均にどのように影響しますか?X1X1X_1X2X2X_2

2
スタインのパラドックスが次元のみ適用される理由の背後にある直観
スタインの例は、平均および分散をもつ正規分布変数の最尤推定値は場合に許容できないことを示しています(平方損失関数の下)。きちんとした証拠については、大規模推論の最初の章を参照してください: Bradley Effronによる推定、テスト、および予測のための経験的ベイズ法。μ 1、... 、μ nは 1 のn ≥ 3nnnμ1,…,μnμ1,…,μn\mu_1,\ldots,\mu_n111n≥3n≥3n\ge 3 、最も注目すべきは(これは非常に最初に私には驚くべきことであったが、1は、標準的な推定値は許容できないことを期待するかもしれない理由の背後にあるいくつかの直感があった場合、その後、 n。Steinの元の論文で概説されているように、以下にリンクされています)。x∼N(μ,1)x∼N(μ,1)x \sim \mathcal N(\mu,1)E∥x∥2≈∥μ∥2+nE‖x‖2≈‖μ‖2+n\mathbb{E}\|x\|^2\approx \|\mu\|^2+n 私の質問はむしろ:nnn次元空間(n≥3n≥3n\ge 3)のどの特性がR2R2\mathbb{R}^2欠けており、それがSteinの例を容易にしているのか?可能な答えは、nnn球の曲率、またはまったく異なるものです。 つまり、\ mathbb {R} ^ 2で MLEが許容されるのはなぜR2R2\mathbb{R}^2ですか? 編集1: @mpiktasへの応答では、1.30から1.31に続く懸念: Eμ(∥z−μ^∥2)=Eμ(S(N−2S)2)=Eμ((N−2)2S).Eμ(‖z−μ^‖2)=Eμ(S(N−2S)2)=Eμ((N−2)2S).E_\mu\left(\|z-\hat{\mu}\|^2\right)=E_\mu\left(S\left(\frac{N-2}{S}\right)^2\right)=E_\mu\left(\frac{(N-2)^2}{S}\right). μi^=(1−N−2S)ziμi^=(1−N−2S)zi\hat{\mu_i} = \left(1-\frac{N-2}{S}\right)z_iようEμ(∂μi^∂zi)=Eμ(1−N−2S+2z2iS2).Eμ(∂μi^∂zi)=Eμ(1−N−2S+2zi2S2).E_\mu\left(\frac{\partial\hat{\mu_i}}{\partial z_i} \right)=E_\mu\left( 1-\frac{N-2}{S}+2\frac{z_i^2}{S^2}\right).したがって、次のものがあります。 2∑i=1NEμ(∂μi^∂zi)=2N−2Eμ(N(N−2)S)+4Eμ((N−2)S)=2N−Eμ2(N−2)2S.2∑i=1NEμ(∂μi^∂zi)=2N−2Eμ(N(N−2)S)+4Eμ((N−2)S)=2N−Eμ2(N−2)2S.2\sum_{i=1}^N E_\mu\left(\frac{\partial\hat{\mu_i}}{\partial z_i} \right)=2N-2E_\mu\left(\frac{N(N-2)}{S}\right)+4E_\mu\left(\frac{(N-2)}{S}\right)\\=2N-E_\mu\frac{2(N-2)^2}{S}. 編集2:この論文では、スタインは、MLEがN = 2に対して許容されることを証明していN=2N=2N=2ます。

5
Rのロジスティック回帰から擬似
Rのロジスティック回帰に関する Christopher Manningの記事は、次のようにRのロジスティック回帰を示しています。 ced.logr <- glm(ced.del ~ cat + follows + factor(class), family=binomial) いくつかの出力: > summary(ced.logr) Call: glm(formula = ced.del ~ cat + follows + factor(class), family = binomial("logit")) Deviance Residuals: Min 1Q Median 3Q Max -3.24384 -1.34325 0.04954 1.01488 6.40094 Coefficients: Estimate Std. Error z value Pr(>|z|) (Intercept) -1.31827 …

6
2つの正規分布の重複領域の割合
と 2つの正規分布をσ 2、μ 2σ1, μ1σ1, μ1\sigma_1,\ \mu_1σ2, μ2σ2, μ2\sigma_2, \ \mu_2 2つの分布の重複領域の割合を計算するにはどうすればよいですか? この問題には特定の名前があると思いますが、この問題を説明する特定の名前を知っていますか? この実装(Javaコードなど)を知っていますか?

5
回帰を理解する-モデルの役割
パラメータを取得しようとしている関数がわからない場合、回帰モデルはどのように使用できますか? 私は、子供を母乳で育てた母親は、後の人生で糖尿病を患う可能性が低いと言った研究を見ました。この研究は約1000人の母親の調査から得られたもので、さまざまな要因が管理されており、対数線形モデルが使用されました。 これは、糖尿病の可能性を決定するすべての要因を考慮して、ログを持つ線形モデルにきちんと変換される素敵な機能(おそらく指数関数的)と、女性の母乳が統計的に有意であることが判明したことを意味しますか? 私は確かに何かを見逃していますが、彼らはどのようにモデルを知っていますか?

4
コントラストマトリックスとは
どのような正確に対比行列は(用語、カテゴリ予測と分析に関係する)で、どのように正確にコントラスト行列が指定されていますか?すなわち、列jとiは何ですか、行とは何ですか、そのマトリックスの制約は何ですか?列と行の数は何を意味しますか?私はドキュメントとウェブを調べようとしましたが、誰もがそれを使用しているようですが、どこにも定義はありません。利用可能な定義済みのコントラストをバックワードエンジニアリングできますが、定義はそれなしでも利用できるはずです。 > contr.treatment(4) 2 3 4 1 0 0 0 2 1 0 0 3 0 1 0 4 0 0 1 > contr.sum(4) [,1] [,2] [,3] 1 1 0 0 2 0 1 0 3 0 0 1 4 -1 -1 -1 > contr.helmert(4) [,1] [,2] [,3] 1 -1 …

1
「ほぼすべての局所的最小値は、グローバルな最適値と非常に類似した関数値を持っています」を理解する
で、最近のブログ記事:栄GEが、それはと言われていました ディープネットの学習を含む多くの問題では、ほとんどすべてのローカルミニマムはグローバル最適と非常に類似した関数値を持っているため、ローカルミニマムを見つけるだけで十分であると考えられています。 この信念はどこから来たのですか?

1
2つの多変量ガウス分布間のKL発散
2つの多変量正規分布を仮定したKL発散式の導出に問題があります。単変量のケースはかなり簡単にできました。ただし、数学の統計情報を取得してからかなりの時間が経過しているため、多変量のケースに拡張するのに苦労しています。単純なものが欠けているだけだと確信しています。 私が持っているものは... 両方の仮定とqは手段で正規分布の確率密度関数であり、μ 1及びμ 2と分散Σ 1及びΣ 2をそれぞれ、。qからpへのカルバック・ライブラー距離は次のとおりです。pppqqqμ1μ1\mu_1μ2μ2\mu_2Σ1Σ1\Sigma_1Σ2Σ2\Sigma_2qqqppp の2面の多変量法線のためのものです、∫[ ログ(p (x ))− ログ(q(x ))] p (x )d バツ∫[log⁡(p(x))−log⁡(q(x))] p(x) dx\int \left[\log( p(x)) - \log( q(x)) \right]\ p(x)\ dx 12[log|Σ2||Σ1|−d+Tr(Σ−12Σ1)+(μ2−μ1)TΣ−12(μ2−μ1)]12[log⁡|Σ2||Σ1|−d+Tr(Σ2−1Σ1)+(μ2−μ1)TΣ2−1(μ2−μ1)]\frac{1}{2}\left[\log\frac{|\Sigma_2|}{|\Sigma_1|} - d + Tr(\Sigma_2^{-1}\Sigma_1) + (\mu_2 - \mu_1)^T \Sigma_2^{-1}(\mu_2 - \mu_1)\right] この証明と同じロジックに従って、行き詰まる前にここまで到達します。 =∫[d2log|Σ2||Σ1|+12((x−μ2)TΣ−12(x−μ2)−(x−μ1)TΣ−12(x−μ1))]×p(x)dx=∫[d2log⁡|Σ2||Σ1|+12((x−μ2)TΣ2−1(x−μ2)−(x−μ1)TΣ2−1(x−μ1))]×p(x)dx=\int \left[ \frac{d}{2} \log\frac{|\Sigma_2|}{|\Sigma_1|} + \frac{1}{2} \left((x-\mu_2)^T\Sigma_2^{-1}(x-\mu_2) - (x-\mu_1)^T\Sigma_2^{-1}(x-\mu_1) \right) …

6
推定と予測の違いは何ですか?
たとえば、過去の損失データがあり、極端な変位値(Value-at-RiskまたはProbable Maximum Loss)を計算しています。得られた結果は、損失を推定するか、損失を予測するためのものですか?どこで線を引くことができますか?私は混乱しています。

7
Pythonの生存分析ツール[終了]
生存分析を実行できるpythonのパッケージがあるかどうか疑問に思っています。私はRでサバイバルパッケージを使用していますが、私の仕事をPythonに移植したいと思います。
46 survival  python 


6
Gradient Descentの代替手段は何ですか?
Gradient Descentには、Local Minimaで立ち往生する問題があります。グローバルミニマムを見つけるために、勾配降下法の指数関数的時間を実行する必要があります。 誰もが、長所と短所とともに、ニューラルネットワーク学習に適用される勾配降下法の代替案について教えてもらえますか?

3
対数変換された予測子および/または応答の解釈
従属変数のみ、従属変数と独立変数の両方、または独立変数のみが対数変換されるかどうかの解釈に違いがあるのか​​と思います。 の場合を考えます log(DV) = Intercept + B1*IV + Error IVはパーセントの増加として解釈できますが、 log(DV) = Intercept + B1*log(IV) + Error または私が持っているとき DV = Intercept + B1*log(IV) + Error ?
46 regression  data-transformation  interpretation  regression-coefficients  logarithm  r  dataset  stata  hypothesis-testing  contingency-tables  hypothesis-testing  statistical-significance  standard-deviation  unbiased-estimator  t-distribution  r  functional-data-analysis  maximum-likelihood  bootstrap  regression  change-point  regression  sas  hypothesis-testing  bayesian  randomness  predictive-models  nonparametric  terminology  parametric  correlation  effect-size  loess  mean  pdf  quantile-function  bioinformatics  regression  terminology  r-squared  pdf  maximum  multivariate-analysis  references  data-visualization  r  pca  r  mixed-model  lme4-nlme  distributions  probability  bayesian  prior  anova  chi-squared  binomial  generalized-linear-model  anova  repeated-measures  t-test  post-hoc  clustering  variance  probability  hypothesis-testing  references  binomial  profile-likelihood  self-study  excel  data-transformation  skewness  distributions  statistical-significance  econometrics  spatial  r  regression  anova  spss  linear-model 

3
Yを正規に配布する必要があるという誤解はどこから来ますか?
一見信頼できるソースは、従属変数は正規分布でなければならないと主張しています。 モデルの仮定:は正規分布、エラーは正規分布、独立、は固定、定数分散です。E I〜N (0 、σ 2)X σ 2YYYei∼N(0,σ2)ei∼N(0,σ2)e_i \sim N(0,\sigma^2)XXXσ2σ2\sigma^2 ペンシルベニア州立大学、STAT 504離散データの分析 第二に、線形回帰分析では、すべての変数が多変量正規である必要があります。 統計解、線形回帰の仮定 これは、応答変数に正規分布がある場合に適切です。 ウィキペディア、一般化線形モデル この誤解がどのように、またはなぜ広まったのか、良い説明はありますか?その起源は知られていますか? 関連する 線形回帰と応答変数に関する仮定

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.