タグ付けされた質問 「normal-distribution」

正規分布、つまりガウス分布には、対称的な鐘型の曲線である密度関数があります。これは、統計で最も重要な分布の1つです。[normality]タグを使用して、正常性のテストについて尋ねます。

2
通常のエラーの代わりにtエラーを使用する必要があるのはなぜですか?
で、このアンドリュー・ゲルマンによって、ブログの記事、次の一節があります: 50年前のベイジアンモデルは絶望的に単純に見えます(もちろん、単純な問題を除いて)。そして、今日のベイジアンモデルは50年後には絶望的に単純に見えると思います。(簡単な例として:ほぼどこでも通常のエラーの代わりに日常的にtを使用する必要がありますが、馴染み、習慣、数学的利便性のため、まだ使用していません。政治では、保守主義には賛成で多くの良い議論がありますが、最終的には、より複雑なモデルに慣れると、その方向に進むと思います。) なぜ「ほぼどこでも通常のエラーの代わりに通常tを使用する」必要があるのでしょうか?



5
機械学習で階層/ネストされたデータを処理する方法
例で問題を説明します。いくつかの属性(年齢、性別、国、地域、都市)を与えられた個人の収入を予測するとします。あなたはそのようなトレーニングデータセットを持っています train <- data.frame(CountryID=c(1,1,1,1, 2,2,2,2, 3,3,3,3), RegionID=c(1,1,1,2, 3,3,4,4, 5,5,5,5), CityID=c(1,1,2,3, 4,5,6,6, 7,7,7,8), Age=c(23,48,62,63, 25,41,45,19, 37,41,31,50), Gender=factor(c("M","F","M","F", "M","F","M","F", "F","F","F","M")), Income=c(31,42,71,65, 50,51,101,38, 47,50,55,23)) train CountryID RegionID CityID Age Gender Income 1 1 1 1 23 M 31 2 1 1 1 48 F 42 3 1 1 2 62 M 71 4 …
29 regression  machine-learning  multilevel-analysis  correlation  dataset  spatial  paired-comparisons  cross-correlation  clustering  aic  bic  dependent-variable  k-means  mean  standard-error  measurement-error  errors-in-variables  regression  multiple-regression  pca  linear-model  dimensionality-reduction  machine-learning  neural-networks  deep-learning  conv-neural-network  computer-vision  clustering  spss  r  weighted-data  wilcoxon-signed-rank  bayesian  hierarchical-bayesian  bugs  stan  distributions  categorical-data  variance  ecology  r  survival  regression  r-squared  descriptive-statistics  cross-section  maximum-likelihood  factor-analysis  likert  r  multiple-imputation  propensity-scores  distributions  t-test  logit  probit  z-test  confidence-interval  poisson-distribution  deep-learning  conv-neural-network  residual-networks  r  survey  wilcoxon-mann-whitney  ranking  kruskal-wallis  bias  loss-functions  frequentist  decision-theory  risk  machine-learning  distributions  normal-distribution  multivariate-analysis  inference  dataset  factor-analysis  survey  multilevel-analysis  clinical-trials 

5
なぜ正規分布に従う非常に多くの自然現象があるのか​​についての説明はありますか?
これは魅力的なトピックだと思いますが、完全には理解していません。非常に多くの自然現象が正規分布を持つように物理学の法則はどのようになっていますか?それらが均一に分布していると、より直感的に見えるでしょう。 これを理解するのは私にとって非常に難しく、いくつかの情報が欠けていると感じています。誰かが良い説明で私を助けたり、本/ビデオ/記事にリンクできますか?

3
ポアソン分布は正規分布とどのように異なりますか?
次のように、ポアソン分布を持つベクトルを生成しました。 x = rpois(1000,10) を使用してヒストグラムを作成するhist(x)と、分布はおなじみのベル型の正規分布のように見えます。ただし、Kolmogorov-Smirnoffのテストでks.test(x, 'pnorm',10,3)は、p値が非常に小さいため、分布は正規分布とは大きく異なります。 だから私の質問は次のとおりです。ヒストグラムが正規分布に非常に似ている場合、ポアソン分布は正規分布とどのように異なりますか?

3
R:データセットにNaNがないにもかかわらず、「Forest function call」エラーでNaN / Infをスローするランダムフォレスト[非公開]
キャレットを使用して、データセットに対してクロス検証されたランダムフォレストを実行しています。Y変数は要因です。データセットにNaN、Inf、またはNAはありません。ただし、ランダムフォレストを実行すると、 Error in randomForest.default(m, y, ...) : NA/NaN/Inf in foreign function call (arg 1) In addition: There were 28 warnings (use warnings() to see them) Warning messages: 1: In data.matrix(x) : NAs introduced by coercion 2: In data.matrix(x) : NAs introduced by coercion 3: In data.matrix(x) : NAs introduced by …

2
統計のホワイトノイズ
さまざまな統計モデルについて読むと、ホワイトノイズという用語がよく表示されます。ただし、これが何を意味するのか完全にはわかりません。通常は省略されWN(0,σ2)WN(0,σ2)WN(0,σ^2)ます。それはそれが通常配布されていることを意味しますか、それとも何らかの配布に従うことができますか?

5
一般的な分布の実際の例
私は統計に興味を持っている大学院生です。私は素材全体が好きですが、実際の生活への応用について考えるのに苦労することがあります。具体的には、私の質問は一般的に使用される統計分布(通常-ベータガンマなど)についてです。場合によっては、分布を非常に良くする特定のプロパティ、たとえば指数関数のメモリレスプロパティを取得すると思います。しかし、他の多くの場合、私は教科書に見られる一般的な分布の重要性と応用分野の両方について直観を持っていません。 おそらく、私の懸念に対処する多くの優れた情報源があります。それらを共有していただければ幸いです。現実の例と関連付けることができれば、私はこの資料にもっとや​​る気が出ます。

3
ガウス比分布:およびの基礎となるデリバティブ
平均と、分散と 2つの独立した正規分布とます。XXXYYYμxμx\mu_xμyμy\mu_yσ2xσx2\sigma^2_xσ2yσy2\sigma^2_y それらの比率の分布に興味があります。どちらやので、ゼロの平均値を有し、Zはコーシーとして配布されていません。Z=X/YZ=X/YZ=X/YXXXYYYZZZ ZのCDFを見つけてZZZから、μxμx\mu_x、μyμy\mu_y、σ2xσx2\sigma^2_xおよび\ sigma ^ 2_yに関するCDFの導関数を取得する必要がありますσ2yσy2\sigma^2_y。 これらがすでに計算されている論文を知っている人はいますか?または、これを自分で行う方法は? 1969年の論文でCDFの式を見つけましたが、これらの派生物を取得することは間違いなく大きな苦痛です。誰かがすでにそれを行っているか、簡単に行う方法を知っているのでしょうか?私は主にこれらのデリバティブの兆候を知る必要があります。 このペーパーには、YYYがほとんど正の場合の分析的に単純な近似も含まれています。私はその制限を持つことはできません。ただし、パラメータ範囲外であっても、近似値は真の導関数と同じ符号を持つ可能性がありますか?

2
平均二乗誤差が経験的分布とガウスモデル間のクロスエントロピーであるのはなぜですか?
5.5では、ディープラーニング(イアングッドフェロー、ヨシュアベンジオ、アーロンクールビル)が、 負の対数尤度で構成される損失は、トレーニングセットで定義された経験的分布とモデルで定義された確率分布の間の相互エントロピーです。たとえば、平均二乗誤差は経験的分布とガウスモデルの間の相互エントロピーです。 なぜそれらが同等なのか理解できず、著者はその点については拡張していません。

1
自由度は非整数の数値にできますか?
GAMを使用すると、残留DFは(コードの最終行)になります。どういう意味ですか?GAMの例を超えて、一般に、自由度の数を整数以外の数にすることはできますか?26.626.626.6 > library(gam) > summary(gam(mpg~lo(wt),data=mtcars)) Call: gam(formula = mpg ~ lo(wt), data = mtcars) Deviance Residuals: Min 1Q Median 3Q Max -4.1470 -1.6217 -0.8971 1.2445 6.0516 (Dispersion Parameter for gaussian family taken to be 6.6717) Null Deviance: 1126.047 on 31 degrees of freedom Residual Deviance: 177.4662 on 26.6 degrees of …
27 r  degrees-of-freedom  gam  machine-learning  pca  lasso  probability  self-study  bootstrap  expected-value  regression  machine-learning  linear-model  probability  simulation  random-generation  machine-learning  distributions  svm  libsvm  classification  pca  multivariate-analysis  feature-selection  archaeology  r  regression  dataset  simulation  r  regression  time-series  forecasting  predictive-models  r  mean  sem  lavaan  machine-learning  regularization  regression  conv-neural-network  convolution  classification  deep-learning  conv-neural-network  regression  categorical-data  econometrics  r  confirmatory-factor  scale-invariance  self-study  unbiased-estimator  mse  regression  residuals  sampling  random-variable  sample  probability  random-variable  convergence  r  survival  weibull  references  autocorrelation  hypothesis-testing  distributions  correlation  regression  statistical-significance  regression-coefficients  univariate  categorical-data  chi-squared  regression  machine-learning  multiple-regression  categorical-data  linear-model  pca  factor-analysis  factor-rotation  classification  scikit-learn  logistic  p-value  regression  panel-data  multilevel-analysis  variance  bootstrap  bias  probability  r  distributions  interquartile  time-series  hypothesis-testing  normal-distribution  normality-assumption  kurtosis  arima  panel-data  stata  clustered-standard-errors  machine-learning  optimization  lasso  multivariate-analysis  ancova  machine-learning  cross-validation 


5
線形回帰は正規分布をどのように使用しますか?
線形回帰では、各予測値は可能な値の正規分布から選択されたと想定されます。下記参照。 しかし、なぜ各予測値は正規分布に由来すると想定されているのでしょうか?線形回帰はこの仮定をどのように使用しますか?可能な値が正規分布していない場合はどうなりますか?

3
2つの正規平均の比の信頼区間を計算する方法
私はのための限界を導出したい二つの手段の比の信頼区間を。 仮定、および 独立している、平均比。解決しようとしました: だが、その方程式は多くの場合解くことができなかった(根がない)。私は何か間違っていますか?より良いアプローチはありますか?ありがとう100 (1 - α )%100(1−α)%100(1-\alpha)\%バツ1〜N(θ1、σ2)バツ1〜N(θ1、σ2)X_1 \sim N(\theta_1, \sigma^2)バツ2〜N(θ2、σ2)バツ2〜N(θ2、σ2)X_2 \sim N(\theta_2, \sigma^2)Γ = θ1/ θ2Γ=θ1/θ2\Gamma = \theta_1/\theta_2Pr (− z(α / 2 ))≤ X1- Γ X2/ σ1 + γ2−−−−−√≤ Z(α / 2 ))= 1 - αPr(−z(α/2))≤バツ1−Γバツ2/σ1+γ2≤z(α/2))=1−α\text{Pr}(-z(\alpha/2)) \leq X_1 - \Gamma X_2 / \sigma \sqrt {1 + \gamma^2} \leq z(\alpha/2)) …

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.