タグ付けされた質問 「normal-distribution」

正規分布、つまりガウス分布には、対称的な鐘型の曲線である密度関数があります。これは、統計で最も重要な分布の1つです。[normality]タグを使用して、正常性のテストについて尋ねます。

1
カイ2乗検定とカイ2乗分布の理解
私はカイ二乗検定の背後にある論理を理解しようとしています。 カイ2乗検定は。χ2は、その後、帰無仮説を棄却かないためにp.valueを見つけるためにカイ二乗分布と比較されます。H0:観測値は、期待値の作成に使用した分布から取得されます。たとえば、取得の確率が予想どおりpで与えられるかどうかをテストできます。したがって、100回反転し、nHと1−nHを見つけます。我々は(期待されているものに我々の発見を比較したい100⋅P)。二項分布を使用することもできますが、それは問題のポイントではありません…問題は次のとおりです。χ2=∑(obs−exp)2expχ2=∑(obs−exp)2exp\chi ^2 = \sum \frac{(obs-exp)^2}{exp}χ2χ2\chi ^2H0H0H_0headpppnHnHn_H Heads1−nH1−nH1-n_H tails100⋅p100⋅p100 \cdot p あなたはなぜ、帰無仮説の下で、説明していただけますはカイ二乗分布に従いますか?∑(obs−exp)2exp∑(obs−exp)2exp\sum \frac{(obs-exp)^2}{exp} カイ2乗分布について知っているのは、次のカイ2乗分布がkの標準正規分布の2乗の合計であることだけです。kkkkkk

2
2つの従属多変量正規確率変数の線形結合
我々は確率変数の二つのベクトルを持って、両方とも正常である、すなわち、想定X∼N(μX,ΣX)X∼N(μX,ΣX)X \sim N(\mu_X, \Sigma_X)とY∼N(μY,ΣY)Y∼N(μY,ΣY)Y \sim N(\mu_Y, \Sigma_Y)。線形結合の分布に興味があります。Z=AX+BY+CZ=AX+BY+CZ = A X + B Y + Cここで、AAAとBBBは行列、CCCはベクトルです。場合XXXとYYY独立しており、Z∼N(AμX+BμY+C,AΣXAT+BΣYBT)Z∼N(AμX+BμY+C,AΣXAT+BΣYBT)Z \sim N(A \mu_X + B \mu_Y + C, A \Sigma_X A^T + B \Sigma_Y B^T)。質問は依存関係にあり、任意のペアの相関がわかっていると仮定し(Xi,Yi)(Xi,Yi)(X_i, Y_i)ます。ありがとうございました。 よろしくお願いします、イヴァン

11
正規分布ですが、非常に歪んだ分布はガウスと見なされますか?
この質問があります:YouTubeで1日あたりに費やされる時間の分布はどのように見えると思いますか? 私の答えは、おそらく正規分布であり、非常に歪んでいるということです。一部のユーザーはパワーユーザーを圧倒しているため、ほとんどのユーザーが平均的な時間を費やしてから右の長いテールを使用するモードが1つあると思います。 それは公平な答えですか?その分布についてより良い言葉はありますか?

3
今日、Usain Boltよりも速い人がいますか?
編集:私は、サンプル統計が与えられた特定の母集団の「真の」最大値の可能性を決定する技術的な問題と方法論にもっと興味があります。記録的なダッシュタイムからボルト氏よりも速いランナーの可能性を推定することには、明らかで微妙な問題があります。これが事実ではないことを想像して私をユーモア。 ウサインボルトは、100 mのダッシュで計測された最速の人間です。しかし、アスリートの数が少ないことを考えると、生きている「真の」最速の人間はどこかにソファに座っており、競争力のあるランニングキャリアを試みたことはないようです。 正規分布の裾のサンプル間の差がますます小さくなるという事実を利用しようとしています。これを使用して、Usainを2番目に速い、3番目に速いなどと比較することにより、Usain Boltよりも速い誰かが存在する可能性を計算しています。 これを行うには、に関する正規分布のCDFの導関数を取得し、yyyそれを番目(は約7,000,000,000またはの数)に上げることにより、「Usain Bolt」を超えて存在する最大値を計算しようとしています。「最大」よりも少ないサンプル-この背後にあるロジックは、ドイツの戦車問題ウィキペディアのページで説明されています。nnnnnnn ∫∞0yfYN(y)dy=λn∫∞0y[12[1+erf(y−μσ2√)]]n−112πσ2√e−(y−μ)22σ2dy∫0∞yfYN(y)dy=λn∫0∞y[12[1+erf⁡(y−μσ2)]]n−112πσ2e−(y−μ)22σ2dy\int_{0}^{\infty}y f_{Y_N} (y)dy = \lambda n \int_{0}^{\infty} y \left [ \tfrac12\left[1 + \operatorname{erf}\left( \frac{y-\mu}{\sigma\sqrt{2}}\right)\right] \right ]^{n-1} \frac{1}{\sqrt{2\pi\sigma^2}}\, e^{-\frac{(y - \mu)^2}{2 \sigma^2}}dy これは、Usain Boltよりも速く誰かが存在する確率を計算する有効な方法ですか? 「他のディストリビューションのドイツ戦車問題」以外に、この種の質問の名前はありますか 分布の極端なサンプルから標準偏差を推定する良い方法はありますか?史上最速の100mダッシュに関する情報を見つけるのは簡単で、平均と分散を見つけるのは難しいです) トピックの背景のないプログラマーに対処する忍耐に感謝します。

2
QQプロットは正常に見えますが、Shapiro-Wilkテストではそうではありません
Rでは、348個の測定値のサンプルがあり、将来のテストのために正規分布であると仮定できるかどうかを知りたいです。 本質的に別のスタックの答えに続いて、私は密度プロットとQQプロットを見ています: plot(density(Clinical$cancer_age)) qqnorm(Clinical$cancer_age);qqline(Clinical$cancer_age, col = 2) 私は統計に強い経験はありませんが、私が見た正規分布の例のように見えます。 次に、シャピロウィルクテストを実行しています。 shapiro.test(Clinical$cancer_age) > Shapiro-Wilk normality test data: Clinical$cancer_age W = 0.98775, p-value = 0.004952 正しく解釈すれば、帰無仮説を拒否しても安全であることがわかります。これは、分布が正規であるということです。 ただし、2つのスタックポストに遭遇しました(こちら、およびこちら)にため、このテストの有用性が大きく損なわれています。サンプルが大きい場合(348は大きいと見なされますか?)、常に正規分布ではないと表示されます。 すべてをどのように解釈すればよいですか?QQプロットに固執し、分布が正規であると仮定する必要がありますか?

2
ランダム変数の値の範囲が制限されている場合、
aaaとbbbで区切られた値の範囲を持つランダム変数があるとします。ここでaaaは最小値、bbbは最大値です。 私が言われたように、そのn→∞n→∞n \to \infty、どこnnn私たちのサンプルサイズは、私たちのサンプル手段のサンプリング分布がある正規分布。それは我々が増加するにつれて、あるnnn、我々がどんどん近づいて正規分布に取得しますが、実際の制限としてn→∞n→∞n \to \inftyである等しい正規分布に。 しかし、それはから延長していることを正規分布の定義の一部ではありません−∞−∞- \inftyする∞∞\infty? 範囲の最大値が場合、bbb(サンプルサイズに関係なく)最大サンプル平均はbに等しくなり、最小サンプル平均はbbbに等しくなりaaa。 だから、が無限に近づくにつれて限界をとっても、分布はaとbで区切られているため、実際の正規分布ではないように思えます。nnnaaabbb 私は何が欠けていますか?

1
標準正規確率変数の二乗のPDF [閉じた]
閉まっている。この質問はトピック外です。現在、回答を受け付けていません。 この質問を改善したいですか? 質問を更新することがありますので、話題のクロス検証済みのため。 4年前に閉鎖されました。 pdfを見つけなければならないところに、この問題がありますY=X2Y=X2Y = X^2。すべてのI knowがあることであるXXX分布があるN(0,1)N(0,1)N(0,1)。はどのような分布Y=X2Y=X2Y = X^2ですか?同じXXX?PDFを見つけるにはどうすればよいですか?

2
共同正規性は、正常なランダム変数の合計が正常であるための必要条件ですか?
関連する質問に対する私のこの回答に続くコメントで、ユーザーssdecontrolとGlen_b は、合計正規性を主張するためにと共同正規性が必要かどうかを尋ねました。ジョイントの正規性が十分であることは、もちろんよく知られています。この補足的な質問はそこでは取り上げられておらず、おそらくそれ自体で検討する価値があります。XXXYYYX+YX+YX+Y 共同正規性は限界正規性を意味するので、私は尋ねます が通常のランダム変数であるが、とが 一緒に通常のランダム変数ではないような 通常のランダム変数とが存在しますか?XXXYYYX+YX+YX+YXXXYYY 場合はと正規分布を持つ必要はありません、正常な確率変数を簡単に見つけることができます。1つの例は、以前の回答にあります(リンクは上記のとおりです)。上記のハイライトされた質問に対する答えは「はい」であると信じており、この質問に対する答えとして例を(私が思うに)掲載しています。XXXYYY

1
t検定の「ほぼ正常」の評価
Welchのt検定を使用して平均の等価性をテストしています。基礎となる分布は、通常とはほど遠いです(関連する議論の例よりも歪んでいます)。より多くのデータを取得できますが、その範囲を決定する原則的な方法が必要です。 サンプルの分布が許容可能であるという評価を行うための優れたヒューリスティックはありますか?正規性からの逸脱が最も懸念されるのはどれですか? サンプル統計のブートストラップ信頼区間に依存する他のアプローチがありますか?

1
N正規iidの積の近似分布?特殊なケースμ≈0
与えられた IID、及び、探しているもの:N≥30N≥30N\geq30Xn≈N(μX,σ2X)バツn≈N(μバツ、σバツ2)X_n\approx\mathcal{N}(\mu_X,\sigma_X^2)μX≈0μバツ≈0\mu_X \approx 0 正確な閉形式分布近似 YN=∏1NXnYN=∏1NXnY_N=\prod\limits_{1}^{N}{X_n} 同じ積の漸近(指数関数)近似 これは、より一般的な質問の特殊なケースです。μX≈0μX≈0\mu_X \approx 0

1
ANOVA:グループごとのサンプル数が少ない多くのグループの正規性の仮定のテスト
次の状況を想定します。 小さいグループサイズ(たとえばn = 3)で多数(たとえば20)があります。均一な分布から値を生成すると、エラー分布が均一であっても残差がほぼ正規に見えることに気付きました。次のRコードは、この動作を示しています。 n.group = 200 n.per.group = 3 x <- runif(n.group * n.per.group) gr <- as.factor(rep(1:n.group, each = n.per.group)) means <- tapply(x, gr, mean) x.res <- x - means[gr] hist(x.res) 3つのグループのサンプルの残差を見ると、動作の理由は明らかです。 r1= x1− 平均(x 1 、x 2 、x 3 )= x 1 − x1+ x2+ x33= 23バツ1− x2− …

4
独立分布のどの比率が正規分布を与えますか?
2つの独立した正規分布の比率により、コーシー分布が得られます。t分布は、独立したカイ2乗分布で除算された正規分布です。2つの独立したカイ2乗分布の比率により、F分布が得られます。 平均および分散正規分布確率変数を与える独立した連続分布の比率を探していますか?μμ\muσ2σ2\sigma^2 考えられる答えはおそらく無限にあります。これらの可能な答えをいくつか教えてもらえますか?比率が計算される2つの独立した分布が同じであるか、少なくとも類似の分散を持っている場合、特に感謝します。

2
正規分布のXとYは、正規分布の残差になる可能性が高いですか?
ここでは、線形回帰における正規性の仮定の誤解について説明し(「正規性」は残差ではなくXおよび/またはYを参照する)、ポスターは非正規分布のXおよびYを持つことが可能かどうかを尋ねますまだ正規分布の残差があります。 私の質問は、正規分布のXとY は正規分布の残差をもたらす可能性が高いですか?多くの関連する投稿がありましたが、この質問を具体的に尋ねられた人は誰もいないと思います。 回帰が1つしかない場合、これはおそらく些細な点ですが、複数のテストがある場合はそれほど重要ではないことを理解しています。だから、100個のX変数があり、それらはすべて同じスキューを持っているので、すべてをテストしたいとします。それらをすべて正規分布に変換した場合、非正規分布の残差のために再検査が必要なX変数が少なくなります(異なる/変換なし)か、または回帰前の変換は完全に任意ですか?

3
未知の分布のデータを正規化する方法
特定のタイプの繰り返し測定データの最も適切な特性分布を見つけようとしています。 本質的に、私の地質学の分野では、イベント(岩石がしきい値温度以下に冷却された)が発生するまでの時間を調べるために、サンプル(岩石の塊)からの鉱物の放射年代測定をよく使用します。通常、各サンプルからいくつか(3〜10)の測定が行われます。次に、平均と標準偏差σが取得されます。サンプルの冷却年代から拡張することができますので、これは、地質学である10 5への10 9状況に応じて、年。μμ\muσσ\sigma10510510^510910910^9 ただし、測定値がガウス分布ではないことを信じる理由があります。「外れ値」は、任意に宣言されるか、またはパースの基準[Ross、2003]やディクソンのQ検定[Dean and Dixon、1951]などの基準によって宣言されますよくあり(たとえば、30分の1)、これらはほとんど常に古いものであり、これらの測定値が特徴的に右に歪んでいることを示しています。これが鉱物学的不純物に関係していることには、十分に理解されている理由があります。 μμ\muσσ\sigma これを行う最善の方法は何だろうと思っています。これまでのところ、約600個のサンプルを含むデータベースがあり、サンプルごとに2〜10個程度の測定値を複製しています。それぞれを平均値または中央値で割ってサンプルを正規化し、正規化されたデータのヒストグラムを見てみました。これは妥当な結果を生成し、データが一種の対数ラプラシアンであることを示しているようです: ただし、これが適切な方法なのか、それとも気付いていないのに結果が偏っている可能性があるという警告があるのか​​はわかりません。誰かがこの種のことを経験し、ベストプラクティスを知っていますか?

5
非常に多数のデータポイントで値の代入を実行する方法は?
非常に大きなデータセットがあり、約5%のランダムな値が欠落しています。これらの変数は互いに相関しています。次のRデータセットの例は、ダミーの相関データを使用した単なるおもちゃの例です。 set.seed(123) # matrix of X variable xmat <- matrix(sample(-1:1, 2000000, replace = TRUE), ncol = 10000) colnames(xmat) <- paste ("M", 1:10000, sep ="") rownames(xmat) <- paste("sample", 1:200, sep = "") #M variables are correlated N <- 2000000*0.05 # 5% random missing values inds <- round ( runif(N, 1, length(xmat)) …
12 r  random-forest  missing-data  data-imputation  multiple-imputation  large-data  definition  moving-window  self-study  categorical-data  econometrics  standard-error  regression-coefficients  normal-distribution  pdf  lognormal  regression  python  scikit-learn  interpolation  r  self-study  poisson-distribution  chi-squared  matlab  matrix  r  modeling  multinomial  mlogit  choice  monte-carlo  indicator-function  r  aic  garch  likelihood  r  regression  repeated-measures  simulation  multilevel-analysis  chi-squared  expected-value  multinomial  yates-correction  classification  regression  self-study  repeated-measures  references  residuals  confidence-interval  bootstrap  normality-assumption  resampling  entropy  cauchy  clustering  k-means  r  clustering  categorical-data  continuous-data  r  hypothesis-testing  nonparametric  probability  bayesian  pdf  distributions  exponential  repeated-measures  random-effects-model  non-independent  regression  error  regression-to-the-mean  correlation  group-differences  post-hoc  neural-networks  r  time-series  t-test  p-value  normalization  probability  moments  mgf  time-series  model  seasonality  r  anova  generalized-linear-model  proportion  percentage  nonparametric  ranks  weighted-regression  variogram  classification  neural-networks  fuzzy  variance  dimensionality-reduction  confidence-interval  proportion  z-test  r  self-study  pdf 

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.