タグ付けされた質問 「normal-distribution」

正規分布、つまりガウス分布には、対称的な鐘型の曲線である密度関数があります。これは、統計で最も重要な分布の1つです。[normality]タグを使用して、正常性のテストについて尋ねます。

2
正規分布の2番目のパラメーターは分散または標準偏差ですか?
教科書では、正規分布の2番目のパラメーターが標準偏差と分散として参照されることがあります。たとえば、ランダム変数X〜N(0、4)。シグマまたはシグマ2乗が4に等しいかどうかは明確ではありません。標準偏差または分散が指定されていない場合に使用される一般的な規則を知りたいだけです。

6
どのようにして正規分布を発見できましたか?
あなたがすることができ、正規分布の一次微分は何だったその派生を再現し、またその歴史的文脈の中でそれを説明しますか? 人類が正規分布を忘れた場合、私がそれを再発見する最も可能性の高い方法は何ですか?また、最も可能性の高い派生物は何ですか?最初の派生は、二項分布などの基本的な離散確率分布を計算する高速な方法を見つけようとする副産物として来たに違いないと思います。あれは正しいですか?


2
共同分布が多変量正規分布である場合、ピアソンのρは関連性の網羅的な尺度にすぎないのはなぜですか?
この主張はこの質問への一番の回答で提起されました。「なぜ」という質問は、新しいスレッドを保証するほど十分に異なると思います。グーグルの「関連性の徹底的な尺度」はヒットを生み出さず、そのフレーズが何を意味するのか分かりません。

4
サンプル平均が与えられたサンプル中央値の期待値
ましょう中央値を表すとletサイズのランダムサンプルの平均を表しである分布から。を計算するにはどうすればよいですか?ˉ X N = 2 のk + 1 N (μ 、σ 2)E (Y | ˉ X = ˉ X)YYYX¯X¯\bar{X}n=2k+1n=2k+1n=2k+1N(μ,σ2)N(μ,σ2)N(\mu,\sigma^2)E(Y|X¯=x¯)E(Y|X¯=x¯)E(Y|\bar{X}=\bar{x}) 直観的には、正規性の仮定のため、と主張するのは理にかなっています。しかし、それを厳密に示すことはできますか?E(Y|X¯=x¯)=x¯E(Y|X¯=x¯)=x¯E(Y|\bar{X}=\bar{x})=\bar{x} 私の最初の考えは、一般に既知の結果である条件付き正規分布を使用してこの問題にアプローチすることでした。問題は、期待値と中央値の分散がわからないため、次統計量を使用してそれらを計算する必要があるということです。しかし、それは非常に複雑で、絶対に必要な場合を除き、私はそこに行きたくありません。 k+1k+1k+1

3
多変量正規分布からサンプルを描画するためのコレスキー対固有分解
サンプルを描きたいです。ウィキペディアは、コレスキーまたは固有分解を使用することを推奨しています。つまり、 または Σ = D 1 D T 1x∼N(0,Σ)x∼N(0,Σ)\mathbf{x} \sim N\left(\mathbf{0}, \mathbf{\Sigma} \right)Σ=D1DT1Σ=D1D1T \mathbf{\Sigma} = \mathbf{D}_1\mathbf{D}_1^T Σ=QΛQTΣ=QΛQT \mathbf{\Sigma} = \mathbf{Q}\mathbf{\Lambda}\mathbf{Q}^T したがって、サンプルは次の方法で描画できます。 または ここで、 x=D1vx=D1v \mathbf{x} = \mathbf{D}_1 \mathbf{v} x=QΛ−−√vx=QΛv \mathbf{x} = \mathbf{Q}\sqrt{\mathbf{\Lambda}} \mathbf{v} v∼N(0、I)v∼N(0,I) \mathbf{v} \sim N\left(\mathbf{0}, \mathbf{I} \right) ウィキペディアでは、どちらもサンプルの生成に同等に適していると示唆していますが、コレスキー法の方が計算時間が高速です。これは本当ですか?特に数値的に、モンテカルロ法を使用する場合、対角線に沿った分散が数桁異なる場合がありますか?この問題に関する正式な分析はありますか?

1
ガウスコピュラからシミュレートする方法は?
FFFとような2つの単変量周辺分布がありGGG、そこからシミュレートできると仮定します。ここで、C (F 、G ; Σ )で表されるガウスコピュラを使用してそれらの結合分布を構築します。すべてのパラメーターは既知です。C(F,G;Σ)C(F,G;Σ)C(F,G;\Sigma) このコピュラからシミュレートするための非MCMCメソッドはありますか?

1
2つの正規分布確率変数の合計への寄与の直感的な説明
平均およびおよび標準偏差および 2つの正規分布独立ランダム変数およびがあり、であることがわかった場合(エラーが発生していないと仮定して)及び所与また、通常の手段で配布されている および標準偏差 Y μ X μ Y σ X σ Y、X + Y = C X Y C μ X | C = μ X + (C - μ X - μ Y)σ 2 XXXXYYYμXμX\mu_XμYμY\mu_YσXσX\sigma_XσYσY\sigma_YX+Y=cX+Y=cX+Y=cXXXYYYccc μY| C=μY+(C-μX-μY)σ 2 YμX|c=μX+(c−μX−μY)σ2Xσ2X+σ2YμX|c=μX+(c−μX−μY)σX2σX2+σY2\mu_{X|c} = \mu_X + (c - \mu_X - \mu_Y)\frac{ \sigma_X^2}{\sigma_X^2+\sigma_Y^2} μY| …

5
ペアの観測値の分散の比較
私がしている観測(ペア、有限の第一及び第二モーメントを有する共通の未知の分布から引き出された)を、平均の周りに対称です。NNNバツ私バツ私X_iY私Y私Y_i してみましょうの標準偏差(上の無条件の)、および Y.私のために同じことが仮説を検証したいと思います σバツσバツ\sigma_XバツバツXYYYσYσY\sigma_Y H0H0H_0:σバツ= σYσバツ=σY\sigma_X = \sigma_Y H1H1H_1:σバツ≠ σYσバツ≠σY\sigma_X \neq \sigma_Y 誰でもそのようなテストを知っていますか?最初の分析では、分布が正規であると仮定できますが、一般的なケースの方が興味深いです。閉じた形式のソリューションを探しています。ブートストラップは常に最後の手段です。

5
サンプル平均のサンプリング分布は、母平均をどのように近似しますか?
統計を習得しようとしているのは、統計があまりにも普及しているため、適切に理解しなければ、いくつかのことを学ぶことができないからです。サンプル平均のサンプリング分布のこの概念を理解するのに苦労しています。一部の書籍やサイトで説明されている方法がわかりません。私は理解していると思いますが、正しいかどうかはわかりません。以下はそれを理解しようとする私の試みです。 正規分布をとる現象について話すとき、それは一般に(常にではないが)母集団に関するものです。 推測統計を使用して、特定の母集団に関する情報を予測したいのですが、すべてのデータがありません。ランダムサンプリングを使用し、サイズnの各サンプルが選択される可能性が等しくなります。 したがって、多くのサンプル、たとえば100を取得すると、これらのサンプルの平均の分布は中心極限定理に従ってほぼ正規になります。サンプル平均の平均は母平均に近似します。 さて、私が理解していないのは、「100人のサンプル...」と表示されることが多いことです。平均の人口を概算するために、100人のサンプルを10から100枚必要としないでしょうか。それとも、十分な大きさの単一のサンプル(たとえば1000)を取得し、その平均が母平均に近似すると言うことができるのでしょうか?または、1000人のサンプルを取得してから、元の1000人のサンプルから各サンプルの100人のランダムなサンプルを100個取得し、それを近似値として使用しますか? (ほぼ)平均を近似するのに十分な大きさのサンプルを取得することは常に機能しますか?これが機能するためには、人口も正常である必要がありますか?

5
平均の信頼区間の近似誤差
ましょう{Xi}ni=1{Xi}i=1n\{X_i\}_{i=1}^nの値を取る確率変数IIDのファミリーである[0,1][0,1][0,1]平均を有する、μμ\mu及び分散σ2σ2\sigma^2。平均、使用するためのシンプルな信頼区間σσ\sigmaそれが知られるたびに、によって与えられ、 P(|X¯−μ|>ε)≤σ2nε2≤1nε2(1).P(|X¯−μ|>ε)≤σ2nε2≤1nε2(1). P( | \bar X - \mu| > \varepsilon) \le \frac{\sigma^2}{n\varepsilon^2} \le\frac{1}{n \varepsilon^2} \qquad (1). また、理由X¯−μσ/n√X¯−μσ/n\frac{\bar X- \mu}{\sigma/\sqrt{n}}は、標準正規確率変数として漸近的に分布します。正規分布は、近似信頼区間を「構築」するために使用される場合があります。 複数の選択肢の回答の統計試験では、私はこの近似を使用する代わりにしなければならなかった(1)(1)(1)いつでもn≥30n≥30n \geq 30。近似誤差が定量化されていないため、私は常にこれを非常に不快に思っています(想像以上です)。 なぜではなく、正規近似を使用(1)(1)(1)? 私は盲目的にルール適用するには、二度と、したくないn≥30n≥30n \geq 30。そうすることを拒否し、適切な代替手段を提供するのに役立つ良い参考文献はありますか?((1)(1)(1)は、私が適切な代替案と考えるものの例です。) ここで、σσ\sigmaとE[|X|3]E[|X|3]E[ |X|^3]は不明であり、簡単に制限されます。 私の質問は特に信頼区間に関する参照要求であるので、こことここで部分的な複製として提案された質問とは異なることに注意してください。そこでは答えられません。

1
正規分布をシミュレートするための逆CDF法に対するBox-Mullerの利点は?
一様変数のセットから正規分布をシミュレートするには、いくつかの手法があります。 ボックスミュラーアルゴリズム 1つのサンプル二つの独立した均一に変量した、(0,1)(0,1)(0,1):を介して二つの独立した標準正規分布に変換し Z0=−2lnU1−−−−−−√cos(2πU0)Z1=−2lnU1−−−−−−√sin(2πU0)Z0=−2lnU1cos(2πU0)Z1=−2lnU1sin(2πU0) Z_0 = \sqrt{-2\text{ln}U_1}\text{cos}(2\pi U_0)\\ Z_1 = \sqrt{-2\text{ln}U_1}\text{sin}(2\pi U_0) CDF法。通常の累積分布関数を均一変量と同等にすることができます: F (Z )= Uで 、Z = F − 1(U )を導きます (F(Z))(F(Z))(F(Z))F(Z)=UF(Z)=U F(Z) = U Z=F−1(U)Z=F−1(U)Z = F^{-1}(U) 私の質問は次のとおりです。どちらが計算的に効率的ですか?私は後者の方法だと思うでしょう-しかし、私が読んだ論文のほとんどはBox-Mullerを使用しています-なぜですか? 追加情報: 通常のCDFの逆数は次のように認識され、与えられます F−1(Z)=2–√erf−1(2Z−1),Z∈(0,1).F−1(Z)=2erf−1⁡(2Z−1),Z∈(0,1).F^{-1}(Z)\; =\; \sqrt2\;\operatorname{erf}^{-1}(2Z - 1), \quad Z\in(0,1). したがって、 Z=F−1(U)=2–√erf−1(2U−1),U∈(0,1).Z=F−1(U)=2erf−1⁡(2U−1),U∈(0,1). Z = F^{-1}(U)\; =\; \sqrt2\;\operatorname{erf}^{-1}(2U - 1), \quad …

2
正規分布からの描画を使用した均一分布からの描画のシミュレーション
最近、確率論の質問の1つが次のようなデータサイエンスインタビューリソースを購入しました。 既知のパラメーターを使用した正規分布からの描画を考えると、均一分布からの描画をどのようにシミュレートできますか? 私の最初の思考プロセスは、離散確率変数の場合、正規分布をK個の一意のサブセクションに分割でき、各サブセクションは正規曲線の下で等しい面積を持つというものでした。次に、変数が正常曲線のどの領域に入るかを認識することにより、変数がどのK値を取るかを決定できます。 しかし、これは離散確率変数に対してのみ機能します。連続したランダム変数に対して同じことを行う方法についていくつかの研究を行いましたが、残念ながら、入力として均一なランダム変数を使用し、他の分布からランダム変数を出力できる逆変換サンプリングなどの手法しか見つかりませんでした。おそらく、このプロセスを逆に実行して、一様なランダム変数を取得できると考えていましたか? また、おそらく正規確率変数を線形合同ジェネレーターへの入力として使用することも考えましたが、これが機能するかどうかはわかりません。 この質問にどのようにアプローチするかについての考えはありますか?

3
私の分布は正常です。コルモゴロフ-スミルノフ検定は同意しない
私が持っているいくつかのデータの正規性に問題があります:p = .0000では正常ではないと言うコルモゴロフ検定を実行しましたが、わかりません:私の分布の歪度=-。497、尖度= -0,024 これは非常に正規に見える私の分布のプロットです... (私は3つのスコアを持っていますが、このスコアのそれぞれはコルモゴロフ検定の有意なp値で正常ではありません...私は本当に理解していません)

1
帰無仮説の下で交換可能なサンプルの背後にある直感は何ですか?
順列テスト(ランダム化テスト、再ランダム化テスト、または正確なテストとも呼ばれます)は非常に便利で、たとえば、必要な正規分布の仮定がt-test満たされていない場合や、ランク付けによる値の変換時に役立ちますノンパラメトリックテストのようにMann-Whitney-U-test、より多くの情報が失われます。ただし、この種の検定を使用する場合、帰無仮説の下でのサンプルの交換可能性の仮定は1つだけの仮定を見落とすべきではありません。coinRパッケージで実装されているようなサンプルが3つ以上ある場合にも、この種のアプローチを適用できることも注目に値します。 この仮定を説明するために、平易な英語で比fig的な言葉や概念的な直観を使ってください。これは、私のような非統計学者の間で見過ごされているこの問題を明確にするのに非常に役立つでしょう。 注: 置換テストの適用が同じ仮定の下で保持または無効にならない場合に言及することは非常に役立ちます。 更新: 私の地区の地元の診療所から無作為に50人の被験者を収集したとします。彼らは、1:1の比率で薬またはプラセボを無作為に割り当てられました。それらはすべてPar1、V1(ベースライン)、V2(3か月後)、およびV3(1年後)のパラメーター1について測定されました。50個の被験者はすべて、機能Aに基づいて2つのグループにサブグループ化できます。Aポジティブ= 20およびAネガティブ=30。これらは、機能Bに基づいて別の2つのグループにサブグループ化することもできます。Bポジティブ= 15およびBネガティブ=35 。今、私はPar1すべての訪問ですべての被験者からの値を持っています。交換可能性の仮定の下で、次のPar1場合に順列検定を使用するレベルを比較でき ますか?-薬物と被験者をV2でプラセボを投与した被験者と比較する ますか?-機能Aの対象とV2の機能Bの対象を比較しますか? -V2で機能Aを持つ対象とV3で機能Aを持つ対象を比較しますか? -この比較はどのような状況で無効であり、交換可能性の仮定に違反しますか?
15 hypothesis-testing  permutation-test  exchangeability  r  statistical-significance  loess  data-visualization  normal-distribution  pdf  ggplot2  kernel-smoothing  probability  self-study  expected-value  normal-distribution  prior  correlation  time-series  regression  heteroscedasticity  estimation  estimators  fisher-information  data-visualization  repeated-measures  binary-data  panel-data  mathematical-statistics  coefficient-of-variation  normal-distribution  order-statistics  regression  machine-learning  one-class  probability  estimators  forecasting  prediction  validation  finance  measurement-error  variance  mean  spatial  monte-carlo  data-visualization  boxplot  sampling  uniform  chi-squared  goodness-of-fit  probability  mixture  theory  gaussian-mixture  regression  statistical-significance  p-value  bootstrap  regression  multicollinearity  correlation  r  poisson-distribution  survival  regression  categorical-data  ordinal-data  ordered-logit  regression  interaction  time-series  machine-learning  forecasting  cross-validation  binomial  multiple-comparisons  simulation  false-discovery-rate  r  clustering  frequency  wilcoxon-mann-whitney  wilcoxon-signed-rank  r  svm  t-test  missing-data  excel  r  numerical-integration  r  random-variable  lme4-nlme  mixed-model  weighted-regression  power-law  errors-in-variables  machine-learning  classification  entropy  information-theory  mutual-information 

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.