タグ付けされた質問 「normal-distribution」

正規分布、つまりガウス分布には、対称的な鐘型の曲線である密度関数があります。これは、統計で最も重要な分布の1つです。[normality]タグを使用して、正常性のテストについて尋ねます。

2
この「現象」とは何ですか?
以下は、いくつかのデータのヒストグラムです。ビンは整数で、他のパラメーターは関係ありません。 ご覧のように、奇数と偶数の2つの別々の重複する正規分布があるようです。 偶数になる確率は1/3、奇数の場合は2/3です。 正直に言うと、これの実際の統計的有意性がわからないので、詳細を知ることさえ調べようとしていますが、何も見つけることができません。画像検索を逆にしても、マルチモーダル分布などに関する情報しか得られず、マルチモーダル分布が実際にこの方法で実際にオーバーラップする時期について何も見つからない これに名前はありますか? 興味のある人のためのデータは、MATLABスクリプトを使用した1,000,000のランダム化されたgoofspielゲーム(N = 13)からのものです。 N = 1000000; random = zeros(1,N); for i = 1 : N pc = randperm(13); p1 = randperm(13); p2 = randperm(13); random(i) = sum(pc.*sign(p1-p2)); end histogram(random,'BinMethod','integer') より一般的な(人工的なものですが)例は次のようになります a = [1:50 50:-1:1]; b = normpdf(linspace(-2,2),0,0.5).*50; c = a; rng('default') %For reproducibility d = …

2
正規確率変数の逆ロジットの期待
ランダム変数Y= eバツ1 + eバツY=eX1+eXY = \frac{e^{X}}{1 + e^{X}}と私はを知っています。バツ〜N(μ 、σ2)X∼N(μ,σ2)X \sim N(\mu, \sigma^2) を計算する方法はありますか?私は積分を計算しようとしましたが、あまり進歩していません。可能ですか?E(Y)E(Y)\mathbb{E}(Y)

2
一貫性のない正規性テスト:Kolmogorov-Smirnov対Shapiro-Wilk
現在、私が書いたMCシミュレーションによって生成されたデータを調べています。値が正規分布していると思います。当然、私はヒストグラムをプロットし、それは妥当に見えます(私は推測しますか?): [左上:ヒストグラムdist.pdf()、右上:累積ヒストグラムdist.cdf()、下:QQプロット、data対dist] 次に、いくつかの統計的検定を使用してこれをさらに詳しく調べることにしました。(注意してくださいdist = stats.norm(loc=np.mean(data), scale=np.std(data))。)私がしたことと私が得た出力は次のとおりです: コルモゴロフ-スミルノフ検定: scipy.stats.kstest(data, 'norm', args=(data_avg, data_sig)) KstestResult(statistic=0.050096921447209564, pvalue=0.20206939857573536) Shapiro-Wilkテスト: scipy.stats.shapiro(dat) (0.9810476899147034, 1.3054057490080595e-05) # where the first value is the test statistic and the second one is the p-value. QQプロット: stats.probplot(dat, dist=dist) これからの私の結論は: ヒストグラムと累積ヒストグラムを見ることで、私は間違いなく正規分布を仮定します QQプロットを見た後も同じことが言えます(これまでにずっと良くなっていますか?) KSテストは言う:「はい、これは正規分布です」 私の混乱は次のとおりです。SW検定では、正規分布ではないことが示されています(p値は有意性よりはるかに小さくalpha=0.05、初期の仮説は正規分布でした)。これは理解できません。誰かより良い解釈がありますか?ある時点で失敗しましたか?

2
場合
教科書で以下を見ましたが、その概念を理解するのに苦労しました。は通常E(X n)= 0およびVar(X n)= 1で分布することを理解していますバツんXnX_nバツんXnX_nバツんXnX_n。1ん1n\frac{1}{n} ただし、に√を乗算する理由がわかりません バツんXnX_n は、標準の標準にします。ん−−√n\sqrt n

3
SVDを実行して欠損値を代入する方法、具体例
SVDを適用する前に欠損値を処理する方法に関する素晴らしいコメントを読みましたが、簡単な例でどのように機能するか知りたいです。 Movie1 Movie2 Movie3 User1 5 4 User2 2 5 5 User3 3 4 User4 1 5 User5 5 1 5 上記のマトリックスを考えると、NAの値を削除すると、User2とUser5しかなくなります。これは、私のUが2×kになることを意味します。しかし、欠損値を予測する場合、Uは5×kである必要があります。これは、特異値とVで乗算できます。 上記のマトリックスで、最初に欠損値のあるユーザーを削除してからSVDを適用して、欠損値を記入する人はいますか?数学記号を使いすぎずに、適用した手順の非常に簡単な説明を提供し、答えを実用的なものにしてください(つまり、数値に別の数値を掛けると答えが得られます)。 次のリンクを読みました。 stats.stackexchange.com/q/33142 stats.stackexchange.com/q/31096 stats.stackexchange.com/q/33103
8 r  missing-data  data-imputation  svd  sampling  matlab  mcmc  importance-sampling  predictive-models  prediction  algorithms  graphical-model  graph-theory  r  regression  regression-coefficients  r-squared  r  regression  modeling  confounding  residuals  fitting  glmm  zero-inflation  overdispersion  optimization  curve-fitting  regression  time-series  order-statistics  bayesian  prior  uninformative-prior  probability  discrete-data  kolmogorov-smirnov  r  data-visualization  histogram  dimensionality-reduction  classification  clustering  accuracy  semi-supervised  labeling  state-space-models  t-test  biostatistics  paired-comparisons  paired-data  bioinformatics  regression  logistic  multiple-regression  mixed-model  random-effects-model  neural-networks  error-propagation  numerical-integration  time-series  missing-data  data-imputation  probability  self-study  combinatorics  survival  cox-model  statistical-significance  wilcoxon-mann-whitney  hypothesis-testing  distributions  normal-distribution  variance  t-distribution  probability  simulation  random-walk  diffusion  hypothesis-testing  z-test  hypothesis-testing  data-transformation  lognormal  r  regression  agreement-statistics  classification  svm  mixed-model  non-independent  observational-study  goodness-of-fit  residuals  confirmatory-factor  neural-networks  deep-learning 

1
ガウス確率変数の2次多項式の分布
を計算したい P(Y= a X2+ b X+ c &lt; 0 )P(Y=aX2+bX+c&lt;0)P(Y=aX^2+bX+c<0) ここで、です。モンテカルロを使えば簡単にできます。ただし、私は分析pdfを見つけて計算するように求められましたF Y(Y )Yバツ〜N(0 、σ)X∼N(0,σ)X \sim N(0,\sigma)fY(y)fY(y)f_Y(y)YYY 私= ∫0- ∞fY(y)dyI=∫−∞0fY(y)dyI=\int_{-\infty}^0 f_Y(y) dy 私は推測あるようになり唯一の数値計算することができます。ただし、これは一変量の積分であるため、非常に高い精度で計算するための数値手法を利用できます。(比較的単純な)式があるので、数値積分を実行できますか?または、モンテカルロ(私の意見では最も賢明なアプローチです)以外、を計算する別の可能性はありますか? I f Y(y )IfY(y)fY(y)f_Y(y)私IIfY(y)fY(y)f_Y(y)私II


3
ガウス尤度+どの事前=ガウス限界か?
サンプルについてガウス尤度を与え様とのパラメータ空間とされて、平均ベクトルと共分散行列の任意のパラメーター化。yyyp(y|θ)=N(y;μ(θ),Σ(θ))p(y|θ)=N(y;μ(θ),Σ(θ))p(y|\theta) = \mathcal{N}(y;\mu(\theta),\Sigma(\theta))ΘΘ\Thetaμ(θ)μ(θ)\mu(\theta)Σ(θ)Σ(θ)\Sigma(\theta) 限界尤度なるように、事前密度と平均ベクトルおよび共分散行列パラメーター化を指定することは可能ですか?はガウス尤度ですか?p(θ)p(θ)p(\theta)μ(θ)μ(θ)\mu(\theta)Σ(θ)Σ(θ)\Sigma(\theta)p(y)=∫θ∈ΘN(y;μ(θ),Σ(θ))p(θ)dθp(y)=∫θ∈ΘN(y;μ(θ),Σ(θ))p(θ)dθp(y)=\int_{\theta\in\Theta}N(y;\mu(\theta),\Sigma(\theta))p(\theta)d\theta 共分散がわかっている自明な解、つまりを除外すると思います。ここで、は任意の固定共分散行列ですが、これは不可能です。Σ(θ)=ΣΣ(θ)=Σ\Sigma(\theta)=\SigmaΣΣ\Sigma 特別な場合および、つまりは1次元であり、、ここでは、表示できる均一密度を示します: μ(σ2)=μμ(σ2)=μ\mu(\sigma^2)=\muΣ(σ2)=σ2Σ(σ2)=σ2\Sigma(\sigma^2)=\sigma^2yyyp(σ2)=U(σ2;a,b)p(σ2)=U(σ2;a,b)p(\sigma^2)=\mathcal{U}(\sigma^2;a,b)U(σ2;a,b)U(σ2;a,b)\mathcal{U}(\sigma^2;a,b)p(y)=∫∞0N(y;μ,σ2)U(σ2;a,b)dσ2=1b−a∫baN(y;μ,σ2)not a Gaussian densityp(y)=∫0∞N(y;μ,σ2)U(σ2;a,b)dσ2=1b−a∫abN(y;μ,σ2)⏟not a Gaussian density\begin{align} p(y)&=\int_0^\infty \mathcal{N}(y;\mu,\sigma^2)\mathcal{U}(\sigma^2;a,b)d\sigma^2 \\ &= \frac{1}{b-a} \underbrace{\int_a^b \mathcal{N}(y;\mu,\sigma^2)}_\text{not a Gaussian density} \end{align} 受け入れられた回答には、公式または非公式の証明またはそれへのポインタが含まれています。

1
なぜ確率的PCAは潜在変数よりガウス事前分布を使用するのですか?
現在、確率的PCAに関する論文を読んでいますが、潜在変数にガウスの事前(他の事前ではなく)が選ばれるのはなぜですか?それは単純な理由だけですか、それとも別の理由がありますか? 参照: Tipping&Bishop、1999年、確率論的主成分分析 -eq。(2) Tipping&Bishop、1999、Mixtures of Probabilistic Principal Component Analyzers -eq。(4)

1
線形回帰の正規分布におけるOLSと最大尤度
単純な線形回帰モデルの場合、OLSと最尤法(正規分布を想定)の両方で同じ出力(パラメーター値)が得られることがわかりました。このことから、OLSは正規分布についても暗黙の仮定を行っていると言えますか?両方が同じ値を生成する理由に興味はありませんが、どちらがデータについてそれほど厳密ではない仮定をするのですか?

4
基本的な計算を使用して1.5標準偏差を計算できないのはなぜですか?
なぜ1.5標準偏差を追加して答えを得ることができないのか理解できません。 1標準偏差が10kgで平均が400kgの場合、415kgは1.5標準偏差です。 だから私はこのように計算しました: .3413 + ((.4772-.3413)/2) = 0.40925 この方程式は、2つの標準偏差と1つの標準偏差の差の半分をとり、それを最初の標準偏差に加算します。 なぜこれが機能しないのですか?提供されている表を使用する必要があるのはなぜですか?

2
歪度、尖度、および平均からの標準偏差値の数
正規分布でよく知られているように、確率質量の68%は平均の1標準偏差以内、95%は2標準偏差以内、99.7%は3標準偏差以内です。 しかし、私はいくつかの経験的分布を持っています。それはレプトクールで負に歪んでいます。そのような状況で、平均のそれほど多くの標準偏差内にある確率質量の量を計算するために、それらの高次モーメントに基づく式はありますか? 私には測定値があり、それが中点からどのくらい離れているかについての感覚を与えたいと思います(平均または他の中心傾向の測定値)。 これはできますか?

4
与えられた分布の平均がわかっているとしましょう。これは確率変数の分散の区間推定(サンプル分散を使用して計算される)に影響しますか?のように、同じ信頼水準に対してより小さな間隔を取得できますか?

1
混合効果モデルのグループ効果は、正規分布から選ばれたと想定されていますか?
たとえば、生徒の学習時間数が生徒の試験の成績にどのように影響するかに興味があるとします。私たちはいくつかの異なる学校の生徒をサンプリングします。我々は、次の混合効果モデルを実行します。 Exam.grades私= a + β1× 時間。私+ 学校j+ e私Exam.grades私=a+β1×hours.studied私+学校j+e私 \text{exam.grades}_i = a + \beta_1 \times \text{hours.studied}_i + \text{school}_j + e_i このモデルでは、各学校はより多くの学校の人口から選ばれたと想定され、学校の効果は正規分布していると言ってもいいでしょうか。したがって、学校の集団効果について、すべての「通常の」正規分布型の手順を実行できますか?学校の68%のようなものは、学校の平均集団効果の1標準偏差以内になると言えるでしょうか。また、学校の全体的な平均グループ効果の95%信頼区間を計算できますか? また、学校の固定効果による線形回帰では、参照グループとダミー変数を使用しているため、これらの正規分布統計を計算できないと言っていいでしょうか?

1
t分布に従って正確に何が分布されますか?
t分布の背後にある考え方を理解しようとします。これまでに理解した手順は次のとおりです。 N要素のサンプルを使用して、母平均を推定します。詳細には、母平均の推定値としてサンプル平均を使用します。 見積もりが実際の値にどれだけ近いかを知りたいのです。または、より具体的には、母平均が特定の確率でこの間隔内にあると言えるように、サンプル平均の周囲の間隔をどのくらい大きくする必要があるかを知りたいです。 この質問に答えるために、母集団の値は、既知の平均と標準偏差をもつ正規分布に従って分布していると仮定します。 母集団内の値の分布のパラメータがあれば、母集団の分布と標本のサイズの関数として、標本平均の分布を計算できます。 標本平均の分布も、次の数式で与えられる母集団分布と標準偏差と同じ平均の正規分布であることを示すことができます。ここで、は標本のサイズです。 Ns = σ/ N−−√s=σ/Ns = \sigma/\sqrt{N}NNN サンプル平均の分布があれば、サンプル平均が実際の平均からXだけ離れている確率を簡単に計算できます。つまり、母平均がサンプル平均の周りの特定の間隔内にある確率を計算できます。 。 ほぼ必要なものです。唯一の問題は、実際の設定では、母集団の分布の標準偏差がわからないことが多いことです(これは、母集団の平均値の周囲に標本平均がどのように分布するかを決定するパラメーターです)。 私たちにできることは、母集団標準偏差を標本標準偏差で置き換えることです。言い換えると、正確な未知のパラメータを、その概算で置き換えます。 だから、これが今のところです。母集団STDを標本STDで置き換えることにより、標本平均の分布の推定をさらに悪くします。そして、分布のパラメーターのこの「誤った」値を「補正」するために、分布の形状を変更します(これは正規分布ではなくなったと言います。これはt分布です)。しかし、t分布に従って正確に何が分布されるのでしょうか。母集団STDがわかっている場合、標本平均が母集団平均の周囲にどのように分布しているかがわかります。これで、母集団のSTDはわかりませんが、母集団の平均値の周りの標本平均の分布は変わりません。

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.