タグ付けされた質問 「normal-distribution」

正規分布、つまりガウス分布には、対称的な鐘型の曲線である密度関数があります。これは、統計で最も重要な分布の1つです。[normality]タグを使用して、正常性のテストについて尋ねます。

2
中心打ち切り正規サンプルの分散の推定
分散を推定するために使用したい小さなサンプル(nは通常10から30)を取得する正規分散プロセスがあります。しかし、サンプルが非常に接近しているため、中心付近の個々のポイントを測定できないことがよくあります。 順序付けられたサンプルを使用して効率的な推定量を構築できるはずであるという漠然とした理解があります。たとえば、サンプルに20のポイントが含まれ、10が中心付近に密集しすぎて個別に測定できない場合、個別の測定があります。 5どちらかの側に、そのようなサンプルを最適に使用するプロセス分散を推定するための標準/公式のアプローチはありますか? (中心の平均に重みを付けることはできないと思います。たとえば、7つのサンプルが密にクラスター化する一方で、別の3つが非対称に片側に歪んでいる可能性がありますが、十分に近いので、面倒な単一のサンプリングなしではそのことがわかりません。 。) 答えが複雑な場合は、私が何を研究すべきかについてのヒントをいただければ幸いです。たとえば、これは注文統計の問題ですか?公式な答えがある可能性はありますか、またはこれは計算上の問題ですか? 更新された詳細:アプリケーションは射撃ターゲットの分析です。単一の基礎となるサンプルは、ターゲットへの単一ショットの影響点(x、y)です。基になるプロセスには対称的な2変量正規分布がありますが、軸間に相関関係がないため、{ x }と{ y }のサンプルを同じ正規分布から独立した描画として扱うことができます。(小規模のためにこれ、我々はまた、基本的なプロセスがレイリー分布していると言うことができるが、我々は、プロセスの「真の」中心の座標を特定することはできませんので、我々は、レイリー変量サンプルを測定することはできませんnは大幅にすることができサンプルの中心から離れている(、))ˉ Yバツ¯x¯\bar{x}y¯y¯\bar{y} ターゲットとそれに発砲されたショットの数が与えられます。問題は、n >> 3の場合、正確な銃は通常、異なるショットに囲まれた「不規則な穴」を撃つことです。穴のx-とy-の幅を観察できますが、穴のどこに明確でないショットが影響したかはわかりません。 次に、より問題の多いターゲットの例をいくつか示します。 (確かに、理想的な世界では、ショットごとにターゲットを変更/切り替えてから、サンプルを分析のために集約します。多くの場合、非現実的ですが、可能な場合に行われます)。 コメントでのWHuberの説明に続く次の注意事項:ショットは、均一で既知の直径のターゲット穴を生成します。ショットが「不規則なグループ」の外にある場合、発射体の半径がわかっているため、正確な中心測定できます。各「不揃いのグループ」では、いくつかの周辺の「ボール」を識別し、既知の発射体の半径に基づいて、これらの外側のショットの正確な中心をマークすることができます。これは、「不規則なグループ」の内部のどこかでのみ影響を受けていることがわかっている残りの「中央検閲」ショットです(通常、ターゲットごとに1つです)。バツ私xix_i 解決を容易にするために、これを法線から1次元のサンプルのセットに減らすことが最も簡単であると考えます。幅がw > dの中心間隔で、dは発射体の直径で、c < nの「打ち切られた」サンプルを含みます。

1
ガウス過程とウィシャート分布の共分散行列
一般化されたウィシャートプロセス(GWP)に関するこのペーパーを読んでいます。この論文では、2乗指数共分散関数、つまりを使用して、さまざまな確率変数(ガウスプロセスに従って)間の共分散を計算します。次に、この共分散行列はGWPに従います。K(x,x′)=exp(−|(x−x′)|22l2)K(x,x′)=exp⁡(−|(x−x′)|22l2)K(x,x') = \exp\left(-\frac{|(x-x')|^2}{2l^2}\right) 私は、線形共分散関数()K(x,x′)=xTx′K(x,x′)=xTx′K(x,x') = x^Tx'から計算された共分散行列は、適切なパラメーターを使用してウィシャート分布に従うと考えていました。 私の質問は、二乗指数共分散関数を使用してウィシャート分布に従う共分散をまだどのように仮定できるかです。また、一般的に、Wishart分散共分散行列を生成するための共分散関数に必要な条件は何ですか?

5
スキュー正常データの仮説検定はできますか?
もともとは通常配布されていると思っていたデータのコレクションがあります。次に、実際にそれを見て、そうではないことに気づきました。ほとんどの場合、データが歪んでいるためです。また、shapiro-wilksテストも行いました。 それでも統計的手法を使用して分析したいので、スキュー正規性の仮説検定を行いたいと思います。 したがって、スキューの正常性をテストする方法があるかどうか、また可能であれば、テストを行うためのライブラリがあるかどうかを知りたいのです。

3
正規分布からのサンプル標準偏差の標準偏差を見つけるにはどうすればよいですか?
私がかなり明白な何かを見逃した場合、私を許してください。 私は物理学者であり、本質的には正規分布に近似する平均値を中心とした(ヒストグラム)分布です。私にとって重要な値は、このガウス確率変数の標準偏差です。サンプル標準偏差のエラーを見つけるにはどうすればよいですか?元のヒストグラムの各ビンのエラーと関係があると感じています。

1
美容師の難問
私の美容院のステイシーはいつも幸せそうな顔をしていますが、彼女の時間を管理することについてしばしばストレスを感じています。今日、ステイシーは私の約束のために遅れ、非常に謝罪しました。私の散髪をしている間、私は疑問に思いました:彼女の標準的な予定はどれくらいの長さであるべきですか?(お客様がクリーンなラウンド数を好む場合は、しばらくの間無視できます)。 考慮すべきことは、特定の「波及効果」であり、非常に遅い顧客の1人が一連の遅延した予約につながる可能性があります。実際には、美容師は直感的に、これらのストレスの多い日々を恐れて、予定を長くすることを直感的に学びます。しかし、最適でエレガントなソリューションは、統計的な天才によって達成可能でなければなりません。(現実を少し落とす場合) 仮定しましょう a)ヘアカット時間は通常分散され、 b)ヘアドレッサーは1つだけです。 予定を長く設定しすぎると、美容師が次の予定を待つ時間が無駄になることは明らかです。この無駄な時間は1分あたり1ドルかかります。 しかし、予定が十分に長くない場合、次の顧客は待たされ続けます。これは、顧客を愛するStaceyにとって、1分あたり3ドルのより重いコストです。 Staceyは1日あたり最大8時間働き、十分な数のアポイントメントを入力できる十分な需要があります。 平均的なヘアカットは、標準で30分かかります。10分の開発。(男性のカットも女性のカットも同じであるとしましょう!) 編集-一部の人は、Staceyが指定された時間より前にEARLYの顧客に出席できることを正しく指摘しました。これにより、さらに複雑なレイヤーが追加されますが、これを非常に現実的な問題として扱う場合は、それを含める必要があります。私の90/10仮定を忘れて、おそらく少し現実に近い仮定を試してみましょう。 遅れている顧客もいれば、早い顧客もいます。顧客の平均は2分遅れており、標準偏差は2分です(音は現実にかなり近いですか?) 正確にどのくらい彼女の予定が必要ですか? @alexplanation申し訳ありませんが、ゴールポストを移動しました!Rの読者はあなたの答えに感謝していると思います。

2
ウィルクスの定理との有限混合でガウシアンの数を見つけますか?
一連の独立した同一分布の単変量観測と、生成方法に関する2つの仮説があるとします。xxxxxx H0H0H_0: は、平均と分散が不明な単一のガウス分布から描画されます。xxx HAHAH_A: は、平均、分散、混合係数が不明な2つのガウス分布の混合物から描画されます。xxx 私が正しく理解している場合、これらはネストされたモデルです表すモデルは、2つのガウスのパラメーターが同一になるように制約するか、2つのガウスの1つについて混合係数がゼロになるように制約する場合、記述できるためです。 H0H0H_0HAHAH_A したがって、EMアルゴリズムを使用してのパラメーターを推定し、ウィルクスの定理を使用してのデータの可能性がのデータの可能性よりも大幅に高いかどうかを判断できるように思われ。EMアルゴリズムがここで最大の可能性に収束するという仮定には多少の信頼がありますが、それは私が喜んで作成するものです。HAHAH_AHAHAH_AH0H0H_0 モンテカルロシミュレーションでこれを試しましたは(2番目のガウス分布と混合パラメーターの平均と分散)よりも3自由度が高いと仮定しています。からのデータをシミュレートすると、実質的に不均一で小さなP値に富んだP値の分布が得られました。(EMが真の最大尤度に収束していなかった場合、正反対が予想されます。)このバイアスを生み出しているウィルクスの定理の私の適用の何が問題になっていますか?HAHAH_AH0H0H_0H0H0H_0

4
与えられた標準偏差で、ほぼ正規分布の非対角要素を持つランダム相関行列を生成する方法
非対角要素の分布がほぼ通常のように見えるように、ランダム相関行列を生成したいと思います。どうすればできますか? 動機はこれです。時系列データのセットの、相関分布は通常、非常によく似ています。多くの「通常の」相関行列を生成して、一般的な状況を表し、それらを使用してリスク数を計算したいと思います。nnn 私は1つの方法を知っていますが、結果として得られる(非対角要素の分布の)標準偏差が小さすぎます。行列均一または通常のランダムな行を生成し、行を標準化します(平均を減算します。標準偏差で除算)、サンプル相関行列は通常、対角線上にないエントリを配布します[ コメントの後に更新:標準偏差は ]。X 1nnnXX\mathbf X〜N-1/21n−1XX⊤1n−1XX⊤\frac{1}{n-1}\mathbf X \mathbf X^\top∼n−1/2∼n−1/2\sim n^{-1/2} 標準偏差を制御できるより良い方法を誰かが提案できますか?

1
R / mgcv:なぜte()とti()テンソル積が異なる表面を生成するのですか?
のmgcvパッケージにRは、テンソル積の相互作用をフィッティングするための2つの関数がte()ありti()ます。私は2つの作業の基本的な分業を理解しています(非線形の相互作用を当てはめるか、この相互作用を主効果と相互作用に分解するか)。私が理解していないのは、なぜte(x1, x2)、そしてti(x1) + ti(x2) + ti(x1, x2)(わずかに)異なる結果を生成するのかということです。 MWE(から適応?ti): require(mgcv) test1 <- function(x,z,sx=0.3,sz=0.4) { x <- x*20 (pi**sx*sz)*(1.2*exp(-(x-0.2)^2/sx^2-(z-0.3)^2/sz^2)+ 0.8*exp(-(x-0.7)^2/sx^2-(z-0.8)^2/sz^2)) } n <- 500 x <- runif(n)/20;z <- runif(n); xs <- seq(0,1,length=30)/20;zs <- seq(0,1,length=30) pr <- data.frame(x=rep(xs,30),z=rep(zs,rep(30,30))) truth <- matrix(test1(pr$x,pr$z),30,30) f <- test1(x,z) y <- f + rnorm(n)*0.2 par(mfrow = c(2,2)) # …
11 r  gam  mgcv  conditional-probability  mixed-model  references  bayesian  estimation  conditional-probability  machine-learning  optimization  gradient-descent  r  hypothesis-testing  wilcoxon-mann-whitney  time-series  bayesian  inference  change-point  time-series  anova  repeated-measures  statistical-significance  bayesian  contingency-tables  regression  prediction  quantiles  classification  auc  k-means  scikit-learn  regression  spatial  circular-statistics  t-test  effect-size  cohens-d  r  cross-validation  feature-selection  caret  machine-learning  modeling  python  optimization  frequentist  correlation  sample-size  normalization  group-differences  heteroscedasticity  independence  generalized-least-squares  lme4-nlme  references  mcmc  metropolis-hastings  optimization  r  logistic  feature-selection  separation  clustering  k-means  normal-distribution  gaussian-mixture  kullback-leibler  java  spark-mllib  data-visualization  categorical-data  barplot  hypothesis-testing  statistical-significance  chi-squared  type-i-and-ii-errors  pca  scikit-learn  conditional-expectation  statistical-significance  meta-analysis  intuition  r  time-series  multivariate-analysis  garch  machine-learning  classification  data-mining  missing-data  cart  regression  cross-validation  matrix-decomposition  categorical-data  repeated-measures  chi-squared  assumptions  contingency-tables  prediction  binary-data  trend  test-for-trend  matrix-inverse  anova  categorical-data  regression-coefficients  standard-error  r  distributions  exponential  interarrival-time  copula  log-likelihood  time-series  forecasting  prediction-interval  mean  standard-error  meta-analysis  meta-regression  network-meta-analysis  systematic-review  normal-distribution  multiple-regression  generalized-linear-model  poisson-distribution  poisson-regression  r  sas  cohens-kappa 

1
歪んだ正規分布のパラメーター推定
スキュー法線の公式パラメーター推定値は何ですか?可能であれば、MLEまたはMomによる派生もすばらしいでしょう。ありがとう 編集。 プロットが少し左に傾いていることで視覚的に確認できる一連のデータがあります。平均と分散を推定してから、適合度検定を実行したいのです(これがパラメーター推定が必要な理由です)。私はスキュー(アルファ)を​​推測する必要があると思っているのは正しいですか? 私は自分の理解のためにMLEの派生を望んでいます-私はMLEに慣れているので、MoMよりもMLEを好みます。 2つ以上の一般的なスキュー正常があるかどうか確信がありませんでした。可能であれば、スキュー指数指数パラメータの推定も役立ちます。

2
T統計が正規分布に従うためにデータを必要とする理由
私はこのノートブックを見ていましたが、次のステートメントに戸惑いました。 正規性について説明すると、データは正規分布のように見えるはずです。いくつかの統計検定はこれに依存しているため(たとえば、t統計)、これは重要です。 T統計が正規分布に従うためにデータを必要とする理由がわかりません。 確かに、ウィキペディアは同じことを言っています: 学生のt分布(または単にt分布)は、正規分布された母集団の平均を推定するときに発生する連続確率分布のファミリーのメンバーです。 しかし、なぜこの仮定が必要なのか理解できません。 その式からは、データが正規分布に従う必要があることはわかりません。 私はその定義を少し見ましたが、なぜ条件が必要なのかわかりません。

3
正規分布の歪度と尖度の値の範囲
データが正規分布していると見なされる歪度と尖度の値の範囲はどのくらいか知りたい。 私は多くの議論を読みました、そしてほとんど私は混同した答えを得ました。いくつかは歪度ため言うと(- 2 、2 )正規分布しているの許容範囲である尖度ため。いくつかは述べています(- 1.96 、1.96 )歪度については許容範囲です。私はここで詳細な議論を見つけました:この問題に関するデータの正規分布の歪度と尖度の許容範囲はどのくらいですか?しかし、私は決定的な発言を見つけることができませんでした。(- 1 、1 )(−1,1)(-1,1)(- 2 、2 )(−2,2)(-2,2)(- 1.96 、1.96 )(−1.96,1.96)(-1.96,1.96) そのような間隔を決定するための根拠は何ですか?これは主観的な選択ですか?または、これらの間隔の背後にある数学的説明はありますか?

2
PythonでのQQプロット
次のコードを使用してqqプロットを生成しました。qqプロットは、データが正常に分布しているかどうかを確認するために使用されることを知っています。私の質問は、x軸とy軸のラベルがqqプロットで何を示し、そのr二乗値が何を示しているかです。 N = 1200 p = 0.53 q = 1000 obs = np.random.binomial(N, p, size = q)/N import scipy.stats as stats z = (obs-np.mean(obs))/np.std(obs) stats.probplot(z, dist="norm", plot=plt) plt.title("Normal Q-Q plot") plt.show() すでにqq plotについての議論があることは知っていますが、その議論を経験したにもかかわらず、の概念を理解できませんでした。

1
従属カイ2乗確率変数の比率の分布
仮定X I〜N (0 、σ 2)独立しています。X=X1+X2+⋯+XnX=X1+X2+⋯+Xn X = X_1 + X_2+\cdots+ X_n Xi∼N(0,σ2)Xi∼N(0,σ2)X_i \sim N(0,\sigma^2) 私の質問は、ディストリビューションが何をするかです Z=X2X21+X22+⋯+X2nZ=X2X12+X22+⋯+Xn2 Z = \frac{X^2}{X_1^2 + X_2^2 + \cdots + X_n^2} フォローする?ここから、Wとして表される2つのカイ2乗確率変数の比率がはベータ分布に従います。これはWとYの間の独立性を前提としていると思います。私の場合でも、Zの分母にはXの2乗の成分が含まれています。WW+YWW+Y\frac{W}{W + Y}WWWYYYZZZXXX もベータ分布のバリエーションに従う必要があると思いますが、よくわかりません。この仮定が正しい場合、それを証明する方法がわかりません。ZZZ


3
コインを弾くときは、2項式のcdfまたは通常のcdfを使用する必要がありますか?
コインは、公平性をテストする必要があります。50フリップした後、30ヘッドがアップします。コインが公正であると仮定すると、50回のフリップで少なくとも30枚のヘッドが得られる確率はどのくらいですか? 私の先生によると、この問題を解決する正しい方法は、 normalcdf(min = .6, max = ∞, p = .5, σ = sqrt(.5 * .5 / 50) = 0.0786 しかし、私はこのような二項累積分布関数を取った 1 - binomcdf(n = 50, p = .5, x = 29) = 0.1013 二項分布の基準は満たされていると思います:個々のイベントは独立しており、考えられる結果は2つ(表と裏)のみで、確率は質問(0.5)に対して一定で、試行回数は50に固定されています。 。しかし、明らかに、2つの方法は異なる答えを出し、シミュレーションは私の答えをサポートします(少なくとも私が実行した数回。明らかに、同じ結果が得られることは保証できません)。 正規分布曲線もこの問題を実行する有効な方法であると仮定して、先生は間違っていますか(分布は正規であるとは言われていませんが、n * pとn *(1-p)はどちらも10)、または二項分布について何か誤解しましたか?

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.