タグ付けされた質問 「normal-distribution」

正規分布、つまりガウス分布には、対称的な鐘型の曲線である密度関数があります。これは、統計で最も重要な分布の1つです。[normality]タグを使用して、正常性のテストについて尋ねます。

1
X、YはN(0,1)からのidです。X> 2Yである確率はどれくらいですか
以来、私は、考えていたからあるN (0 、1 )、その後、彼らは独立していますX,YX,YX, YN(0,1)N(0,1)N(0,1) 分布有し N (0 、5 )。次いで、 X - 2 Y > 0の確率有する 1 / 2。X−2YX−2YX - 2YN(0,5)N(0,5)N(0, 5)X−2Y>0X−2Y>0X-2Y > 01/21/21/2 上記のことは、その後のように思えるが、私には正しいようだ 確率だろう1 / 2。それは少し間違っているようです。何か問題がありましたか?X>nYX>nYX>nY1/21/21/2

1
正規分布の高次積への期待
平均ゼロと共分散行列Σを持つ2つの正規分布変数とX 2があります。E [ X 2 1 X 2 2 ]の値をΣのエントリで計算することに興味があります。バツ1X1X_1バツ2X2X_2ΣΣ\SigmaE[ X21バツ22]E[X12X22]E[X_1^2 X_2^2]ΣΣ\Sigma 総確率の法則を使用して、 が、内部の期待値が何になるのかわかりません。ここに別の方法はありますか?E[ X21バツ22] = E[ X21E[ X22| バツ1] ]E[X12X22]=E[X12E[X22|X1]]E[X_1^2 X_2^2] = E[X_1^2 E[X_2^2 | X_1]] ありがとう。 編集:変数も多変量正規分布です。

1
最尤推定はどのようにして近似正規分布を持っていますか?
適合分布を生成する方法としてMLEについて読んでいます。 最尤推定値は「おおよその正規分布をしている」という声明に出くわしました。 これは、自分のデータと適合させようとしている分布のファミリーにMLEを繰り返し適用した場合、取得したモデルは通常の分布になることを意味しますか?一連の分布にはどの程度正確に分布がありますか?

1
通常のサンプルからの最小次数統計の期待値
2014年1月25日更新: 間違いは修正されました。アップロードされた画像の期待値の計算値は無視してください-これらは間違っています-この質問に対する回答が生成されたため、画像は削除しません。 2014年1月10日更新: 間違いが見つかりました-使用されたソースの1つにある数学のタイプミス。修正を準備しています... コレクションから最小の順序統計の密度 CDFと連続確率変数をIID F X(X )とPDF F X(X )であり、 F X (1 )(X (1 ))= N F X(X (1 ))[ 1 − F X(x (1 ))] n − 1nnnFX(x)FX(x)F_X(x)fX(x)fX(x)f_X(x)fX(1)(x(1))=nfX(x(1))[1−FX(x(1))]n−1[1]fX(1)(x(1))=nfX(x(1))[1−FX(x(1))]n−1[1]f_{X_{(1)}}(x_{(1)}) = nf_X(x_{(1)})\left[1-F_X(x_{(1)})\right]^{n-1} \qquad [1] これらの確率変数が標準正規である場合、 とその期待値であるので、 E (X (1 )) = N ∫ ∞ - ∞ X (1 …

1
2つのガウスランダムベクトルの内積のモーメント生成関数
誰もが、それぞれが独立してとして分布する2つのガウスランダムベクトルの内積のモーメント生成関数を計算する方法を提案できますか?これに利用できる標準的な結果はありますか?どんなポインタでも大歓迎です。N(0,σ2)N(0、σ2)\mathcal N(0,\sigma^2)

1
統計の分布を見つける
テストのために勉強しています。これには答えられませんでした。 LET IIDこと確率変数。定義するX1,i,X2,i,X3,i,i=1,…,nX1,i,X2,i,X3,i,i=1,…,nX_{1,i},X_{2,i},X_{3,i}, i=1,\ldots,nN(0,1)N(0,1)\mathcal{N}(0,1) Wi=(X1,i+X2,iX3,i)/1+X23,i−−−−−−−√,i=1,…,nWi=(X1,i+X2,iX3,i)/1+X3,i2,i=1,…,nW_i = (X_{1,i} + X_{2,i}X_{3,i})/\sqrt{1 + X_{3,i}^2}, i = 1, \ldots, n、 および、W¯¯¯¯¯n=n−1∑ni=1WiW¯n=n−1∑i=1nWi\overline{W}_n = n^{-1}\sum_{i=1}^nW_i S2n=(n−1)−1∑ni=1(Wi−W¯¯¯¯¯n)2,n≥2.Sn2=(n−1)−1∑i=1n(Wi−W¯n)2,n≥2.S_n^2 = (n-1)^{-1}\sum_{i=1}^n(W_i - \overline{W}_n)^2, n \ge 2. 、の分布はどうなっていますか?W¯¯¯¯¯nW¯n\overline{W}_nS2nSn2S_n^2 このような問題が発生したときに使用する最善の方法を知るにはどうすればよいですか?

1
観測されたイベントと期待されたイベントを比較する方法は?
4つの可能なイベントの頻度の1つのサンプルがあるとします。 Event1 - 5 E2 - 1 E3 - 0 E4 - 12 そして、私は自分のイベントの発生が予想される確率を持っています: p1 - 0.2 p2 - 0.1 p3 - 0.1 p4 - 0.6 4つのイベントの観測頻度の合計(18)を使用して、イベントの予想頻度を計算できますか? expectedE1 - 18 * 0.2 = 3.6 expectedE2 - 18 * 0.1 = 1.8 expectedE1 - 18 * 0.1 = 1.8 expectedE1 - …
9 r  statistical-significance  chi-squared  multivariate-analysis  exponential  joint-distribution  statistical-significance  self-study  standard-deviation  probability  normal-distribution  spss  interpretation  assumptions  cox-model  reporting  cox-model  statistical-significance  reliability  method-comparison  classification  boosting  ensemble  adaboost  confidence-interval  cross-validation  prediction  prediction-interval  regression  machine-learning  svm  regularization  regression  sampling  survey  probit  matlab  feature-selection  information-theory  mutual-information  time-series  forecasting  simulation  classification  boosting  ensemble  adaboost  normal-distribution  multivariate-analysis  covariance  gini  clustering  text-mining  distance-functions  information-retrieval  similarities  regression  logistic  stata  group-differences  r  anova  confidence-interval  repeated-measures  r  logistic  lme4-nlme  inference  fiducial  kalman-filter  classification  discriminant-analysis  linear-algebra  computing  statistical-significance  time-series  panel-data  missing-data  uncertainty  probability  multivariate-analysis  r  classification  spss  k-means  discriminant-analysis  poisson-distribution  average  r  random-forest  importance  probability  conditional-probability  distributions  standard-deviation  time-series  machine-learning  online  forecasting  r  pca  dataset  data-visualization  bayes  distributions  mathematical-statistics  degrees-of-freedom 

1
短い質問:なぜこれが本当なのですか? 長い質問: 非常に単純に、私はこの最初の方程式を正当化するものを理解しようとしています。私が読んでいる本の著者(必要な場合はここに示しますが、必須ではありません)は次のように主張しています。 ガウスに近いという仮定のため、次のように書くことができます。 p0(ξ)=Aϕ(ξ)exp(an+1ξ+(an+2+12)ξ2+∑i=1naiGi(ξ))p0(ξ)=Aϕ(ξ)exp(an+1ξ+(an+2+12)ξ2+∑i=1naiGi(ξ)) p_0(\xi) = A \; \phi(\xi) \; exp( a_{n+1}\xi + (a_{n+2} + \frac{1}{2})\xi^2 + \sum_{i=1}^{n} a_i G_i(\xi)) ここで、p0(ξ)p0(ξ)p_0(\xi)は、一連の期待値(単純な数)のみを観察した場合に、最大エントロピーを持つ観察データのPDFです。。。nci,i=1...nci,i=1...nc_i, i = 1 ... n、ここでci=E{Gi(ξ)}ci=E{Gi(ξ)}c_i = \mathbb{E}\{G_i(\xi)\}、およびϕ(ξ)ϕ(ξ)\phi(\xi)は、標準化されたガウス変数、つまり平均0、単位分散のPDFです。 このすべてが起こっているのは、PDF、単純化するための出発点として上記の方程式を使用することであり、私は彼がどのようにそれを行うかを取得しますが、私は彼が上記の方程式を正当化する方法を取得しません。出発点。p0(ξ)p0(ξ)p_0(\xi) 私は、誰も難読化しないように簡潔にするよう努めましたが、詳細が必要な場合はコメントでお知らせください。ありがとう!

1
iid(均一または正規)データの固有値の推定分布
各次元がiid(または、各次元)であり、独立しているように、次元(たとえば、)のデータセットがあると仮定しお互い。dddd=20d=20d=20Xi∼U[0;1]Xi∼U[0;1]X_i \sim U[0;1]Xi∼N[0;1]Xi∼N[0;1]X_i \sim \mathcal N[0;1] 次に、このデータセットからランダムオブジェクトを描画し、最近傍点を取り、このセットでPCAを計算します。予想されるのとは対照的に、固有値はすべて同じではありません。20次元のユニフォームでは、一般的な結果は次のようになります。k=3⋅dk=3⋅dk=3\cdot d 0.11952316626613427, 0.1151758808663646, 0.11170020254046743, 0.1019390988585198, 0.0924502502204256, 0.08716272453538032, 0.0782945015348525, 0.06965903935713605, 0.06346159593226684, 0.054527131148532824, 0.05346303562884964, 0.04348400728546128, 0.042304834600062985, 0.03229641081461124, 0.031532033468325706, 0.0266801529298156, 0.020332085835946957, 0.01825531821510237, 0.01483790669963606, 0.0068195084468626625 正規分散データの場合、結果を少なくとも合計に再スケーリングすると、結果は非常に似ているように見えます(分布は、そもそも明らかに分散が大きくなります)。111N[0;1]dN[0;1]d\mathcal N[0;1]^d この動作を予測する結果はあるのでしょうか?一連の固有値がいくらか規則的であるかどうか、および期待どおりの固有値がいくつあるか、および期待値と大幅に異なるものがあるかどうかのテストを探しています。 与えられた(小さい)サンプルサイズ、2つの変数の相関係数が有意である場合、結果はありますか?iid変数でさえ、が低い場合に0以外の結果になることがあります。kkkkkk

1
実験データが裾の重い分布に従っていることをどのように証明できますか?
サーバーの応答遅延に関するいくつかのテスト結果があります。理論分析によると、遅延分布(応答遅延の確率分布関数)は、裾が重い動作になるはずです。しかし、テスト結果がヘビーテール分布に従っていることをどのように証明できますか?

1
RMSEに基づいて精度測定を計算する方法は?大規模なデータセットは通常に配布されますか?
何千ものポイントのデータセットがいくつかあります。各データセットの値は、空間の座標を参照するX、Y、Zです。Z値は、座標ペア(x、y)での標高差を表します。 通常、私のGISの分野では、標高誤差は、RMSEでグラウンドトゥルースポイントを測定ポイント(LiDARデータポイント)に差し引くことで参照されます。通常、最低20のグラウンドトゥルーシングチェックポイントが使用されます。このRMSE値を使用して、NDEP(National Digital Elevation Guidelines)およびFEMAガイドラインに従って、精度の尺度を計算できます:精度= 1.96 * RMSE。 この基本精度は、「基本垂直精度とは、データセット間で垂直精度を公平に評価および比較できる値です。基本精度は、垂直RMSEの関数として95%の信頼水準で計算されます。」 正規分布曲線の下の面積の95%が1.96 * std.deviation内にあることを理解していますが、それはRMSEとは関係ありません。 一般的に私はこの質問をしています:2つのデータセットから計算されたRMSEを使用して、RMSEをある種の精度(つまり、データポイントの95%が+/- X cm以内にある)に関連付けるにはどうすればよいですか?また、このような大きなデータセットでうまく機能するテストを使用して、データセットが通常は分散されているかどうかをどのように判断できますか?正規分布にとって「十分」とは何ですか?すべての検定でp <0.05にする必要がありますか、それとも正規分布の形状と一致させる必要がありますか? 次の論文で、このトピックに関する非常に優れた情報を見つけました。 http://paulzandbergen.com/PUBLICATIONS_files/Zandbergen_TGIS_2008.pdf

2
折りたたまれた正規分布からのサンプリングは、0で切り捨てられた正規分布からのサンプリングと同等ですか?
通常の密度(たとえば、mean = 1、sd = 1)からシミュレーションしたいのですが、正の値のみが必要です。 1つの方法は、法線からシミュレーションし、絶対値を取ることです。これは普通の折りたたみだと思います。 Rには、切り捨てられたランダム変数を生成するための関数があることがわかります。打ち切られた法線(0での打ち切り)からシミュレーションすると、これは折り畳みアプローチと同じですか?


4
2 X 3テーブルで複数の事後カイ2乗検定を実行する方法
私のデータセットは、沿岸、ミッドチャネル、オフショアの3つのサイトタイプでの生物の全死亡率または生存率で構成されています。下の表の数字は、サイトの数を表しています。 100% Mortality 100% Survival Inshore 30 31 Midchannel 10 20 Offshore 1 10 100%の死亡率が発生したサイトの数がサイトのタイプに基づいて重要かどうかを知りたいです。2 x 3カイ2乗を実行すると、重要な結果が得られます。実行できる事後的なペアワイズ比較はありますか、または実際にロジスティックANOVAまたは二項分布の回帰を使用する必要がありますか?ありがとう!

2
一連の数値をガウスの鐘型曲線に強制する
(これは、スタックオーバーフローに関するプログラミングの質問に関連しています:ベルカーブガウスアルゴリズム(Pythonおよび/またはC#)。) Answers.comで、次の簡単な例を見つけました。 算術平均(平均)を見つける=>セット内のすべての値の合計をセット内の要素数で割る セット内のすべての値の二乗の合計を求めます (2)の出力をセット内の要素数で除算する (3)の出力から平均二乗(1)を引く (4)の結果の平方根をとる 例:セットA = {1,3,4,5,7} (1 + 3 + 4 + 5 + 7)/ 5 = 4 (1 * 1 + 3 * 3 + 4 * 4 + 5 * 5 + 7 * 7)= 1 + 9 + 16 + 25 + 49 …

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.