タグ付けされた質問 「normal-distribution」

正規分布、つまりガウス分布には、対称的な鐘型の曲線である密度関数があります。これは、統計で最も重要な分布の1つです。[normality]タグを使用して、正常性のテストについて尋ねます。



1
均一な和分布の正規近似の誤差
正規分布を近似するための単純な方法の1つは、中央限界定理に基づいて、に均一に分布したおそらく IIDランダム変数を加算し、次にリセンタして再スケーリングすることです。(補足:Box-Muller変換など、より正確な方法があります。)IID確率変数の合計は、均一合計分布またはIrwin-Hall分布として知られています。[ 0 、1 ]100100100[ 0 、1 ][0,1][0,1]うん(0 、1 )U(0,1)U(0,1) 正規分布によって均一な和分布を近似する際の誤差はどれくらいですか? このタイプの質問がIIDランダム変数の合計を近似するために出てくるときはいつでも、人々(私を含む)はベリーエッセンの定理を持ち出します。 | Fn(X )- Φ (X )| ≤ Cρσ3n−−√|Fn(x)−Φ(x)|≤Cρσ3n|F_n(x) - \Phi(x)| \le \frac{C \rho}{\sigma^3 \sqrt n} ここで、は IIDランダム変数の再スケーリングされた合計の累積分布関数、は絶対3次中心モーメント、は標準偏差で、はまたはことができる絶対定数です。のn ρ E | (X − E X )3 | σ C 1 1 / 2FnFnF_nnnnρρ\rhoE| (X− Eバツ)3|E|(X−EX)3|E|(X-EX)^3|σσ\sigmaCCC1111 / 21/21/2 これは不十分です。Berry-Esseenの推定は、離散的な二項分布で最もシャープに近く、対称二項分布では最大誤差がであるように思われます。最大のエラーは最大のジャンプで発生します。ただし、均一な合計分布にはジャンプがありません。000 数値テストは、エラーがよりも急速に縮小することを示唆しています。c …

2
名前の意味:精度(分散の逆数)
直感的には、平均は単なる観測の平均です。分散は、これらの観測値が平均値とどれだけ異なるかです。 分散の逆数が精度として知られている理由を知りたいです。これからどのような直観が得られますか?そして、なぜ精度行列は多変量(正規)分布の共分散行列と同じくらい有用なのでしょうか? 洞察してください?

2
-testと
背景:私は仮説テストの仕事をしている同僚にプレゼンテーションを行っており、そのほとんどをうまく理解していますが、他の人に説明するだけでなく、理解しようとする結び目で自分を縛っている側面があります。 これは私が知っていると思うことです(間違っている場合は修正してください!) 分散がわかっている場合は正常な統計、分散が不明な場合はttt分布に従う CLT(中央極限定理):サンプル平均のサンプリング分布は、十分に大きいに対してほぼ正規ですnnn(303030になる可能性があり、大きく歪んだ分布の場合は最大300300300になる可能性があります) ttt -distributionは、自由度のために通常考慮することができる&gt;30&gt;30> 30 次の場合に -testを使用します。zzz 母集団の正規分布と分散が既知(任意のサンプルサイズ) 集団正常、分散不明、(CLTによる)n&gt;30n&gt;30n>30 人口二項、、n q &gt; 10np&gt;10np&gt;10np>10nq&gt;10nq&gt;10nq>10 次の場合に -testを使用します。ttt 母集団は正常、分散は不明、n&lt;30n&lt;30n<30 母集団または分散に関する知識はなく、ですが、サンプルデータは正常に見える/テストなどに合格しているため、母集団は正常であると見なすことができますn&lt;30n&lt;30n<30 だから私は残っています: サンプルについてと&lt; ≈ 300(?)、人口と知られている分散/不明についての知識がありません。&gt;30&gt;30>30&lt;≈300&lt;≈300<\approx 300 だから私の質問は: サンプリング分布が非正規に見える場合、平均のサンプリング分布が正常である(つまり、CLTが作動している)と仮定できるのは(母集団の分布または分散に関する知識がない場合)です。一部のディストリビューションにはが必要であることは知っていますが、n &gt; 30の場合は常にzテストを使用すると言うリソースがあるようです...n&gt;300n&gt;300n>300zzzn&gt;30n&gt;30n>30 よくわからない場合は、データが正常かどうかを調べます。サンプルデータが正常に見える場合、検定を使用します(母集団が正常であり、n &gt; 30であるため)。zzzn&gt;30n&gt;30n>30 不明なケースのサンプルデータが正常に見えない場合はどうですか?まだ -testまたはz -testを使用する状況がありますか、または常にノンパラメトリックテストを変換/使用することを検討していますか?CLTにより、nの値によって平均のサンプリング分布は正規に近似することがわかりますが、サンプルデータはそのnの値が何であるかを教えてくれません。サンプルデータは非正規であり、サンプル平均はnormal / tに従います。実際に平均のサンプリング分布が正規/ tであったが、それがわからなかったときに、ノンパラメトリック検定を変換/使用する場合がありますか? tttzzznnnnnntttttt

1
Rでqqline()によって生成された行の使用は何ですか?
qqnorm()R関数は、通常のQQプロットを生成し、qqline()第一及び第三の四分位数を通る線を付加します。この線の起源は何ですか?正常性を確認することは役に立ちますか?これは古典的な線ではありません(対角線おそらく線形スケーリング後)。y= xy=xy=x 以下に例を示します。最初私は理論的な分布関数と経験分布関数を比較: 今は、ラインとQQプロットプロットYが= μ + σ X。このグラフは、前のグラフの(非線形)スケーリングにほぼ対応しています。 ただし、R qqlineを使用したqqプロット は次のとおりです。この最後のグラフは、最初のグラフのように出発を示していません。N(μ^、σ^2)N(μ^,σ^2){\cal N}(\hat\mu,\hat\sigma^2)y= μ^+ σ^バツy=μ^+σ^xy=\hat\mu + \hat\sigma x

2
最尤推定量-多変量ガウス
環境 多変量ガウス分布は機械学習で頻繁に使用され、次の結果は多くのMLブックおよび派生物なしのコースで使用されます。 次元行列の 形式のデータが与えられ、データが 平均()および共分散行列(変量ガウス分布に従うと仮定した場合)最尤推定量は次によって与えられます:XX\mathbf{X} m×pm×p m \times ppppμμ\mup×1p×1p \times 1 ΣΣ\Sigmap×pp×pp \times p μ^=1m∑mi=1x(i)=x¯μ^=1m∑i=1mx(i)=x¯\hat \mu = \frac{1}{m} \sum_{i=1}^m \mathbf{ x^{(i)} } = \mathbf{\bar{x}} Σ^=1m∑mi=1(x(i)−μ^)(x(i)−μ^)TΣ^=1m∑i=1m(x(i)−μ^)(x(i)−μ^)T\hat \Sigma = \frac{1}{m} \sum_{i=1}^m \mathbf{(x^{(i)} - \hat \mu) (x^{(i)} -\hat \mu)}^T 多変量ガウスの知識は多くのMLコースの前提条件であることを理解していますが、多くの自己学習者が統計を跳ね回っていると感じているので、自己完結型の回答に完全に由来することが役立つと思います。 stackexchangeおよびmath.stackexchange Webサイトで回答を探しています。 質問 多変量ガウスの最尤推定量の完全な導出は何ですか 例: これらの線形判別分析の講義ノート(11ページ)、またはこれらのものは結果を利用すると、以前の知識を前提としています。 また、部分的に回答またはクローズされている投稿もいくつかあります。 多変量正規分布の最尤推定器 多変量正規分布の最尤推定を理解するのに助けが必要ですか?

4
コインフリップのサンプルサイズを増やしても通常の曲線近似が改善されないのはなぜですか?
私は統計(Freeman、Pisani、Purves)の本を読んでいます。コインを50回投げ、頭の数を数え、これを1,000回繰り返した例を再現しようとしています。 最初に、トスの数(サンプルサイズ)を1000に保ち、繰り返し回数を増やしました。繰り返しが多いほど、データは標準曲線によく適合します。 そこで次に、繰り返し回数を1,000に固定して、サンプルサイズを増やしてみました。サンプルサイズが大きいほど、最悪の法線はデータに適合しているように見えます。これは、サンプルサイズが増加するにつれて正常曲線をよりよく近似する本の例と矛盾しているようです。 サンプルサイズを増やした場合にどうなるかを確認したかったのですが、10,000回に修正された反復回数が増えました。これは本とも矛盾しているようです。 私が間違っていることは何ですか? 以下のコードとグラフ。 %matplotlib inline def plot_hist(num_repetitions, num_tosses): tosses = np.random.randint(0, 2, size=[num_repetitions, num_tosses]) sums = np.apply_along_axis(lambda a: np.sum(a == 1), 1, tosses) xmin, xmax = min(sums), max(sums) lnspc = np.linspace(xmin, xmax, len(sums)) m, s = stats.norm.fit(sums) # get mean and standard deviation pdf_g = stats.norm.pdf(lnspc, m, …

3
どのよう、極性分散、座標がと?
ランダムポイントのデカルト座標の座標を選択しますst。x 、yバツ、yx,y(x 、y)〜U(− 10、10 )× U(− 10 、10 )(バツ、y)〜うん(−10、10)×うん(−10、10)(x,y) \sim U(-10,10) \times U(-10,10) したがって、半径、のpdfが示すように均一に分布していません。 ρρ = x2+ y2−−−−−−√ρ=バツ2+y2\rho = \sqrt{x^2 + y^2}ρρ\rho それにもかかわらず、私はがほぼ均一であることを期待し、エッジの4つの残り物によるアーティファクトを除きます。θ = arctanyバツθ=アークタン⁡yバツ\theta = \arctan{\frac{y}{x}} 以下は、\ thetaおよび\ rhoの確率論的に計算された確率密度関数です。 θθ\thetaρρ\rho ここで、 stに分布させると、は均一に分布しているように見えます。、X 、Y 〜N (0 、20 2)× N (0 、20 2)θx 、yバツ、yx,yx 、y〜N(0 、202)×N(0 、202)バツ、y〜N(0、202)×N(0、202)x,y \sim N(0,20^2)\times N(0,20^2)θθ\theta なぜはで均一ではなく、均一であるの?(X …



4
データが正規分布する理由
実世界のデータが正規分布することが期待される理由を説明する(つまり、生成する)可能性のある定理は何ですか? 私が知っている2つがあります: (もちろん)中央極限定理。これは、平均および分散をもついくつかの独立したランダム変数の合計が(それらが同一に分布していない場合でも)正規分布に向かう傾向があることを示します。 XとYを、それらの結合密度が +のみに依存するように、微分可能な密度を持つ独立した連続RVとします。XとYは正常です。y 2バツ2バツ2x^2y2y2y^2 (mathexchangeからのクロスポスト) 編集: 明確にするために、私は実際のデータがどれだけ正規分布しているかについては何も主張していません。どのようなプロセスが正規分布データにつながる可能性があるかについての洞察を与えることができる定理について質問しています。

3
統計における関数
私の微積分クラスでは、関数e−x2e−x2e^{-x^2}または「ベル曲線」に遭遇し、統計学で頻繁に適用されると言われました。 好奇心から、私は尋ねたい:関数は統計において本当に重要なのか?もしそうなら、がそれを有用にするのは何ですか、そしてそのアプリケーションのいくつかは何ですか?e−x2e−x2e^{-x^2}e−x2e−x2e^{-x^2} インターネット上で関数に関する情報を見つけることはできませんでしたが、いくつかの調査を行った後、一般的なベル曲線と正規分布と呼ばれるものの間のリンクを見つけました。A Wikipediaのページは、私が強調して、統計アプリケーションにその状態を機能これらのタイプのリンク: 「正規分布は統計上最も顕著な確率分布と考えられています。これにはいくつかの理由があります。1まず、正規分布は中心極限定理から生じます。元の配布の形式に関係なく、同じ配布からほぼ正常に配布されます。」 したがって、何らかの調査などから大量のデータを収集する場合、ような関数に均等に分散できますe−x2e−x2e^{-x^2}か?この関数は対称的であるため、その対称性、つまり正規分布に対する有用性は、統計上で非常に有用なのはなぜですか?ただ推測しているだけです。 一般的に、統計で役立つのは何ですか?正規分布が唯一の領域である場合、正規分布の他のガウス型関数の中でe − x 2を一意または特に有用にするものは何ですか?e−x2e−x2e^{-x^2}e−x2e−x2e^{-x^2}

3
サンプルサイズが大きくなると、t分布がより正規になるのはなぜですか?
ウィキペディアによると、サンプルが正規分布母集団からのiid観測である場合、t分布はt値のサンプリング分布であることを理解しています。ただし、t分布の形状がファットテールからほぼ完全に正常に変化する理由を直感的に理解できません。 正規分布からサンプリングしている場合、大きなサンプルを取得した場合、その分布に似ていますが、なぜそれが太い尾の形で始まるのかわかりません。

2
ログ変換は、非正規データをt検定するための有効な手法ですか?
著者は、論文をレビューする際に、「正規分布の前提条件を満足するためにtテストが行​​われる前に、自然対数を使用して、歪んだ分布を示す連続的な結果変数が変換された」と述べています。 これは、特に基礎となる分布が必ずしも対数正規分布ではない場合に、非正規データを分析するのに受け入れられる方法ですか? これは非常にばかげた質問かもしれませんが、これを以前に見たことはありません。

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.