タグ付けされた質問 「central-limit-theorem」

「特定の条件が与えられると、それぞれが明確に定義された平均と明確に定義された分散を持つ、独立した確率変数の十分に多数の反復の平均は、ほぼ正規分布します。」(ウィキペディア)

3
t変量の二乗和とは何ですか?
みましょうでスチューデントのt分布からIID描かれる適度なサイズのため、自由度(100未満を言います)。定義 である有するほぼカイ二乗として配布自由度?ランダム変数の平方和の中心極限定理のようなものはありますか?、N 、N T = Σ 1 ≤ I ≤ K T 2 I T Ktitit_innnnnnT=∑1≤i≤kt2iT=∑1≤i≤kti2T = \sum_{1\le i \le k} t_i^2TTTkkk

4
コインフリップのサンプルサイズを増やしても通常の曲線近似が改善されないのはなぜですか?
私は統計(Freeman、Pisani、Purves)の本を読んでいます。コインを50回投げ、頭の数を数え、これを1,000回繰り返した例を再現しようとしています。 最初に、トスの数(サンプルサイズ)を1000に保ち、繰り返し回数を増やしました。繰り返しが多いほど、データは標準曲線によく適合します。 そこで次に、繰り返し回数を1,000に固定して、サンプルサイズを増やしてみました。サンプルサイズが大きいほど、最悪の法線はデータに適合しているように見えます。これは、サンプルサイズが増加するにつれて正常曲線をよりよく近似する本の例と矛盾しているようです。 サンプルサイズを増やした場合にどうなるかを確認したかったのですが、10,000回に修正された反復回数が増えました。これは本とも矛盾しているようです。 私が間違っていることは何ですか? 以下のコードとグラフ。 %matplotlib inline def plot_hist(num_repetitions, num_tosses): tosses = np.random.randint(0, 2, size=[num_repetitions, num_tosses]) sums = np.apply_along_axis(lambda a: np.sum(a == 1), 1, tosses) xmin, xmax = min(sums), max(sums) lnspc = np.linspace(xmin, xmax, len(sums)) m, s = stats.norm.fit(sums) # get mean and standard deviation pdf_g = stats.norm.pdf(lnspc, m, …

4
データが正規分布する理由
実世界のデータが正規分布することが期待される理由を説明する(つまり、生成する)可能性のある定理は何ですか? 私が知っている2つがあります: (もちろん)中央極限定理。これは、平均および分散をもついくつかの独立したランダム変数の合計が(それらが同一に分布していない場合でも)正規分布に向かう傾向があることを示します。 XとYを、それらの結合密度が +のみに依存するように、微分可能な密度を持つ独立した連続RVとします。XとYは正常です。y 2バツ2バツ2x^2y2y2y^2 (mathexchangeからのクロスポスト) 編集: 明確にするために、私は実際のデータがどれだけ正規分布しているかについては何も主張していません。どのようなプロセスが正規分布データにつながる可能性があるかについての洞察を与えることができる定理について質問しています。

3
中心極限定理に大きなサンプルサイズが必要な分布の例
一部の書籍では、中心極限定理が適切に近似するために、サイズ30以上のサンプルサイズが必要であると述べてい。 X¯X¯\bar{X} これはすべてのディストリビューションに十分ではないことを知っています。 サンプルサイズが大きい場合(おそらく100、1000、またはそれ以上)でも、サンプル平均の分布がかなり歪んでいる分布の例をいくつか見たいと思います。 私は以前にそのような例を見たことがあることを知っていますが、どこにあるか思い出せず、見つけることができません。

2
2つのグループ間の違いをテストする方法は、データが正規分布していないことを意味しますか?
生物学的な詳細と実験をすべて削除し、目前の問題と統計的に行ったことを引用します。その権利があるかどうか、もしそうでない場合は、どうすればよいかを知りたい。データ(または私の説明)が十分に明確でない場合は、編集して説明を改善します。 サイズおよび 2つのグループ/観測、XおよびYがあるとします。これら2つの観測値の平均が等しいかどうかを知りたいです。私の最初の質問は:Nバツ= 215Nバツ=215N_x=215Ny= 40Ny=40N_y=40 仮定が満たされている場合、ここでパラメトリック2サンプルt検定を使用することは適切ですか?私の理解から、サイズが小さいときに通常適用されるので、これを尋ねますか? XとYの両方のヒストグラムをプロットしましたが、2標本t検定の仮定の1つである正規分布ではありませんでした。私の混乱は、それらを2つの母集団であると考え、それが正規分布を確認した理由です。しかし、その後、2つのサンプルのt検定を実行しようとしています... これは正しいですか? 中心極限定理から、サンプリング(母集団のサイズに応じて繰り返しの有無を問わず)を複数回実行し、毎回サンプルの平均を計算すると、ほぼ正規分布になることがわかります。また、このランダム変数の平均は、母平均の適切な推定値になります。そこで、XとYの両方でこれを1000回行うことにし、サンプルを取得し、各サンプルの平均にランダム変数を割り当てました。プロットは非常に正規分布していました。XとYの平均は4.2と15.8(母集団±0.15と同じ)で、分散は0.95と12.11でした。 これらは非常に異なるため(0.95と12.11)、分散が等しくないこれら2つの観測値(それぞれ1000データポイント)でt検定を実行しました。そして、帰無仮説は棄却されました。 これはまったく理にかなっていますか?これは正しい/意味のあるアプローチですか、2サンプルのz検定で十分ですか、それともまったく間違っていますか? また、念のため(元のXとYで)ノンパラメトリックウィルコクソン検定を実行しましたが、帰無仮説も同様に説得力をもって拒否されました。私の以前の方法がまったく間違っていた場合、統計的な検出力を除いて、ノンパラメトリック検定を行うのが良いと思いますか? どちらの場合も、平均は大きく異なりました。ただし、どちらかまたは両方のアプローチに問題があるか、まったく間違っているかどうかを知りたい場合はどうすればよいですか?

3
非正規サンプルのサンプル分散の漸近分布
これはこの質問によって提起された問題のより一般的な取り扱いです 。サンプル分散の漸近分布を導出した後、デルタ法を適用して標準偏差の対応する分布に到達できます。 iidの非正規ランダム変数のサイズのサンプル、平均してと分散。サンプル平均とサンプル分散を { X i } 、nnn{Xi},i=1,...,n{Xi},i=1,...,n\{X_i\},\;\; i=1,...,nμμ\muσ2σ2\sigma^2x¯=1n∑i=1nXi,s2=1n−1∑i=1n(Xi−x¯)2x¯=1n∑i=1nXi,s2=1n−1∑i=1n(Xi−x¯)2\bar x = \frac 1n \sum_{i=1}^nX_i,\;\;\; s^2 = \frac 1{n-1} \sum_{i=1}^n(X_i-\bar x)^2 私たちは知っている E(s2)=σ2,Var(s2)=1n(μ4−n−3n−1σ4)E(s2)=σ2,Var⁡(s2)=1n(μ4−n−3n−1σ4)E(s^2) = \sigma^2, \;\;\; \operatorname {Var}(s^2) = \frac{1}{n} \left(\mu_4 - \frac{n-3}{n-1}\sigma^4\right) ここで、であり、存在が有限である必要があるモーメントが存在し、有限である分布に注意を制限します。μ4=E(Xi−μ)4μ4=E(Xi−μ)4\mu_4 = E(X_i -\mu)^4 それを保持していますか n−−√(s2−σ2)→dN(0,μ4−σ4)?n(s2−σ2)→dN(0,μ4−σ4)?\sqrt n(s^2 - \sigma^2) \rightarrow_d N\left(0,\mu_4 - \sigma^4\right)\;\; ?

1
中心極限定理と多数の法則
中央極限定理(CLT)に関する初心者の質問があります。 私は、CLTがiid確率変数の平均がほぼ正規分布している(場合、nは加数のインデックスである)か、標準化されたランダム変数は標準正規分布を持つと述べています。n→∞n→∞n \to \inftynnn 今、大数の法則は、iidランダム変数の平均が(確率またはほぼ確実に)期待値に収束すると言っています。 私が理解していないことは、CLTが述べているように、平均がほぼ正規分布している場合、同時にどのようにして期待値に収束することができますか? 収束は、時間とともに平均が期待値ではない値を取る確率がほぼゼロであることを意味します。したがって、分布は実際には正規ではなく、期待値以外のどこでもほぼゼロになります。 どんな説明でも大歓迎です。

2
中央極限定理の動的システムビュー?
(元々MSEに投稿されました。) 古典的な中心極限定理のヒューリスティックな議論の多くは、確率密度の空間における「アトラクター」として正規分布(または任意の安定した分布)を語っています。たとえば、Wikipediaの扱いの最上位にあるこれらの文を考えてみましょう。 より一般的な使用法では、中心極限定理は確率論における弱収束定理のセットのいずれかです。それらはすべて、多くの独立した同一に分布した(iid)ランダム変数、または特定の種類の依存関係を持つランダム変数の合計が、アトラクタ分布の小さなセットの1つに従って分布する傾向があるという事実を表しています。iid変数の分散が有限の場合、アトラクタ分布は正規分布です。 この動的システム言語は非常に暗示的です。フェラーはまたに(つまり、言語のソースである場合、私の不思議)彼の第二のボリュームにCLTの彼の治療に「魅力」のことを話す、とのYuval Flimus このノートさえ話す「の魅力の流域。」(私は彼が本当に「の正確な形式意味はないと思うの魅力の流域は、」の正確な形式推論事前にある「のではなくアトラクターが演繹事前にある」;まだ、言語があります。)私の質問は次のとおりです。これらのことができます動的なアナロジーを正確にできますか?多くの本は、正規分布が畳み込み下での安定性(およびフーリエ変換下での安定性)に特別であることを強調しているが、私はそれらの本を知らない。これは基本的に、固定小数点であるため、法線が重要であることを示しています。CLTはさらに進んで、固定小数点ではなく、アトラクタであることを示しています。 この幾何学的な図を正確にするために、位相空間を適切な無限次元関数空間(確率密度の空間)とし、進化演算子を初期条件で畳み込みを繰り返すことを想像します。しかし、私はこの絵をうまく機能させるために必要な技術や、追求する価値があるかどうかについては理解していません。 私はこのアプローチを明確に追求する治療法を見つけることができないので、それができる、または面白いという私の感覚に何か間違っているに違いないと思います。その場合は、その理由を聞きたいです。 編集:Math Stack ExchangeとMathOverflowには、読者が興味を持ちそうな3つの同様の質問があります。 いくつかの分布空間(MO)の固定小数点としてのガウス分布 最大エントロピー(MO)による中心極限定理 いくつかの不動点定理による中心極限定理の証明はありますか?(MSE)

3
しないのはなぜためのCLTワーク
我々は、の合計ことを知っているのでパラメータを持つポアソン、それ自体とポアソンである 。したがって、仮説として、を実際にはと言うことができます。ここで、各は次のとおりです、およびCLTを機能させるには大きなnを使用します。nnnλλ\lambdanλnλn\lambdax∼poisson(λ=1)x∼poisson(λ=1)x \sim poisson(\lambda = 1) ∑n1xi∼poisson(λ=1)∑1nxi∼poisson(λ=1)\sum_1^n x_i \sim poisson(\lambda = 1) xixix_ixi∼poisson(λ=1/n)xi∼poisson(λ=1/n)x_i \sim poisson(\lambda = 1/n) これは(明らかに)機能しません。これは、CLTが正常に「近い」ランダム変数に対して「高速」に動作する方法と関係があり、ラムダが小さいほど、ほとんどが0であり、まれにしか変化しないランダム変数を取得することと関係があると思います。 しかし、私が説明したのは私の直感です。これがなぜそうなのかを説明するより正式な方法はありますか? ありがとう!


4
決定論的な世界でのチャンスの操作
Steven Pinkerの著書「Better Angels of Our Nature」で、彼は 確率は見通しの問題です。十分に近い範囲で見ると、個々のイベントには明確な原因があります。コインフリップでさえ、開始条件と物理法則から予測することができ、熟練した魔術師は、それらの法則を悪用して毎回頭を投げることができます。しかし、これらの多数のイベントの広角ビューをズームアウトすると、互いに打ち消し合ったり、同じ方向に整列したりする膨大な数の原因の合計が表示されます。物理学者であり哲学者でもあるアンリ・ポアンカレは、多数のちっぽけな原因が恐ろしい効果をもたらすか、私たちの通知を逃れる小さな原因が見逃すことのできない大きな効果を決定するかのいずれかで、決定論的な世界でチャンスの操作を見ると説明しました。組織的な暴力の場合、誰かが戦争を始めたいと思うかもしれません。彼は、来るかもしれないし、来ないかもしれない、都合の良い瞬間を待ちます。彼の敵は交戦するか撤退するかを決定します 弾丸が飛ぶ; 爆弾が破裂した。人は死ぬ。すべてのイベントは、神経科学と物理学および生理学の法則によって決定される場合があります。しかし、集計では、このマトリックスに含まれる多くの原因が極端な組み合わせにシャッフルされることがあります。(p。209) 私は太字の文に特に興味がありますが、文脈のために残りを与えます。私の質問:ポアンカレが説明した2つのプロセスを説明する統計的な方法はありますか?私の推測は次のとおりです。 1)「多数のちっぽけなことが原因で恐ろしい効果になります。」「多数の原因」と「追加」という音は、中心極限定理のように聞こえます。しかし、CLT(の古典的な定義)では、原因は決定論的効果ではなく、ランダム変数である必要があります。ここで、これらの決定論的効果を何らかのランダム変数として近似する標準的な方法はありますか? 2)「通知を逃れる小さな原因が、見逃せない大きな影響を決定します。」あなたはこれをある種の隠れマルコフモデルと考えることができるように思えます。しかし、HMMの(観測不可能な)状態遷移確率は、それだけの確率であり、定義上、再び決定論的ではありません。

2
接続数を負にできない場合、どうすれば接続数をガウスにできますか?
私は(仮想ではなく)ソーシャルネットワークを分析しており、人々のつながりを観察しています。人がランダムに接続する別の人を選択する場合、人のグループ内の接続の数は、少なくとも現在読んでいる本によると、正常に分散されます。 分布がガウス(正規)であることをどのように知ることができますか?ポアソン、ライス、レイリーなどの他の分布があります。理論上のガウス分布の問題は、値がから(確率はゼロになりますが)、接続数は負。−∞−∞-\infty+∞+∞+\infty 各人が独立して(ランダムに)接続する別の人をピックアップした場合にどの分布が期待できるかを知っていますか?

3
中心極限定理と多数の法則
中心極限定理は、NNNが無限大になるにつれてiid変数の平均が正規分布になると述べています。 これにより、2つの質問が発生します。 これから多数の法則を推測できますか?大数の法則は、確率変数の値のサンプルの平均が真の平均と等しいことを言う場合はμμ\muとして、NNN無限大になり、価値になることを(中心極限が言うように)それを言っても、強いと思われるN(μ,σ)N(μ,σ)\mathcal N(\mu, \sigma)ここで、σσ\sigmaは標準偏差です。それでは、中央限界が多数の法則を意味すると言うのは公平ですか? 中心極限定理は変数の線形結合に適用されますか?

2
独立サンプルt検定:サンプルサイズが大きい場合、データを本当に正規分布させる必要がありますか?
2つの独立したサンプルの平均が異なるかどうかをテストするとします。基礎となる分布が正規ではないことは知っています。 正しく理解していれば、検定統計量は平均値であり、十分な大きさのサンプルサイズの場合、サンプルがそうでなくても平均値は正規分布になるはずです。したがって、この場合、パラメトリック有意性検定が有効である必要がありますか?私はこれについて矛盾し混乱する情報を読んだので、いくらかの確認(または私が間違っている理由の説明)に感謝します。 また、サンプルサイズが大きい場合は、t統計ではなくz統計を使用する必要があることを読みました。しかし実際には、t分布は正規分布に収束するだけで、2つの統計量は同じである必要がありますか? 編集:以下は、z-テストを説明するいくつかのソースです。両方とも、母集団は正規分布しなければならないと述べています。 ここでは、「使用するZ検定のタイプに関係なく、サンプルの抽出元の母集団は正常であると想定されています」と書かれています。そして、ここで、z検定の要件は、「2つの正規分布しているが独立した母集団、σは既知」としてリストされています。

2
ランダム変数の値の範囲が制限されている場合、
aaaとbbbで区切られた値の範囲を持つランダム変数があるとします。ここでaaaは最小値、bbbは最大値です。 私が言われたように、そのn→∞n→∞n \to \infty、どこnnn私たちのサンプルサイズは、私たちのサンプル手段のサンプリング分布がある正規分布。それは我々が増加するにつれて、あるnnn、我々がどんどん近づいて正規分布に取得しますが、実際の制限としてn→∞n→∞n \to \inftyである等しい正規分布に。 しかし、それはから延長していることを正規分布の定義の一部ではありません−∞−∞- \inftyする∞∞\infty? 範囲の最大値が場合、bbb(サンプルサイズに関係なく)最大サンプル平均はbに等しくなり、最小サンプル平均はbbbに等しくなりaaa。 だから、が無限に近づくにつれて限界をとっても、分布はaとbで区切られているため、実際の正規分布ではないように思えます。nnnaaabbb 私は何が欠けていますか?

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.