タグ付けされた質問 「normal-distribution」

正規分布、つまりガウス分布には、対称的な鐘型の曲線である密度関数があります。これは、統計で最も重要な分布の1つです。[normality]タグを使用して、正常性のテストについて尋ねます。

2
正規分布のパラメーターの推定:平均ではなく中央値?
正規分布のパラメーターを推定するための一般的なアプローチは、平均とサンプルの標準偏差/分散を使用することです。 ただし、外れ値がある場合は、中央値と中央値からの中央値偏差がより堅牢になりますよね? いくつかのデータセットでは、私は、によって推定正規分布しようとしたN(median(x),median|x−median(x)|)N(median(x),median|x−median(x)|)\mathcal{N}(\text{median}(x), \text{median}|x - \text{median}(x)|)古典よりもはるかに優れフィット作るように思わN(μ^,σ^)N(μ^,σ^)\mathcal{N}(\hat\mu, \hat\sigma)の平均を使用してのRMS偏差。 データセットにいくつかの異常値があると仮定した場合、中央値を使用しない理由はありますか?このアプローチのリファレンスを知っていますか?Googleでのクイック検索では、ここで中央値を使用する利点を説明する有用な結果が見つかりませんでした(ただし、明らかに、「正規分布パラメーター推定中央値」は検索用語の特定のセットではありません)。 偏差の中央値は偏っていますか?乗算する必要がありn−1nn−1n\frac{n-1}{n}バイアスを減らすためにますか? ガンマ分布や指数関数的に修正されたガウス分布(パラメーター推定にスキューネスが必要であり、外れ値が実際にこの値を台無しにする)などの他の分布に対する同様の堅牢なパラメーター推定アプローチを知っていますか?

1
次元の増加に伴う正規分布の密度
私が尋ねたい質問はこれです:正規分布の平均の1 SD内のサンプルの割合は、変量の数が増えるにつれてどのように変化しますか? (ほとんど)誰もが、1次元正規分布では、平均の1標準偏差内でサンプルの68%が見つかることを知っています。2、3、4、...次元についてはどうですか?私はそれが少なくなることを知っています...しかしどれだけ(正確に)?1、2、3 ... 10次元、および1、2、3 ... 10 SDの数値を示す表があると便利です。誰でもそのようなテーブルを指すことができますか? もう少しコンテキスト-最大128チャネルのデータを提供するセンサーがあります。各チャネルは(独立した)電気ノイズの影響を受けます。キャリブレーションオブジェクトを検知すると、十分な数の測定値を平均して、128個の標準偏差とともに128個のチャネルで平均値を取得できます。 しかし...個々の瞬間的な測定値に関して言えば、データは128個のベクトル値の単一の測定値のように128個の測定値のように反応しません。確かに、これは私たちが取るいくつかの重要な測定値(通常は128の4-6)を処理する最良の方法です。 このベクトル空間で「通常の」変動と「外れ値」とは何かを感じたい。私はこの種の状況に当てはまると私が説明したようなテーブルを見たことがあると思います-誰でもそれを指すことができますか?

3
ある母集団のランダムなメンバーが別の母集団のランダムなメンバーよりも「良い」確率をどのように推定できますか?
2つの異なる母集団からのサンプリングがあるとします。各メンバーがタスクを実行するのにかかる時間を測定すると、各母集団の平均と分散を簡単に推定できます。 ここで、各母集団からの1人の個人とのランダムなペアリングを仮定した場合、最初の人が2番目の人よりも速い確率を推定できますか? 具体的な例を念頭に置いています。測定値は、AからBへのサイクリングのタイミングであり、人口は私が取ることができるさまざまなルートを表しています。次のサイクルでルートAを選択する方がルートBを選択するよりも速くなる確率を計算しようとしています。実際にサイクルを実行すると、サンプルセットに別のデータポイントがあります:)。 私はこれがこれを解決しようとする恐ろしく単純な方法であることを知っています、特にどんな日でも風が他の何よりも私の時間に影響する可能性が高いので、私が尋ねていると思うなら教えてください間違った質問...


3
ベータ確率変数の逆正規CDFはどの分布に従うのですか?
以下を定義するとします: X∼Beta(α,β)X∼Beta(α,β)X\sim\mbox{Beta}(\alpha,\beta) Y∼Φ−1(X)Y∼Φ−1(X)Y\sim \Phi^{-1}(X) ここで、は標準正規分布のCDFの逆数です。Φ−1Φ−1\Phi^{-1} 私の質問は次のとおりです続く単純な分布はありますか、それともを近似できますか?YYYYYYシミュレーション結果(以下に示す)に基づいて、およびが高い場合にが正規分布に収束するという強い疑念があるので、私は尋ねていますが、なぜ数学的にそうなるのかわかりません。(もちろん、場合、は均一で、Yは標準の法線になりますが、より高い値に当てはまるのはなぜですか?)YYYαα\alphaββ\betaα=1;β=1α=1;β=1\alpha=1;\beta=1XXXYYY これが法線に収束する場合、αα\alphaとに関して、その法線のパラメーターはどうなりますββ\betaか?(私は平均が可能だろうと期待しておりΦ−1(αα+β)Φ−1(αα+β)\Phi^{-1}(\frac{\alpha}{\alpha+\beta})それはモードの変換なので、標準偏差はわかりません)。 (別の言い方をすれば、これは「Φ(Norm(μ,σ))Φ(Norm(μ,σ))\Phi(\mbox{Norm}(\mu, \sigma))はベータ分布に収束し、μμ\muとある方向についてはσσ\sigma」と尋ねることができますか?それが答えやすいかどうかわかりません)。 シミュレーション結果 ここで、結果が正常であると疑う理由を示します(数学でバックアップできないため)。シミュレーションはYYY、qnormとでRで実行できますrnorm。たとえば、高いパラメーターα=3000α=3000\alpha=3000および選択する場合β=7000β=7000\beta=7000: hist(qnorm(rbeta(5000, 3000, 7000))) これは正常に見えqqnorm、Shapiro-Wilk検定(正規性は帰無仮説)も同様に示唆します。 qqnorm(qnorm(rbeta(5000, 3000, 7000))) shapiro.test(qnorm(rbeta(5000, 3000, 7000))) #> #> Shapiro-Wilk normality test #> #> data: qnorm(rbeta(5000, 3000, 7000)) #> W = 0.99954, p-value = 0.2838 正常性をもう少し詳しく調べるために、から5,000の値をシミュレートするたびに2,000回のシミュレーションYYYを実行し、それからテストを実行して正常と比較します。(5Kの値を選択したのはshapiro.test、それが最大の処理能力であり、標準からの逸脱を検出する能力を最大化するためです)。 分布が本当に正規である場合、p値は均一であると予想されます(nullがtrueであるため)。それらは確かに均一に近く、分布が正規に非常に近いことを示唆しています。 hist(replicate(2000, shapiro.test(qnorm(rbeta(5000, 3000, 7000)))$p.value)) いくつかの実験では、とβが高いほど、分布が正規に近くなることが示されています(たとえば、正規からかなり離れていますが、試してみてください。αα\alphaββ\betarbeta(5000, 3, 7)hist(replicate(2000, shapiro.test(qnorm(rbeta(5000, 30, …

3
ガウス混合の使用を正当化する参照
ガウス混合モデル(GMM)は、分析的にも実際的にも簡単に使用でき、あまり複雑ではないいくつかのエキゾチックな分布をモデル化できるため、魅力的です。一般に明確ではないいくつかの分析プロパティを保持する必要があります。特に: SnSnS_nnnnPPPnnnPPPlimn→∞infP^∈SnD(P||P^)=0?limn→∞infP^∈SnD(P||P^)=0?\lim_{n\rightarrow \infty}\inf_{\hat{P}\in S_n} D(P||\hat{P})=0? 我々は連続分布持っていると言う、我々は発見した -componentガウス混合近くにある全変動で:。私たちは、バインドすることができますという点で?PPPP P δ (P 、P)&lt; ε D (P | | P)εNNNP^P^\hat{P}PPPδ(P,P^)&lt;εδ(P,P^)&lt;ε\delta(P,\hat{P})<\varepsilonD(P||P^)D(P||P^)D(P||\hat{P})ϵϵ\epsilon 独立した加法性ノイズY \ sim P_Y(実数、連続の両方)を通じてX \ sim P_Xを観察したい場合、GMM \ hat {X} \ sim Q_X、\ hat {Y} \ sim Q_N where \ delta(P 、Q)&lt;\ epsilon、この値は小さい:\ left | \ mathsf {mmse}(X | X + Y)-\ mathsf …

2
データの変換:すべての変数ですか、それとも非通常の変数ですか?
Andy FieldのSPSSを使用した統計の検出では、すべての変数を変換する必要があると述べています。 しかし、「地理的に重み付けされた回帰を使用した土地利用と水質の空間的に変化する関係の調査I:モデルの設計と評価」では、非正規変数のみが変換されたと明記しています。 この分析は具体的ですか?たとえば、平均の比較では、ログを生データと比較すると明らかに大きな違いが生じますが、変数間の関係を調査するために回帰のようなものを使用する場合、重要性は低くなります。 編集:「データ変換」セクションの全文ページは次のとおりです。 そして、ここに論文へのリンクがあります:http : //www.sciencedirect.com/science/article/pii/S0048969708009121

1
同じ平均、異なる分散
8人のランナーがレースを実行しているとします。個々の実行時間の分布は正規であり、それぞれの平均はたとえば秒です。ランナー1の標準偏差は最も小さく、2番目が2番目に小さく、3番目が最も小さく、8個が最も大きくなります。2つの質問が私を混乱させています。(1)最初が最後に勝つ確率は何ですか?(2)レースに勝つ可能性が最も高いのは誰ですか?111111 私の答えはそれぞれとです。それらは同じ平均を共有しているため、がちょうどである確率はありませんか?どうすれば2番目の部分を厳密に実証できますか?また、勝ちの正確な確率を計算できますか?前もって感謝します。8 ˉ X 1 - ˉ X 8 &lt; 0 1 / 21/21/21/2888x¯1−x¯8&lt;0x¯1−x¯8&lt;0\bar x_1-\bar x_8\lt 01/21/21/2

2
二乗正規変数とカイ二乗変数の畳み込みの分布?
最近、データの分析中に次の問題が発生しました。確率変数Xが正規分布に従い、Yが分布(n dof)に従う場合、はどのように分布しますか?これまで PDFを思いついた: Z = X 2 + Y 2 Y 2 ψ 2 N(X )χ2nχn2\chi^2_nZ=X2+Y2Z=X2+Y2Z = X^2 + Y^2Y2Y2Y^2ψ2n(x)====∂F(x−−√)∂x(∫x√0tn/2−1⋅e−t/22n/2Γ(n/2)dt)′x12n/2Γ(n/2)⋅(x−−√)n/2−1⋅e−x√/2⋅(x−−√)′x12n/2−1Γ(n/2)⋅xn/4−1⋅e−x√/2ψn2(x)=∂F(x)∂x=(∫0xtn/2−1⋅e−t/22n/2Γ(n/2)dt)x′=12n/2Γ(n/2)⋅(x)n/2−1⋅e−x/2⋅(x)x′=12n/2−1Γ(n/2)⋅xn/4−1⋅e−x/2\begin{eqnarray} \psi^2_n(x) &=& \frac{\partial F(\sqrt{x})}{\partial x} \\ &=& \left( \int_0^{\sqrt{x}} \frac{t^{n/2-1}\cdot e^{-t/2}}{2^{n/2}\Gamma(n/2)} \mathrm{d}t \right)^\prime_x \\ &=& \frac{1}{2^{n/2}\Gamma(n/2)} \cdot \left( \sqrt{x} \right)^{n/2-1} \cdot e^{-\sqrt{x}/2} \cdot \left( \sqrt{x} \right)^\prime_x \\ &=& \frac{1}{2^{n/2-1}\Gamma(n/2)} \cdot …

3
サンプルサイズ、最小値と最大値から正規分布を再構築できますか?中間点を使用して平均を代理できます
私はこれが統計的には少し強引かもしれないことを知っていますが、これは私の問題です。 範囲データ、つまり変数の最小、最大、サンプルサイズがたくさんあります。これらのデータの一部については平均値もありますが、多くはありません。これらの範囲を互いに比較して、各範囲の変動性を定量化し、平均を比較したいと思います。分布が平均に関して対称的であり、データがガウス分布を持っていると仮定する正当な理由があります。このため、平均値が存在しない場合、分布の中間点を平均値のプロキシとして使用することを正当化できると考えています。 私がやりたいのは、各範囲の分布を再構築し、それを使用してその分布の標準偏差または標準誤差を提供することです。私が持っている唯一の情報は、サンプルから観測された最大値と最小値、および平均値のプロキシとしての中点です。 このようにして、各グループの加重平均を計算でき、また、私が持っている範囲データと(対称および正規分布の)仮定に基づいて、各グループの変動係数も計算できるようになります。 私はこれを行うためにRを使用する予定であるため、コードのヘルプも歓迎します。

2
正規分布の特定の値の確率がゼロになるのはなぜですか?
正規分布では、確率はゼロに等しく、ポアソン分布では、cが非負の整数の場合、ゼロに等しくないことに気付きました。P(x=c)P(x=c)P(x=c)ccc 私の質問は次のとおりです。正規分布の定数の確率は、曲線の下の面積を表すためゼロに等しいのでしょうか?それとも、記憶するのは単なるルールですか?

2
標準偏差の三角演算
通常のランダム変数の加算、減算、乗算、除算は明確に定義されていますが、三角演算はどうですか? たとえば、両方とも正規分布として記述された寸法d1d1d_1およびを持つ2つのカテテリーを持つ三角形のくさび(直角三角形としてモデル化された)の角度を見つけようとしていると仮定しますd2d2d_2。 直観とシミュレーションの両方から、結果の分布は平均arctan(mean(d1)mean(d2))arctan⁡(mean(d1)mean(d2))\arctan\left(\frac{\text{mean}(d_1)}{\text{mean}(d_2)}\right)。しかし、結果の角度の分布を計算する方法はありますか?私が答えを見つける場所の参照 (少しのコンテキストでは、機械部品の統計的公差に取り組んでいます。最初の衝動は、プロセス全体を単純にシミュレートし、最終結果が合理的に正常かどうかを確認し、標準偏差を計算することです。きちんとした分析的アプローチがあるかもしれない場合)

1
キャレットglmnetとcv.glmnet
glmnetwithin caretを使用して最適なラムダを検索cv.glmnetし、同じタスクを実行するために使用することの比較には、多くの混乱があるようです。 次のような多くの質問が提起されました。 分類モデルtrain.glmnet対cv.glmnet? キャレットでglmnetを使用する適切な方法は何ですか? 「キャレット」を使用して「glmnet」を相互検証する しかし、答えはありません。これは、質問の再現性による可能性があります。最初の質問に続いて、非常に似た例を挙げますが、同じ質問があります:推定されるラムダはなぜそんなに違うのですか? library(caret) library(glmnet) set.seed(849) training &lt;- twoClassSim(50, linearVars = 2) set.seed(849) testing &lt;- twoClassSim(500, linearVars = 2) trainX &lt;- training[, -ncol(training)] testX &lt;- testing[, -ncol(testing)] trainY &lt;- training$Class # Using glmnet to directly perform CV set.seed(849) cvob1=cv.glmnet(x=as.matrix(trainX),y=trainY,family="binomial",alpha=1, type.measure="auc", nfolds = 3,lambda = seq(0.001,0.1,by = …

2
正規分布のランダム変数の束の中で、どれが最大ですか?
ランダム変数ます。 は、平均および分散正規分布があります。 RVSは通常、平均で配布される、分散。すべては相互に独立しています。X0,X1,…,XnX0,X1,…,XnX_0,X_1,\dots,X_nX0X0X_0μ&gt;0μ&gt;0\mu>0111X1,…,XnX1,…,XnX_1,\dots,X_n000111 レッツそのイベントを表し、これらの最大の、すなわち、。\ Pr [E]を計算または推定したい。私は\ Pr [E]の式を\ mu、nの関数として、または\ Pr [E]の合理的な推定値または近似値を探しています。EEEX0X0X_0Pr [ E ] Pr [ E ] μ 、n Pr [ E ]X0&gt;max(X1,…,Xn)X0&gt;max(X1,…,Xn)X_0 > \max(X_1,\dots,X_n)Pr[E]Pr[E]\Pr[E]Pr[E]Pr[E]\Pr[E]μ,nμ,n\mu,nPr[E]Pr[E]\Pr[E] 私のアプリケーションでは、は固定()で、\ Pr [E] \ ge 0.99になる\最小値を見つけたいのですが、一般的な質問にも興味があります。N = 61 μ のPr [ E ] ≥ 150nnnn=61n=61n=61μμ\muPr[E]≥0.99Pr[E]≥0.99\Pr[E] \ge 0.99

3
途方もなく大きなZスコアに関連する確率を計算する方法は?
ネットワークモチーフ検出用のソフトウェアパッケージは、非常に高いZスコアを返すことがあります(私が見た最高は600,000+ですが、100を超えるZスコアは非常に一般的です)。これらのZスコアが偽であることを示すつもりです。 巨大なZスコアは、非常に低い関連確率に対応します。関連する確率の値は、最大6のZスコアの正規分布ウィキペディアページ(およびおそらくすべての統計テキスト)に記載されています。 質問:誤差関数1−erf(n/2–√)1−erf(n/2)1-\mathrm{erf}(n/\sqrt{2})nで最大1,000,000の場合、たとえば? 私は特に、このために既に実装されたパッケージを望んでいます(可能な場合)。私がこれまでに見つけた中で最高のものはWolframAlphaで、n = 150で計算できます(こちら)。

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.