タグ付けされた質問 「normal-distribution」

正規分布、つまりガウス分布には、対称的な鐘型の曲線である密度関数があります。これは、統計で最も重要な分布の1つです。[normality]タグを使用して、正常性のテストについて尋ねます。

3
レプトクルティック分布を正規性に変換する方法は?
正常に変換したいレプトクルティック変数があるとします。このタスクを達成できる変換は何ですか?データを変換することが常に望ましいとは限らないことをよく知っていますが、学術的な追求として、データを正常に「ハンマー」したいとします。さらに、プロットからわかるように、すべての値は厳密に正です。 さまざまな変換を試しました(これまでに使用したものはほとんどすべて、など)、しかし、どれも特にうまく機能しません。レプトクルティック分布をより正規にするためのよく知られた変換はありますか?1バツ、X−−√、asinh (X)1バツ、バツ、アシン(バツ)\frac 1 X,\sqrt X,\text{asinh}(X) 以下の標準QQプロットの例を参照してください。

4
回帰残差分布の仮定
誤差に分布の仮定を置く必要があるのはなぜですか、すなわち yi=Xβ+ϵiyi=Xβ+ϵiy_i = X\beta + \epsilon_{i}と、ϵi∼N(0,σ2)ϵi∼N(0,σ2)\epsilon_{i} \sim \mathcal{N}(0,\sigma^{2})。 書いてみませんか yi=Xβ+ϵiyi=Xβ+ϵiy_i = X\beta + \epsilon_{i}とyi∼N(Xβ^,σ2)yi∼N(Xβ^,σ2)y_i \sim \mathcal{N}(X\hat{\beta},\sigma^{2})、 ここで、いずれの場合にϵi=yi−y^ϵi=yi−y^\epsilon_i = y_i - \hat{y}。 分布に関する仮定は、データではなくエラーに置かれていることを強調していますが、説明はありません。 私はこれら2つの処方の違いを本当に理解していません。私は、データに分布の仮定が置かれている場所をいくつか見ています(ベイジアンのように見えますが、ほとんどそうです)が、ほとんどの場合、仮定はエラーに置かれています。 モデル化するとき、なぜどちらか一方の仮定から始めることを選択するのはなぜですか?

1
ガウス線形モデルのF検定が最も強力なのはなぜですか?
線形モデルガウス用μは、いくつかのベクトル空間にあると仮定されると標準正規分布で有するの統計のための検定ここで、はベクトル空間であり、逸脱統計量の増加する1対1関数です: f = \ phi \ left(2 \ log \ frac {\ sup _ {\ mu \ in W、\ sigma> 0} L(\ mu、\ sigma | y)} {\ sup _ {\ mu \ in U、\ sigma> 0} L(\ mu、\ sigma | y)} \ right)。 この統計がH_0の最も強力なテストを提供することをどのようにして知ることができますかY=μ+σGY=μ+σGY=\mu+\sigma Gμμ\muG R N F H 0:{ …

2
t分布密度関数の背後にある直感
スチューデントのt分布について勉強していますが、t分布密度関数をどのように導出するのか疑問に思い始めました(ウィキペディア、http://en.wikipedia.org/wiki/Student%27s_t-distributionから): f(t)=Γ(v+12)vπ−−√Γ(v2)(1+t2v)−v+12f(t)=Γ(v+12)vπΓ(v2)(1+t2v)−v+12f(t) = \frac{\Gamma(\frac{v+1}{2})}{\sqrt{v\pi}\:\Gamma(\frac{v}{2})}\left(1+\frac{t^2}{v} \right)^{-\frac{v+1}{2}} ここで、は自由度、Γはガンマ関数です。この機能の直感は何ですか?つまり、二項分布の確率質量関数を見れば、それは理にかなっています。しかし、t分布密度関数は私にはまったく意味がありません...それは一見してまったく直感的ではありません。それとも、それは鐘形の曲線を持ち、それが私たちのニーズを満たすというだけの直観ですか?vvvΓΓ\Gamma 助けのためのThnx :)

2
データにガウス分布がある場合、いくつのサンプルがそれを特徴付けますか?
単一の次元に分布するガウスデータには、それを特徴付ける2つのパラメーター(平均、分散)が必要であり、これらのパラメーターを合理的に高い信頼度で推定するには、ランダムに選択した約30個のサンプルで通常十分であるという噂があります。しかし、次元の数が増えるとどうなりますか? 2次元(高さ、重量など)では、「最適な」楕円を指定するには5つのパラメーターが必要です。3次元では、これは楕円体を記述するために9つのパラメーターに上昇し、4-Dでは14のパラメーターを取ります。これらのパラメータを推定するために必要なサンプル数も、同等のレートで増加するのか、遅いレートで増加するのか、それとも高いレートで増加するのかを知りたいと思います。さらに良いことに、与えられた次元数でガウス分布を特徴付けるためにいくつのサンプルが必要かを示唆する広く受け入れられた経験則があれば、それは知っておくとよいでしょう。 より正確には、平均点を中心とする対称的な「最適な」境界を定義し、すべてのサンプルの95%が落ちると確信できるとします。適切に高い(> 95%)信頼度でこの境界(1-Dの間隔、2-Dの楕円など)を近似するパラメーターを見つけるために必要なサンプル数と、その数がどのように変化するかを知りたい次元数が増加します。


2
有限混合ガウス混合とガウス混合の間の距離はどのくらいですか?
既知の重み、平均、標準偏差を持つ有限数のガウス分布が混在しているとします。平均は等しくありません。もちろん、モーメントは成分のモーメントの加重平均であるため、混合物の平均および標準偏差を計算できます。混合は正規分布ではありませんが、正規分布からどれくらい離れていますか? 222 111 動機:怠zyな人たちは、測定していない実際の分布については意見が異なります。私も怠け者です。分布も測定したくありません。彼らの仮定は矛盾していると言いたいのです。なぜなら、彼らは異なる手段をもつガウス分布の有限混合は正しくないガウス分布だと言っているからです。テールの漸近的な形状が間違っているとは言いたくありません。これらは、平均のいくつかの標準偏差内で合理的に正確であると想定される単なる近似であるためです。成分が正規分布によって近似されている場合、混合はそうではないと言いたいので、これを定量化できるようにしたいと思います。 L1L1L^12221/41/41/4

2
スプリアス相関の期待値
我々は、描画NNN大きさの各サンプル、nnn独立して正常から、(μ,σ2)(μ,σ2)(\mu,\sigma^2)分布。 次に、NNNサンプルから、相互に最も高い(絶対)ピアソン相関を持つ2つのサンプルを選択します。 この相関の期待値は何ですか? ありがとう[PSこれは宿題ではない]

1
ガウス混合モデル(GMM)を操作するためのPythonパッケージ
PythonでGaussian Mixture Models(GMM)を操作するために使用できるオプションがいくつかあるようです。一見すると、少なくとも次のものがあります。 PyMix- http: //www.pymix.org/pymix/index.php 混合モデリングのツール PyEM- http: //www.ar.media.kyoto-u.ac.jp/members/david/softwares/em/ は、Scipyツールボックスの一部であり、GMMの更新に焦点を当てているようです:sklearn.mixtureとして知られるようになりました 。 PyPR- http: //pypr.sourceforge.net/ パターン認識およびGMMを含む関連ツール ...そしておそらく他の人。それらはすべて、作成とサンプリング、パラメータ推定、クラスタリングなどを含む、GMMの最も基本的なニーズを提供するようです。 それらの違いは何ですか?また、特定のニーズに最適なものを判断するにはどうすればよいですか? 参照:http : //www.scipy.org/Topical_Software

1
正規分布の組み合わせからの分位点
私は、さまざまな年齢の子供の人体寸法(肩幅など)の分布に関する情報を持っています。年齢と次元ごとに、平均、標準偏差があります。(8つの変位値もありますが、それらから必要なものを取得できるとは思いません。) 各次元について、長さ分布の特定の分位数を推定したいと思います。各次元が正規分布していると仮定した場合、平均と標準偏差を使用してこれを行うことができます。分布の特定の分位に関連付けられた値を取得するために使用できるきれいな式はありますか? その逆は非常に簡単です。特定の値について、各正規分布(年齢)の値の右側の領域を取得します。結果を合計し、分布の数で割ります。 更新:同じ質問をグラフィカル形式で示します。各色付き分布が正規分布していると仮定します。 また、明らかに、さまざまな長さの束を試して、精度のために目的の分位点に十分に近い長さになるまで変更し続けることができます。これよりも良い方法があるかどうか疑問に思っています。そして、これが正しいアプローチである場合、その名前はありますか?




2
ノイズのある正弦波の確率分布
測定誤差がある場合、振動関数からサンプリングポイントの確率分布を分析的に計算しようとしています。「ノイズなし」の部分の確率分布はすでに計算していますが(最後に追加します)、「ノイズ」を含める方法がわかりません。 数値見積もり より明確にするために、1つのサイクル中にランダムにポイントを選択する関数あるとします。ヒストグラムのポイントをビニングすると、分布に関連するものが得られます。y(x )= 罪(x )y(x)=sin⁡(x)y(x) = \sin(x) ノイズなし たとえば、これはと対応するヒストグラムですs i n (x )sin(x)sin(x) ノイズあり これで、測定エラーが発生すると、ヒストグラムの形状が変化します(したがって、基になる分布だと思います)。例えば 分析計算 うまくいけば、私は2つの間にいくつかの違いがあると確信しました。ここで、私が「ノイズなし」の場合の計算方法を書き出します。 ノイズなし y(x )= 罪(x )y(x)=sin⁡(x) y(x) = \sin(x) 次に、サンプリングする時間が均一に分布している場合、の確率分布は次の条件を満たす必要があります。yyy P(y)dy= dバツ2個のπP(y)dy=dx2π P(y) dy = \frac{dx}{2\pi} それから dバツdy= ddy(arcsin(y)) = 11 − y2−−−−−√dxdy=ddy(arcsin⁡(y))=11−y2\frac{dx}{dy} = \frac{d}{dy}\left(\arcsin(y)\right) = \frac{1}{\sqrt{1 - y^{2}}} など P(y)= 12個のπ1 − …

1
大規模なデータセットの正規性のテスト-どのようにして信頼できますか?
2つのグループにグループ化された、1から1690の範囲の46840のdouble値を含むデータセットの一部を調べています。これらのグループ間の違いを分析するために、適切な検定を選択するために値の分布を調べることから始めました。 正規性のテストに関するガイドに従って、qqplot、ヒストグラム、ボックスプロットを行いました。 これは正規分布ではないようです。ガイドでは、純粋にグラフィカルな検査では不十分であるといくらか正しく述べているため、分布の正規性もテストしたいと思います。 データセットのサイズとRでのshapiro-wilksテストの制限を考慮して、与えられた分布の正規性をどのようにテストし、データセットのサイズを考慮すれば、これも信頼できますか?(この質問に対する承認された回答を参照してください) 編集: 私が言及しているShapiro-Wilkテストの制限は、テストされるデータセットが5000ポイントに制限されていることです。このトピックに関する別の良い答えを引用するには: Shapiro-Wilkのテストのもう1つの問題は、より多くのデータをフィードすると、帰無仮説が拒否される可能性が大きくなることです。したがって、大量のデータの場合、正規性からのごくわずかな逸脱でも検出できるため、実用的な目的では、帰無仮説イベントハフが拒否され、データは通常よりも十分に多くなります。 [...]幸いにも、shapiro.testは、データサイズを5000に制限することにより、上記の影響からユーザーを保護します。 そもそもなぜ正規分布をテストしているのか: 一部の仮説検定は、データの正規分布を前提としています。これらのテストを使用できるかどうかを知りたい。

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.