タグ付けされた質問 「normality-assumption」

多くの統計手法では、データが正規分布していると想定しています。このタグは、正常性の仮定とテストに関する質問、または*プロパティ*としての正常性に関する質問に使用します。正規分布自体に関する質問には、[正規分布]を使用してください。


2
QQプロットがヒストグラムと一致しません
ヒストグラム、カーネル密度、財務ログリターンの近似正規分布があり、これらは損失に変換されます(符号が変更されます)。これらのデータの通常のQQプロットがあります。 QQプロットは、テールが正しく適合していないことを明確に示しています。しかし、ヒストグラムと適合した正規分布(青)を見ると、0.0付近の値でも正しく適合していません。そのため、QQプロットは、テールのみが適切に適合していないことを示していますが、明らかに分布全体が正しく適合していないことを示しています。QQプロットに表示されないのはなぜですか?

4
歪んだ非通常のデータでZスコアを使用できますか?[閉まっている]
閉じた。この質問には詳細または明確さが必要です。現在、回答を受け付けていません。 この質問を改善したいですか?詳細を追加し、この投稿を編集して問題を明確にします。 5年前に閉鎖されました。 私はいくつかのプロセスサイクルタイムデータを処理し、フルサイクルタイムの各部分を比較するために、標準のZスコアを使用してスケーリングしています。 データが非常に右に歪んでいる/非正常であるため、他の変換を使用する必要がありますか?(「外れ値」は決して負の時間をとることができず、「平均」よりもはるかに長くかかることがよくあります) Zスコアを使用しても「機能する」ようです... ############### # R code ############### mydata <- rweibull(1000,1,1.5) hist(mydata) hist(scale(mydata))

2
対応のないt検定にはどのような正規性の仮定が必要ですか?そして、いつ彼らは会いますか?
対応のあるt検定を実施したい場合、要件は(正確に理解していれば)一致した測定単位間の平均差が正常に分布することです。 対応のあるt検定では、一致した測定単位間の差が正常に分布するという要求で明確にされます(2つの比較されたグループのそれぞれの分布が正常でない場合でも)。 ただし、対応のないt検定では、一致した単位の違いについて話すことはできません。そのため、2つのグループの観測値が正常であり、平均の差が正常になるようにする必要があります。それは私の質問に私を導きます: 2つの非正規分布が可能であるため、それらの平均の差が正規分布になりますか?(したがって、私が理解する限り、それらに対してペアのないt検定を実行するために必要な要件を満たしてください) 更新:(答えてくれてありがとう)私たちが探している一般的なルールは、平均の差は実際に正常であるということです。これは私にとって驚くべきことです(驚くことではなく、ただ驚くべきことです)、これがペアになっていないt検定でどのように機能するかについてですが、単一サンプルのt検定ではうまくいきません。以下に、いくつかのRコードを示します。 n1 <- 10 n2 <- 10 mean1 <- 50 mean2 <- 50 R <- 10000 # diffs <- replicate(R, mean(rexp(n1, 1/mean1)) - mean(runif(n2, 0, 2*mean2))) # hist(diffs) P <- numeric(R) MEAN <- numeric(R) for(i in seq_len(R)) { y1 <- rexp(n1, 1/mean1) y2 <- runif(n2, 0, …

1
大規模なデータセットの正規性のテスト-どのようにして信頼できますか?
2つのグループにグループ化された、1から1690の範囲の46840のdouble値を含むデータセットの一部を調べています。これらのグループ間の違いを分析するために、適切な検定を選択するために値の分布を調べることから始めました。 正規性のテストに関するガイドに従って、qqplot、ヒストグラム、ボックスプロットを行いました。 これは正規分布ではないようです。ガイドでは、純粋にグラフィカルな検査では不十分であるといくらか正しく述べているため、分布の正規性もテストしたいと思います。 データセットのサイズとRでのshapiro-wilksテストの制限を考慮して、与えられた分布の正規性をどのようにテストし、データセットのサイズを考慮すれば、これも信頼できますか?(この質問に対する承認された回答を参照してください) 編集: 私が言及しているShapiro-Wilkテストの制限は、テストされるデータセットが5000ポイントに制限されていることです。このトピックに関する別の良い答えを引用するには: Shapiro-Wilkのテストのもう1つの問題は、より多くのデータをフィードすると、帰無仮説が拒否される可能性が大きくなることです。したがって、大量のデータの場合、正規性からのごくわずかな逸脱でも検出できるため、実用的な目的では、帰無仮説イベントハフが拒否され、データは通常よりも十分に多くなります。 [...]幸いにも、shapiro.testは、データサイズを5000に制限することにより、上記の影響からユーザーを保護します。 そもそもなぜ正規分布をテストしているのか: 一部の仮説検定は、データの正規分布を前提としています。これらのテストを使用できるかどうかを知りたい。

1
サンプルが正規分布しているが、それらの違いが分布していない場合、対応のあるt検定を使用できますか?
同一の初期条件で2つの異なる処理を適用した実験のデータがあり、いずれの場合も結果として0〜500の整数を生成します。対応のあるt検定を使用して、2つの処理によってもたらされる効果が有意に異なるかどうかを判断したいと思います。各処理グループの結果は正規分布ですが、各ペア間の差は正規分布していません(非対称+ 1つの長い尾)。 この場合、対応のあるt検定を使用できますか、それとも正規性の仮定に違反していますか?つまり、ある種のノンパラメトリック検定を使用する必要がありますか?

1
正規性違反の程度の良い指標とは何ですか?また、その指標にどんな説明ラベルを付けることができますか?
環境: 以前の質問で、@ Robbieは約600のケースを対象とした調査で、正規性の検定が有意な非正規性を示唆しているにもかかわらず、プロットが正規分布を示唆している理由を尋ねました。何人かの人々は、正規性の有意性検定はあまり有用ではないと主張しました。小さなサンプルの場合、このようなテストは正常性の軽度の違反を検出する能力があまりなく、大きなサンプルの場合、問題にならないほど十分に小さい正常性の違反を検出します。 この問題は、有意性検定と効果サイズに関する議論に似ているように思えます。有意性検定のみに焦点を当てると、大きなサンプルがある場合、実際的な目的には関係のない小さな影響を検出でき、小さなサンプルでは十分なパワーがありません。 いくつかの例では、小さな影響は統計的に有意であるため、サンプルが「大きすぎる」可能性があることを人々に助言するテキストを見たこともあります。 有意性検定と効果サイズのコンテキストでは、1つの簡単な解決策は、効果があるかどうかのバイナリー決定ルールに取り付かれるのではなく、関心のある効果のサイズの推定に焦点を当てることです。効果サイズの信頼区間はそのようなアプローチの1つですが、ベイジアンアプローチの何らかの形を採用することもできます。さらに、さまざまな研究領域は、「小さい」、「中」、「大きい効果」などのヒューリスティックラベルを適用して、特定の効果サイズが実際的な意味で何を意味するかについてのアイデアを構築します。これは、対象となる特定のパラメーターを推定する際の精度を最大化するために、サンプルサイズを最大化するというインテリジェントな推奨にもつながります。 これにより、効果サイズの信頼区間に基づく同様のアプローチが、仮定テスト、特に正規性テストに関してそれほど広く採用されないのはなぜでしょうか。 質問: データが正常性に違反している程度の最良の単一インデックスは何ですか? それとも、正規性違反の複数の指標(たとえば、歪度、尖度、異常値の有病率)について話した方が良いですか? インデックスの信頼区間はどのように計算できますか(またはおそらくベイジアンアプローチ)? 正常性の違反の程度を示すために、そのインデックスのポイントにどのような種類の口頭ラベルを割り当てることができますか(軽度、中程度、強い、極端など)?このようなラベルの目的は、正規性の違反が問題となる場合の直感を訓練する経験の少ないアナリストを支援することです。

1
二次形式の漸近正規性
ましょうから引き出されたランダムベクトルである。サンプル考えます。と定義し。ましょう= \ mathbb {E} _ {\ mathbf {X} \ SIM P} [\ mathbf {X}]:\ boldsymbol {\ MU}およびC = \ mathrm {COV} _ {\ mathbf {X} \シムP} [\ mathbf {x}、\ mathbf {x}]。xx\mathbf{x}PPP{xi}ni=1∼i.i.d.P{xi}i=1n∼i.i.d.P\{ \mathbf{x}_i \}_{i=1}^n \stackrel{i.i.d.}{\sim} Px¯n:=1n∑ni=1xix¯n:=1n∑i=1nxi\bar{\mathbf{x}}_n := \frac{1}{n} \sum_{i=1}^n \mathbf{x}_iC^:=1n∑ni=1(xi−x¯n)(xi−x¯n)⊤C^:=1n∑i=1n(xi−x¯n)(xi−x¯n)⊤\hat{C} := \frac{1}{n} \sum_{i=1}^n (\mathbf{x}_i - \bar{\mathbf{x}}_n) (\mathbf{x}_i - \bar{\mathbf{x}}_n)^\topμ:=Ex∼P[x]μ:=Ex∼P[x]\boldsymbol{\mu} := \mathbb{E}_{\mathbf{x}\sim …

3
「反転」シャピロ・ウィルク
ウィキペディアによれば、シャリポウィルク検定は、帰無仮説()「母集団は正規分布である」を検定します。H0H0H_0 「人口は正規分布していない」を使用した同様の正規性検定を探しています。H0H0H_0 そのようなテストがある、有意水準 iffを棄却する値を計算したいと思います。私の人口が正規分布していることを証明します。H 0 α P &lt; αpppH0H0H_0αα\alphap&lt;αp&lt;αp < \alpha してくださいノートSharipo・ウィルク検定を使用して受け入れていることを IFFある間違ったアプローチ、それは文字通り「我々はH0が保持していないことを証明する十分な証拠を持っている」を意味するから。 p &gt; αH0H0H_0p&gt;αp&gt;αp > \alpha 関連スレッド- の意味 -値はppp、正常では役に立たないテストしていますか?、しかし私は私の問題の解決策を見ることができません。 質問:どのテストを使用する必要がありますか?Rで実装されていますか?

5
反復測定anovaの正規性の仮定をテストしますか?(R)
したがって、anovaの正規性の仮定のテストにポイントがあると仮定します(1および2を参照)。 Rでどのようにテストできますか? 私は次のようなことを期待しています: ## From Venables and Ripley (2002) p.165. utils::data(npk, package="MASS") npk.aovE &lt;- aov(yield ~ N*P*K + Error(block), npk) residuals(npk.aovE) qqnorm(residuals(npk.aov)) 「残差」には、反復測定anovaの場合の方法(つまり、予測)がないため、これは機能しません。 それでは、この場合何をすべきでしょうか? 残差は、エラー項なしで同じフィットモデルから単純に抽出できますか?私はこれが有効であるかどうかを知るのに十分なほど文献に精通していません。

2
ヒストグラムが釣鐘型の曲線を示している場合、データは正規分布していると言えますか?
私は回答者の年齢のヒストグラムを作成し、非常に良い釣鐘型の曲線を何とか得て、分布は正常であると結論づけました。 次に、SPSSでn = 169の正規性検定を実行しました。Kolmogorov-Smirnov検定のp値(Sig。)は0.05未満なので、データは正規性の仮定に違反しています。 なぜこのテストでは年齢分布が正規ではないことが示されますが、ヒストグラムは釣鐘型の曲線を示しましたが、これは私の理解からは正常ですか?どちらの結果に従うべきですか?

1
非正規分布のエラーが重要性ステートメントの有効性を損なうのはなぜですか
OLSモデルを検討する場合、正規性の仮定があり、エラーは正規分布します。私はCross Validatedを閲覧してきましたが、エラーが正常であるために、YとXが通常である必要はないようです。私の質問は、非正規分布エラーがある場合、なぜ重要性ステートメントの有効性が損なわれるのかということです。信頼区間が広すぎたり狭すぎたりするのはなぜですか?

5
平方根、対数などの一般的な変換以外に、他にどのような正規化変換が一般的に使用されていますか?
テストスコアの分析(教育や心理学など)では、一般的な分析手法では、データが正規分布していると想定することがよくあります。ただし、スコアが通常よりも大幅に逸脱する傾向があります。 平方根、対数、正のスキューを減らすための相互変換、負のスキューを減らすための上記のバージョンの反映、レプトクール分布の二乗など、いくつかの基本的な正規化変換に精通しています。アークサイン変換とパワー変換について聞いたことがありますが、それらについてはあまり詳しくありません。 では、アナリストが一般的に使用している他の変換について知りたいのですが。

1
正規分布エラーと中心極限定理
ウォルドリッジの導入計量経済学では、引用があります: エラーの正規分布を正当化する引数は通常、次のようなものですはに影響を与える多くの異なる観測されていない要因の合計であるため、中心極限定理を呼び出して、が近似正規分布であると結論付けることができます。uuuyyyuuu この引用は、線形モデルの仮定の1つに関連しています。 u∼N(μ,σ2)u∼N(μ,σ2)u \sim N(μ, σ^2) ここで、uuuは母集団モデルの誤差項です。 さて、私の知る限りでは、中心極限定理は、 Zi=(Yi¯¯¯¯¯−μ)/(σ/√n)Zi=(Yi¯−μ)/(σ/√n)Z_i=(\overline{Y_i}-μ)/(σ/√n) (ここで、Yi¯¯¯¯¯Yi¯\overline{Y_i} は、平均μμμと分散σ^ 2を持つ任意の母集団から抽出されたランダムサンプルの平均ですσ2σ2σ^2) n \ rightarrow \ inftyとして標準の標準変数に近づきn→∞n→∞n \rightarrow \inftyます。 質問: Z_iの漸近正規性ZiZiZ_iがu \ sim N(μ、σ^ 2)をどのように意味するかを理解するu∼N(μ,σ2)u∼N(μ,σ2)u \sim N(μ, σ^2)

1
経験的測定値の「正規分布を仮定した」と書いてもよいですか。
人口などの生物医学的量の測定が通常の「ベルカーブ」に従うことは、医学などの応用分野の教育に根付いています。文字列のA Google検索「我々は正規分布と仮定」リターンをの結果を!気候変動に関する研究では、「極端なデータポイントの数が少ない場合は、温度異常の正規分布を想定した」ように聞こえます。または、ペンギンに関する異論の少ない可能性のある文書で「ニワトリの孵化日の正規分布を仮定した」。または 「GDP成長ショックの正規分布を想定」、23,90023,900\small 23,900、 ... と他のこと)。 最近、私はカウントデータの厳密に肯定的な性質のために正規分布としての扱いに疑問を感じました。もちろん、カウントデータは離散的であるため、正規性はさらに人為的になります。しかし、この後者の点を別にしても、原型的に「連続的」と見なされる、グルコースの重量、高さ、または濃度などの連続的な経験的測定が正常と見なされるのはなぜですか?カウントがする以上に否定的な実現観察はあり得ません! 標準偏差が平均より大幅に低く、負の値がほとんどない場合( "95%範囲チェック")、それは実際的な仮定である可能性があり、頻度ヒストグラムが歪んでいない場合はそれをサポートします。しかし、質問は些細なことのように思われませんでした、そして迅速な検索は興味深いものを見つけました。 で自然我々は、上の次のステートメントを見つけることができDFヒースによって手紙を:「私は特定のタイプのデータの統計的分析のためのデータを正規母集団から引き出されていることを仮定は通常間違っている、との代替ということを指摘したいです対数正規分布の仮定の方が優れています。この代替手段は統計学者、経済学者、物理学者に広く使用されていますが、他の分野の科学者には何らかの理由で無視されることがよくあります。」 Limpertは、「対数正規モデルは、現在多くの科学者が正規を有効な近似として認識しているという意味での近似として機能する可能性がある」と述べ、正規性の適合度テストの低い検出力と選択の難しさを指摘しています。小さなサンプルを扱う場合、経験的に正しい分布。 したがって、問題は「応用科学の実証的測定値の正規分布をさらに裏付けとなる証拠なしに仮定することはいつ受け入れられるのか」ということです。そして、なぜ対数正規のような他の代替案が、なぜ、そしておそらくおそらく定着しないのでしょうか?

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.