タグ付けされた質問 「normality-assumption」

多くの統計手法では、データが正規分布していると想定しています。このタグは、正常性の仮定とテストに関する質問、または*プロパティ*としての正常性に関する質問に使用します。正規分布自体に関する質問には、[正規分布]を使用してください。

16
正規性テストは「本質的に役に立たない」ですか?
元同僚はかつて次のように私に主張した: 通常、nullの下で、漸近的またはほぼ正常なランダム変数を生成するプロセスの結果に正規性テストを適用します (「漸近的」部分は大きくできない量に依存します)。安価なメモリ、ビッグデータ、高速プロセッサの時代では、正規性テストでは、大きなサンプル(非常に大きなものではないが)の正規分布のヌルを常に拒否する必要 があります。したがって、逆に、正規性テストは、おそらくより低いパワーとタイプIレートの制御が少ないと思われる小さなサンプルにのみ使用する必要があります。 これは有効な引数ですか?これはよく知られた議論ですか?正規性よりも「ファジーな」帰無仮説のよく知られたテストはありますか?

4
非正規データとのピアソンまたはスピアマンの相関
統計コンサルティングの仕事でこの質問を頻繁に受け取っているので、ここに投稿したいと思いました。答えは下にありますが、他の人の意見を聞きたいと思いました。 質問:正規分布していない2つの変数がある場合、相関にスピアマンのrhoを使用する必要がありますか?

3
残差が正規分布しているが、yが分布していない場合はどうなりますか?
奇妙な質問があります。単純な線形モデルで分析する従属変数が大きく左に歪んでいる小さなサンプルがあると仮定します。したがって、uuuは正規分布していないと仮定します。これは、が正規分布になるためyyyです。しかし、QQ-Normalプロットを計算すると、残差が正規分布しているという証拠があります。したがって、はそうではありませんが、エラー項は正規分布していると誰でも想定できます。エラー用語が正規分布しているように見えるが、はそうではない場合、それはどういう意味ですか?yyyyyyy



3
なぜ必要ないのに、線形回帰の正規分布誤差項(および同次分散性)にそれほど注意を払うのですか?
残差の非正規性および/または不均一分散性がOLSの仮定に違反していると誰かが言うのを聞くたびにイライラするでしょう。OLSモデルのパラメーターを推定するには、これらの仮定はどちらもガウスマルコフの定理では必要ありません。OLSモデルの仮説検定で、これがどのように重要であるかがわかります。これらのことから、t検定、F検定、およびより一般的なWald統計のきちんとした公式が得られるからです しかし、それらなしで仮説検定を行うことはそれほど難しくありません。等分散性だけを落とすと、ロバストな標準誤差とクラスター化された標準誤差を簡単に計算できます。正規性を完全に落とす場合は、ブートストラップを使用し、エラー項、尤度比、およびラグランジュ乗数検定の別のパラメーター仕様を指定できます。 多くの人がそもそも満たす必要のない仮定に苦しんでいるのを見るので、このように教えるのは残念です。 より堅牢な手法を簡単に適用できる能力があるのに、なぜこれらの仮定にそれほど重点を置いているのでしょうか?重要なものが欠けていますか?

3
ANOVA仮定の正規性/残差の正規分布
ANOVAのウィキペディアのページには、次の3つの仮定がリストされています。 ケースの独立性-これは、統計分析を簡素化するモデルの仮定です。 正規性-残差の分布は正規です。 等分散性と呼ばれる分散の平等(または「均一性」)... ここで重要な点は、2番目の仮定です。いくつかのソースは、仮定を異なってリストしています。生データの正常性、残差の主張などがあります。 いくつかの質問が表示されます: 残差の正規性と正規分布は同じ人ですか(Wikipediaのエントリに基づいて、正規性はプロパティであり、残差に直接関係しないと主張します(しかし、残差のプロパティ(括弧内の深くネストされたテキスト、気紛れ)))? そうでない場合、どの仮定を保持する必要がありますか?1?両方? 正規分布の残差の仮定が正しい場合、生の値のヒストグラムのみの正規性をチェックすることで重大な間違いを犯していますか?

5
QQplotの解釈-非正規性を決定する経験則はありますか?
ここでQQplotのスレッドを十分に読んで、QQplotが他の正規性テストよりも有益であることを理解しています。しかし、私はQQplotsの解釈に不慣れです。私はたくさんグーグルでした。非正規のQQplotのグラフをたくさん見つけましたが、既知の分布と「直感」との比較と思われるものを除き、それらの解釈方法に関する明確なルールは見つかりませんでした。 非正規性の判断に役立つ経験則があるか(または知っているか)知りたい。 この質問は、次の2つのグラフを見たときに浮上しました。 非正規性の決定は、データとそれらの処理に依存することを理解しています。ただし、私の質問は、一般に、観測された直線からの逸脱が正規性の近似を不合理にするのに十分な証拠を構成するのはいつですか? 価値のあることですが、Shapiro-Wilk検定は、どちらの場合も非正規性の仮説を否定できませんでした。

5
2つのグループのt検定とANOVAが同等である場合、それらの仮定が同等ではないのはなぜですか?
私はこれを完全に頭に包んでいると確信していますが、私はそれを理解することができません。 t検定は、Z分布を使用して2つの正規分布を比較します。これが、データに正規性の仮定がある理由です。 ANOVAは、ダミー変数を使用した線形回帰に相当し、OLSと同様に平方和を使用します。それが、残差の正常性の仮定がある理由です。 私は数年かかったが、私は最終的にそれらの基本的な事実を把握したと思います。それでは、なぜt検定は2つのグループのANOVAと同等なのでしょうか?データについて同じことを想定していない場合、どうすれば同等になりますか?

4
正規化とスケーリング
データ「正規化」とデータ「スケーリング」の違いは何ですか?今まで、両方の用語が同じプロセスを指していると思っていましたが、今では、私が知らない/理解していないものがあることに気付きました。また、正規化とスケーリングに違いがある場合、スケーリングではなく正規化をいつ使用する必要がありますか? 例を挙げて詳しく説明してください。


5
OLS残差が正規分布していない場合の回帰
このサイトには、OLS残差が漸近的に正規分布しているかどうかを判断する方法を議論するいくつかのスレッドがあります。Rコードで残差の正規性を評価する別の方法はこのすばらしい答えで提供されます。これは、標準化された残差と観測された残差の実際の違いに関する別の議論です。 しかし、この例のように、残差は明らかに正規分布していないとしましょう。ここには数千の観測があり、明らかに正規分布の残差の仮定を拒否しなければなりません。問題に対処する1つの方法は、回答で説明されているように、何らかの形式の堅牢な推定量を使用することです。しかし、私はOLSに限定されず、実際、他のglmまたは非線形の方法論の利点を理解したいと思います。 残差の仮定のOLS正規性に違反するデータをモデル化する最も効率的な方法は何ですか?または、少なくとも健全な回帰分析方法論を開発するための最初のステップは何ですか?

4
30を十分な大きさのサンプルサイズとして使用することをサポートするには、どの参考文献を引用する必要がありますか
少なくとも30単位のサンプルサイズが「大きなサンプル」と見なされることを何度も読んだり聞いたりしました(通常、CLTにより平均値の正規性の仮定が成り立つ...)。したがって、私の実験では、通常30ユニットのサンプルを生成します。サンプルサイズ30を使用する際に引用する必要がある参考資料を教えてください。

3
従属変数の正規性=残差の正規性?
この問題はいつもitsい頭を抱えているようで、私は統計を自分自身で理解するために(そして正気!)首を切り落とそうとしています。 一般的な線形モデルの仮定(t検定、ANOVA、回帰など)には「正規性の仮定」が含まれますが、これが明確に記述されることはめったにありません。 私は、多くの場合、単に「正規性の仮定が」それぞれに適用されることを示す統計の教科書/マニュアル/などに遭遇グループ(すなわち、カテゴリX変数)、そして我々は我々が正常からの逸脱を調べる必要があり、各グループを。 質問: 仮定はY の値またはYの残差を参照していますか? 特定のグループでは、Y 値の強い非正規分布(たとえば、歪んだ)を持つことができますが、Y の残差のほぼ(または少なくともより正規の)分布ですか? 他の情報源は、仮定がモデルの残差に関するものであると説明しています(t検定/ ANOVAなどのグループがある場合)。これらの残差の正規性の逸脱を調べる必要があります(つまり、実行)。 以下のための残差の正規んモデルはのための残差の正規性を意味するものでグループを?言い換えれば、モデルの残差を調べるだけでよい(多くのテキストの指示に反する)。 これを状況に当てはめるために、この架空の例を考えてみましょう。 2つの母集団(X)間のツリーの高さ(Y)を比較します。 1つの母集団では、Yの分布は強く右に歪んでいます(つまり、ほとんどの木が短く、背が非常にわずかです)。 身長は、正規分布の母集団で全体的に高くなっています(「本当の」違いがある可能性を示唆しています)。 データの変換は、最初の母集団の分布を実質的に改善しません。 まず、根本的に異なる高さ分布が与えられたグループを比較することは有効ですか? ここで「正常性の仮定」にアプローチするにはどうすればよいですか?1つの母集団のリコールの高さは正規分布ではありません。両方の母集団の残差を個別に調べるか、モデルの残差を調べますか(t検定)? 返信で質問を番号で参照してください。経験により、人々は迷子になったり、簡単に追跡できたりすることがわかりました(特に私です!)。私は統計学者ではないことに注意してください。ただし、統計についてはかなり概念的な(つまり、技術的ではない!)理解があります。 PS、私はアーカイブを検索し、私の理解を強固にしていない次のスレッドを読みました。 ANOVA仮定の正規性/残差の正規分布 残差対標本データの正規性; t検定はどうですか? 正規性テストは「本質的に役に立たない」ですか? 正常性のテスト 分布の正規性の評価 残差が正規分布していることを確認するために、どのテストを使用しますか? Kolmogorov-Smirnov検定がパラメトリック検定の残差に対して重要であるが、歪度と尖度が正常に見える場合はどうすればよいですか?


弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.