非正規性に対する相関テストのロバスト性


7

ピアソンの相関検定統計の非正規性に対する堅牢性について、一見逆の2つのステートメントを調整しようとしています(nullは「相関なし」を意味します)。

このCVの答えは言う:

非常に堅牢ではありません。

このバイオスタットハンドブックには次のように書かれています。

[...]多数のシミュレーション研究により、線形回帰と相関は非正規性の影響を受けないことが示されています。一方または両方の測定変数は非常に非正規である可能性があり、偽陽性の確率(帰無仮説が真の場合はP <0.05)は依然として約0.05です(EdgellおよびNoon 1984、およびその参照)。

何が欠けていますか?


3
あなたが引用する2つの異なる情報源は、「正常性からの逸脱」の概念に異なる意味を付けているようです。サンプルは正規分布から取得されていますか?ただし、単一の観測値が、正規性からの許容可能な偏差の形を構成すると見なされる任意の値に置き換えられていますか?その場合、明らかに、バイオスタットハンドブック(および参照されているEdgellとNoonの論文)が簡単に終了し、間違っていることが示されます。
user603

@ user603回帰では、いずれかまたは両方の変数の正規分布は必要ありません。仮定は、数学的形式に組み込まれています where。最後の部分に注意してください。正規分布するのは変数ではなく残差です。それらを経験的に検証します。(1)ああ、たとえば0から100までの均一な分布を使用してをシミュレートします。(2)シミュレートします; (3)でを回帰し、、を回復します。とヒストグラムを表示します。Y=β0+βバツバツ+εεN0σバツY=+0.5×バツ+N01Yバツβ0βバツ0.5バツY
Alexis

1
@アレクシス:私はあなたのコメントと私の間の関係を理解し​​ているとは思えません。私は回帰(または正常性)について何も主張しなかったと思います
user603

@ user603 EdgellとNoonの見積もりについて、特にこのビットについての主張を行ったことを確認してください。「多数のシミュレーション調査により、線形回帰と相関は非正規性の影響を受けないことが示されています。一方または両方の測定変数が非常に非正規である可能性があります」 —それはまさにそれについてです。
Alexis

回答:


9

EdgellとNoonの論文はそれを間違っていました。

バックグラウンド

このペーパーでは、正規分布、指数分布、均一分布、およびコーシー分布から描画された独立した座標を使用してシミュレートされたデータセット結果について説明します。(それはコーシーの二つの「形」を報告しているが、それらは唯一の値は無関係伸延されており、生成されたどのように異なっていた。)データセットのサイズ(「サンプルサイズ」)の範囲であったに。各データセットについて、ピアソンサンプル相関係数が計算され、統計に変換されました。(xi,yi)n5100rt

t=r21r2

(方程式(1)を参照)、そして両側計算を使用して自由度がスチューデント分布を参照しました 著者らは、これらの分布の組と各サンプルサイズのそれぞれについて独立したシミュレーションを実行し、それぞれに統計を作成しました。最後に、彼らはレベルで有意であると思われる統計の比率を表にしました。つまり、スチューデント分布の外側のテールの統計です。t2100001010000 ttα=0.05tα/2=0.025t

討論

先に進む前に、この調査では、ゼロ相関のテストが非正規性に対してどれほど堅牢であるかにのみ注目していることに注意してください。これはエラーではありませんが、覚えておくべき重要な制限です。

この調査には重要な戦略的誤りと明白な技術的誤りがあります。

戦略的エラーは、これらの分布がそれほど通常ではないことです。 正規分布も均一分布も、相関係数に問題を引き起こすことはありません。前者は設計によるもので、後者は外れ値を生成できないためです(ピアソン相関の原因ではありません)。堅牢であるために)。(ただし、すべてが正常に機能していることを確認するために、標準を参照として含める必要がありました。)これらの4つの分布は、場所が異なる分布からの値によってデータが「汚染」される可能性がある一般的な状況に適したモデルではありません。全体として(被験者が実際には異なる集団から来ており、実験者には不明な場合など)最も厳しいテストはコーシーからのものですが、対称であるため、片側外れ値に対する相関係数の最も可能性の高い感度を調査しません。

技術的なエラーは、研究がp値の実際の分布を調査しなかったことである:それは見えたのみのため、両面レートでα=0.05

(コンピューティングテクノロジーの制限により32年前に起こった多くのことを許すことはできますが、人々は汚染された分布、スラッシュ分布、対数正規分布、および他のより深刻な非正規性の形を定期的に調べていました。調査を1つのサイズに限定するのではなく、より広い範囲のテストサイズを検討します。

エラーの修正

以下に、この調査R完全に再現するコードを提供します(1分未満の計算)。しかし、それはもっと何かをします:それはp値の標本分布を表示します。 これは非常にわかりやすいので、これらのヒストグラムを見てみましょう。

最初に、私が調べた3つの分布からの大きなサンプルのヒストグラムを示します。これにより、それらがどのように非正規であるかを理解できます。

図1

指数関数は歪んでいます(ひどくはそうではありません)。コーシーには長い尾があります(実際には、何千もの値のうちいくつかはこのプロットから除外されているため、その中心を確認できます)。汚染されたものは標準の標準であり、標準の標準の5%混合が10。それらは、データで頻繁に発生する非正規性の形式を表します。

EdgellとNoonは、サンプルサイズの分布と列のペアに対応する行に結果を表にしたため、同じようにしました。彼らが使用したサンプルサイズの全範囲を調べる必要はありません。5)、最大(100)、1つの中間値(20)はうまくいきます。しかし、テールの頻度を表にする代わりに、p値の分布をプロットしました。

図2

理想的には、p値は均一な分布になります。棒はすべて一定の高さに近いはずです。1、各プロットで灰色の破線で示されています。これらのプロットには、一定の間隔で40本の棒があります。0.025 の研究 α=0.05左端と右端のバー(「極端なバー」)の平均の高さに焦点を当てます。EdgellとNoonはこれらの平均を理想的な頻度と比較しました0.05

均一性からの逸脱が目立つため、あまり解説は必要ありませんが、いくつか説明する前に、残りの結果を確認してください。 タイトルのサンプルサイズを確認できます。これらはすべて実行されます。520100 各行全体で、各グラフィックの下にある字幕の分布のペアを読むことができます。

図3

図4

最も印象に残っているのは、極端なバーが他の分布とどのように異なるかです。 の研究α=0.05ある非常に特別な!テストが他のサイズをどれだけうまく実行できるかは、実際にはわかりません。実際、の結果0.05彼らはこのテストの特徴に関して私たちを欺くほど特別です

次に、汚染された分布が関係している場合(高い外れ値のみが生成される傾向がある場合)、p値の分布が非対称になることに注意してください。1つのバー(正の相関のテストに使用される)は非常に高く、もう一方のバー(負の相関のテストに使用される)は非常に低いです。ただし、平均すると、ほぼバランスが取れています。2つの大きなエラーがキャンセルされます。

サンプルサイズが大きくなると問題が悪化する傾向があることは特に憂慮すべきことです。

また、結果の正確さについても懸念があります。ここからの要約です100000 EdgellとNoonの10倍の反復:

                                5      20     100
Exponential-Exponential   0.05398 0.05048 0.04742
Exponential-Cauchy        0.05864 0.05780 0.05331
Exponential-Contaminated  0.05462 0.05213 0.04758
Cauchy-Cauchy             0.07256 0.06876 0.04515
Cauchy-Contaminated       0.06207 0.06366 0.06045
Contaminated-Contaminated 0.05637 0.06010 0.05460

これらのうち3つ(汚染された分布を含まないもの)は、論文の表の一部を再現しています。それらは質的に同じ(悪い)結論につながります(つまり、これらの周波数は0.05)それらは、私のコードまたは論文の結果のいずれかを疑問視するほど十分に異なります。(紙の精度は約になりますα1α/0.0022、しかし、これらの結果のいくつかはその論文とは何倍も異なります。)

結論

EdgellとNoonは、相関係数の問題を引き起こす可能性が高い非正規分布を含めず、シミュレーションを詳細に調べなかったため、ロバスト性の明確な欠如を特定できず、その性質を特徴付ける機会を逃しました。での両面テストの堅牢性を発見したα=0.05レベルはほぼ純粋に事故であり、他のレベルのテストでは共有されない異常です。


Rコード

#
# Create one row (or cell) of the paper's table.
#
simulate <- function(F1, F2, sample.size, n.iter=1e4, alpha=0.05, ...) {
  p <- rep(NA, length(sample.size))
  i <- 0
  for (n in sample.size) {
    #
    # Create the data.
    #
    x <- array(cbind(matrix(F1(n*n.iter), nrow=n),
                     matrix(F2(n*n.iter), nrow=n)), dim=c(n, n.iter, 2))
    #
    # Compute the p-values.
    #
    r.hat <- apply(x, 2, cor)[2, ]
    t.stat <- r.hat * sqrt((n-2) / (1 - r.hat^2))
    p.values <- pt(t.stat, n-2)
    #
    # Plot the p-values.
    #
    hist(p.values, breaks=seq(0, 1, 1/40), freq=FALSE,
         xlab="p-values",
         main=paste("Sample size", n), ...)
    abline(h=1, lty=3, col="#a0a0a0")
    #
    # Store the frequency of p-values less than `alpha` (two-sided).
    #
    i <- i+1
    p[i] <- mean(1 - abs(1 - 2*p.values) <= alpha)
  }
  return(p)
}
#
# The paper's distributions.
#
distributions <- list(N=rnorm,
                      U=runif,
                      E=rexp,
                      C=function(n) rt(n, 1)
)
#
# A slightly better set of distributions.
#
# distributions <- list(Exponential=rexp,
#                       Cauchy=function(n) rt(n, 1),
#                       Contaminated=function(n) rnorm(n, rbinom(n, 1, 0.05)*10))
#
# Depict the distributions.
#
par(mfrow=c(1, length(distributions)))
for (s in names(distributions)) {
  x <- distributions[[s]](1e5)
  x <- x[abs(x) < 20]
  hist(x, breaks=seq(min(x), max(x), length.out=60),main=s, xlab="Value")
}
#
# Conduct the study.
#
set.seed(17)
sample.sizes <- c(5, 10, 15, 20, 30, 50, 100)
#sample.sizes <- c(5, 20, 100)

results <- matrix(numeric(0), nrow=0, ncol=length(sample.sizes))
colnames(results) <- sample.sizes
par(mfrow=c(2, length(sample.sizes)))
s <- names(distributions)
for (i1 in 1:length(distributions)) {
  s1 <- s[i1]
  F1 <- distributions[[s1]]
  for (i2 in i1:length(distributions)) {
    s2 <- s[i2]
    F2 <- distributions[[s2]]
    title <- paste(s1, s2, sep="-")
    p <- simulate(F1, F2, sample.sizes, sub=title)
    p <- matrix(p, nrow=1)
    rownames(p) <- title
    results <- rbind(results, p)
  }
}
#
# Display the table.
#
print(results)

参照

スティーブンE.エッデルとシーラM.ヌーン、正規性違反の影響t相関係数のテスト。Psychological Bulletin 1984、Vol。、95、No. 3、576-583。


ワオ。したがって、論文の2人の著者だけでなく、今日この分野で働いている多くの人々(ブログの著者や私が言及した生物統計のハンドブックを含む)は、彼らの研究にとって非常に重要な手法について、本当に残念な誤解をしています。
最大

公開された各記事にそのようなテストが1つだけ含まれている限り(複数の比較による修正が不要である限り)、深刻な外れ値が発生する可能性はありません。 α=0.05有意性のしきい値です。大丈夫かもしれません。ただし、1980年代初頭以降に作成された重回帰と相関に関するほとんどの教科書に、非正規性の識別、検出、および対処に関する主要なセクションが含まれていることには十分な理由があります。実際、この状況に対処するために開発された統計の完全なサブフィールド(ロバスト推定とEDA)は、当面はなくなってしまいました。
whuber

1
+1これは素晴らしい答えです。小さなひとひねり:「α= 0.05の研究は非常に特別です!」作者に別の印象を与えた印象を与えるα、彼らは根本的に異なる結果を観察したであろう(同じ方法論に従ってさえ)。しかし、これが当てはまるかどうかは、ヒストグラムから明らかではありません。α=0.01 または 0.001または十分な解像度がないため、他の一般的な値。これらのアルファの結果がほぼ同じである場合(実際のテストサイズは0.4〜0.8)α=0.05おそらく「異常に」特別ではありません。
amoeba

1
@amoeba正解です。これは一連の良い観察結果です。ただし、この解像度でテール付近に現れる鋭い傾向は、より高い解像度で表示するとさらに強くなることがわかるでしょう。もちろん、これにはより大きなシミュレーションが必要になります-少なくとも20倍の大きさ。これは、興味のある人なら誰でも実行できることです。
whuber

3

whuberはゼロ相関のヌルの下でのp値の分布の振る舞いの包括的な分析を行っているので、コメントは別の場所に集中します。

  1. 仮説検定に関連するロバスト性は、レベルのロバスト性(目的の有意水準に近づく)を意味するだけではありません。この調査では、1つのレベルと両側のテストのみを調べているだけでなく、電力への影響も無視しているようです。ヌルからの大きな逸脱に対して5%の拒否率*で終わる場合、ヌルの下で5%の拒否率に近いと言っても意味がありません。

    *(またはさらに悪いことに、テストがいくつかの代替案の非正規分布の下でバイアスがかかる場合)

    力の調査はかなり複雑です。まず、これらの分布では、おそらく変換されていない変数の線形関係に近い、おそらく母相関係数の指定された値に近いいくつかのコピュラを指定する必要があります。(少なくとも)いくつかの効果のサイズ、そしておそらく負と正の両方の依存関係を調べる必要があります。

    それでも、これらの状況でのテストによる推論の特性を理解する場合、電力への潜在的な影響を無視することはできません。

  2. ピアソン相関の特定のテスト、たとえばピアソン相関の順列テスト、ケンドールのタウやスピアマンのローのようなランクテスト(通常の仮定が当てはまる場合に優れたパフォーマンスを発揮するだけでなく、これは、前に述べたパワースタディに必要なコピュラの問題にも直接関連しています)、おそらく相関係数のロバスト化されたバージョン、そしておそらくブートストラップテストも。

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.