Moran's Iの堅牢な代替


19

空間的自己相関の尺度であるMoran's Iは、特に堅牢な統計ではありません(空間データ属性の歪んだ分布に敏感になる可能性があります)。

空間的自己相関を測定するためのより堅牢な手法は何ですか?Rのようなスクリプト言語で容易に利用可能/実装可能なソ​​リューションに特に興味があります。ソリューションが固有の状況/データ分布に適用される場合は、回答でそれらを指定してください。


編集:いくつかの例を使って質問を拡大しています(元の質問に対するコメント/回答に応じて)

順列手法(MoranのIサンプリング分布がモンテカルロ手順を使用して生成される)が堅牢なソリューションを提供することが示唆されています。私の理解では、このようなテストは、およそいかなる仮定にする必要がなくなりますということですモーランI分布を、私はのための方法を置換技術を補正する参照に失敗し、(検定統計量は、データセットの空間構造によって影響を受ける可能性があることを考えると)が、非正常に分散属性データ。2つの例を示します。1つは、ローカルモランのI統計に対する歪んだデータの影響を示すもの、もう1つは置換テストの下でのグローバルモランのIに対するものです。

私はZhangなどを使用します最初の例として(2008)の分析。彼らの論文では、置換テスト(9999シミュレーション)使用して、ローカルモランのIに対する属性データ分布の影響を示しています。GeoDaの元のデータ(左パネル)と同じデータのログ変換(右パネル)を使用して、鉛(Pb)濃度(5%信頼レベル)の著者のホットスポット結果を再現しました。元のPb濃度と対数変換されたPb濃度の箱ひげ図も表示されます。ここでは、データを変換すると、重要なホットスポットの数がほぼ2倍になります。この例は、モンテカルロ法を使用している場合でも、ローカル統計属性データの分布に敏感であることを示しています!

ここに画像の説明を入力してください

2番目の例(シミュレーションデータ)は、置換テストを使用する場合でも、歪んだデータがグローバルモランのIに与える影響を示しています。Rの例を次に示します。

library(spdep)
library(maptools)
NC <- readShapePoly(system.file("etc/shapes/sids.shp", package="spdep")[1],ID="FIPSNO", proj4string=CRS("+proj=longlat +ellps=clrk66"))
rn <- sapply(slot(NC, "polygons"), function(x) slot(x, "ID"))
NB <- read.gal(system.file("etc/weights/ncCR85.gal", package="spdep")[1], region.id=rn)
n  <- length(NB)
set.seed(4956)
x.norm <- rnorm(n) 
rho    <- 0.3          # autoregressive parameter
W      <- nb2listw(NB) # Generate spatial weights
# Generate autocorrelated datasets (one normally distributed the other skewed)
x.norm.auto <- invIrW(W, rho) %*% x.norm # Generate autocorrelated values
x.skew.auto <- exp(x.norm.auto) # Transform orginal data to create a 'skewed' version
# Run permutation tests
MCI.norm <- moran.mc(x.norm.auto, listw=W, nsim=9999)
MCI.skew <- moran.mc(x.skew.auto, listw=W, nsim=9999)
# Display p-values
MCI.norm$p.value;MCI.skew$p.value

P値の違いに注意してください。歪んだデータは、5%の有意水準でクラスタリングが存在しないことを示します(p = 0.167)が、正規分布データは存在することを示します(p = 0.013)。


Chaosheng Zhang、Lin Luo、Weilin Xu、Valerie Ledwith、地元のMoran's IとGISを使用して、アイルランドのゴールウェイの都市土壌におけるPbの汚染ホットスポットを特定します。 、212-221ページ


1
歪んだ分布に対する感度の参考文献はありますか?)非ランダムな空間分布のグローバルなテストや、局所的な異常な特徴の特定に興味がありますか?関心のある結果の分布(正のカウント変数?)
アンディW

1
AndyW:1)テストの感度への言及の1つは、FortinとDaleの「空間分析、生態学者へのガイド」(p。125)、2)グローバルテストとローカルテストの両方のソリューションに興味があります、3)特定のものはありませんデータ配信を念頭に置いてください。
MannyG

1
Andy、Moran's Iは重み付き分散と共分散の推定に基づいているため、これらの推定と同様に外れ値に対して同じ感度を持ちます(これはよく知られています)。この洞察は、マニーの問題に対する多くの可能な解決策への道も示します。分散と関連性の推定値のお気に入りの堅牢なバージョンを置き換えて、堅牢な重み付き相関を形成し、実行します。
whuber

1
@Andyのいくつかの概念をここで統合しているようです。まず、マニーは自己相関を測定したいと考えています。彼は必ずしも仮説検定を実施しているわけではありません。第二に、仮説検定の問題は、堅牢性よりもパワーの観点から最もよく構成されています。しかし、(3番目)概念には関連性があります:堅牢なテスト統計は、分布の仮定(外れ値による汚染など)の広範な違反の下でその力を維持する傾向がありますが、非堅牢なテスト統計は、ほとんどまたはすべてを失う可能性がありますそれらの状況でのその力。
whuber

1
@ FC84、私は昨年この問題を再検討、提案された解決策を書き上げました。しかし、審査が必要です。この記事の(かなりの)縮小版を、いつかここで答えとして提供するつもりです。私が持っているものから何ができるかを自由に集めてください。ただし、注意して使用してください!
MannyG

回答:


2

(これはこの時点では扱いにくいためコメントになりません)

これは、ローカルおよびグローバルテストに関するものです(特定の、サンプルに依存しない自己相関の測定値ではありません)。私が測定した特定のモランの測定値は相関の偏った推定値であり(ピアソン相関係数と同じ用語で解釈)、置換仮説検定が元の変数の分布にどのように敏感であるかはまだわかりません(タイプ1またはタイプ2のエラーに関して)。

コメントで指定したコードを少し調整します(空間の重みcolqueenがありませんでした)。

library(spdep)
data(columbus)
attach(columbus)

colqueen <- nb2listw(col.gal.nb, style="W") #weights object was missing in original comment
MC1 <- moran.mc(PLUMB,colqueen,999)
MC2 <- moran.mc(log(PLUMB),colqueen,999)
par(mfrow = c(2,2))
hist(PLUMB, main = "Histogram PLUMB")
hist(log(PLUMB), main = "HISTOGRAM log(PLUMB)")
plot(MC1, main = "999 perm. PLUMB")
plot(MC2, main = "999 perm. log(PLUMB)")

シミュレートされたテスト分布は本質的に変化するため、順列テストを実行するとき(この例では、スペースを混乱させると考えたい)、グローバルな空間自己相関の仮説テストは変数の分布に影響されるべきではありません元の変数の分布で。これを実証するために、もっと興味深いシミュレーションを思いつくかもしれませんが、この例でわかるように、観察されたテスト統計は、元とログの両方の生成された分布のかなり外側にPLUMBありますPLUMB(正規分布にはるかに近い) 。ログに記録されたPLUMBテスト分布は、0付近の対称性に近いヌルシフトの下で見ることができます。

ここに画像の説明を入力してください

とにかくこれを代替案として提案し、分布をほぼ正規に変換しました。また、空間フィルタリング(および同様にGetis-Ordのローカルおよびグローバル統計)でリソースを検索することをお勧めしますが、これがスケールフリーの測定に役立つかどうかはわかりません(ただし、仮説テストには有益かもしれません) 。興味のある可能性のあるより多くの文献を後で投稿します。


詳細なアカウントをありがとう。私があなたを正しく理解していれば、順列検定では、検定統計量(Moran's I)は結果のMC分布に対して変化しないことを暗示していますが、これは私の観察と一致しません。たとえば、同じコロンバスデータセットでHOVAL変数を使用すると、MC MoranのIテストのp値は0.029(元の歪んだデータ)から0.004(対数変換されたデータ)になり、MC間のギャップが広がることを示します。分布と検定の統計-しきい値を1%に設定した場合は重要ではありません。
MannyG

1
はい、私のポイントを正しく解釈しています。結果が異なる特定の実行を見つけることは確かに可能です。問題は、さまざまな状況でエラー率が同じかどうかになります。
アンディW
弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.