なぜ空間自己相関のGAMアカウントに緯度と経度を含めるのですか?


60

森林破壊のための一般化された加算モデルを作成しました。空間的自己相関を説明するために、緯度と経度を平滑化された相互作用項(つまりs(x、y))として含めました。

著者は「空間的自己相関を考慮して、ポイントの座標は平滑化された用語として含まれている」と言う多くの論文を読んでこれを基にしましたが、これらが実際にそれを説明する理由を説明したことはありません。とてもイライラします。私は答えを見つけることを期待してGAMで見つけることができるすべての本を読みましたが、ほとんど(たとえば、一般化された加算モデル、Rの紹介、SN Wood)は説明なしで主題に触れています。

誰かが空間自己相関の緯度と経度の説明を含める理由を説明できれば、本当に感謝していますs(x、y)inとなしのモデル?また、この用語で説明される逸脱は、空間的自己相関の程度を示していますか?


関連する場合は、Rの「mgcv」パッケージの「bam」関数を使用しました。
gisol

また、モランのIを使用して空間自己相関をテストしました
。-ギソル


3
ここでの回答を考えると、他のQ @Macroリンクにこのリンクの複製としてフラグを付けて、そこで出会った人がここで回答、特にwhuberの回答を見ることができるようにします。
ギャビンシンプソン

+1 @GavinSimpson-ちなみに、あなたは近い票を投じる力を持っていることに注意してください。
マクロ

回答:


38

統計モデルの主な問題は、推論手順の基礎となる仮定です。記述するモデルの種類では、残差は独立していると想定されます。それらに空間依存性があり、これがモデルの対称部分でモデル化されていない場合、そのモデルの残差も空間依存性を示します。つまり、空間的に自己相関します。このような依存は、たとえばGAMのテスト統計からp値を生成する理論を無効にします。p値は独立性を仮定して計算されているため、信頼できません。

このようなデータを処理するには、主に2つのオプションがあります。i)モデルの系統的部分の空間依存性をモデル化するか、ii)独立性の仮定を緩和し、残差間の相関を推定します。

i)モデルに空間位置の滑らかなものを含めることによって試みられているものです。ii)一般的な最小二乗法のような手順を使用したモデルのフィッティング中に、しばしば残差の相関行列の推定が必要です。これらのアプローチのいずれが空間依存性をうまく処理するかは、空間依存性の性質と複雑さ、およびモデル化の容易さに依存します。

要約すると、観測間の空間依存性をモデル化できる場合、残差は独立したランダム変数である可能性が高いため、推論手順の仮定に違反しません。


あなたの明確な答えギャビンをありがとう。空間的自己相関が、モデルに含まれていない勾配と根本的に異なるのはなぜですか?調査地域が傾斜した丘の上にあり、関心のある種がより高い生息地よりも低い生息地を好んだとします。モデルに標高を含めないと、残差に構造が残りますか?単に空間的自己相関が忘れられているか、考慮されていないということですか?(PSおそらく、lat、longを含めるとこの効果も説明されるため、これは悪い例です)。
ギソル

4
はい。例では、空間コンポーネントが興味深いため、lat / lonのスムースを介して明示的にモデル化されたか、空間コンポーネントは迷惑な用語であるが、残差iidを残すためにモデル化する必要があるコンポーネントは別の変数(たとえば、コメントの標高)を介してより適切にモデル化され、空間位置の代わりにその変数のスムーズが使用されます。
ギャビンシンプソン

1
なぜ平滑化されたのですか?「なめらか」とはどういう意味ですか?
ジュリアン

1
応答の@Julian値は、2つの空間座標に関して平滑化されます。別の言い方をすれば、空間効果は滑らかな2次元関数として推定されます。スムーズというのは、スプラインの積分された二次微分によって測定されるウィグリネスがあることを意味します。ウィグリネスは、モデルの適合と複雑さのバランスをとるために選択されます。滑らかな関数(スプライン)がどのように形成されるかを知りたい場合は、特定の質問をする価値があります。
ギャビンシンプソン

55

z

zy(z)yz(z1,z2)ε

y(z)=β0+β1z1+β2z2+ε(z)

β1β2y(z)y(z)zzy(z)y(z)E[|y(z)y(z)|]

E[(y(z)y(z))2]=E[(β0+β1z1+β2z2+ε(z)(β0+β1z1+β2z2+ε(z)))2]=E[(β1(z1z1)+β2(z2z2)+ε(z)ε(z))2]=E[(β1(z1z1)+β2(z2z2))2+2(β1(z1z1)+β2(z2z2))(ε(z)ε(z))+(ε(z)ε(z))2]=(β1(z1z1)+β2(z2z2))2+E[(ε(z)ε(z))2]

y(z)y(z)

ε(z)

y(z)=β0+ε(z)

εε(z)ε(z)E[ε(z)ε(z)]εzzC(z,z)y(z)y(z)

ρ(y(z),y(z))=C(z,z)C(z,z)C(z,z).

y

E[(y(z)y(z))2]=(β1(z1z1)+β2(z2z2))2+E[(ε(z)ε(z))2]=(β1(z1z1)+β2(z2z2))2+C1(z,z)+C1(z,z)

zzεC1C

εyzzβ0β1

y

E[(y(z)y(z))2]=E[(β0+ε(z)(β0+ε(z)))2]=E[(ε(z)ε(z))2]=E[ε(z)22ε(z)ε(z)+ε(z)2]=C2(z,z)2C2(z,z)+C2(z,z).

C2(z,z)zzy

E[(y(z)y(z))2](β1(z1z1)+β2(z2z2))22C2(z,z)Ci(z,z)

ε)。実際には、モデルには両方の方法が組み込まれています。どちらを選択するかは、モデルで何を達成したいかと、空間的自己相関がどのように発生するかという観点に依存します。どちらも常に正しいわけではなく、どの問題でも、多くの場合、両方の種類のモデルを使用してデータを分析し、現象を理解し、他の場所でその値を予測することができます(補間)。


2
+1-空間依存性を処理するための2つのアプローチ間のリンクを見るのは素晴らしいことです。素晴らしい答え、whuber!
マクロ

非常に包括的な、ありがとう。このすべてを熟考するのに少し時間がかかります。
ギソル

6
すべての統計の記述がこの同類のものである場合、世界でははるかに明確な思考の応用統計作業があります。美しくできました。
アリB.フリードマン

任意の(?!)モデルにX / Y座標を単純に独立変数として追加すると、ある程度の空間的自己相関が考慮されることから、この答えを正しく理解できますか?
ジュリアン

1
@Julian:同じデータに対して異なるモデルを構築することについて話している。説明変数としてX座標とY座標を含めても空間相関を考慮しない場合、このモデルでは「空間相関」は意味をなさないため、「空間相関のアカウント」の意味に注意する必要があります。しかし、座標を説明変数として含めることが、空間相関が明示的に表されるモデルを構築するのと同じくらい効果的かどうかを尋ねる質問を理解した場合、私の答えは「はい、しばしばそうです」です。
whuber

0

他の答えは良いです。「自己勘定」空間自己相関について何かを追加したかっただけです。時々、この主張は「共変量によって説明されない空間的自己相関の説明」の線に沿ってより強くなされます。

これは、空間スムースの機能の誤解を招く画像を提示する可能性があります。スムースが共変量が最初に移動するのを辛抱強く待ってから、スムースが「説明されていない」部分を一掃する可能性に何らかの秩序的なキューがあるということはありません。実際には、彼らは皆、データを説明する機会を得ます。

CARモデルの観点からは原則がGAMスムースに適用されますが、適切に名付けられたタイトルのこのペーパーでは、問題が非常に明確に示されています。

空間的に相関するエラーを追加すると、愛する固定効果が台無しになる可能性があります

論文の「解決策」は、空間を平滑化するのではなく、残差を平滑化することです。それは、共変量に何ができるのかを説明できるという効果があります。もちろん、これが望ましい解決策ではない多くのアプリケーションがあります。


-2

空間相関とは、x座標とy座標が空間内の結果の表面の大きさにどのように関係するかということです。したがって、座標間の自己相関は、隣接するポイント間の機能的な関係の観点から表現できます。


1
こんにちはマイケル、応答に感謝します。私はあなたが言ったことを理解していると思いますが、それは座標の包含がそれをどのように説明するかではなく、空間的自己相関の説明であるようです。たとえば、2つのモデルがあり、最初の(A)には単一の用語がある-首都までの距離の関数としての森林伐採、および2番目の(B)には首都までの距離だけでなく緯度と経度もある期間。この文脈で答えを繰り返していただけますか?おそらく私はそれをよりよく理解できたでしょう。
ギソル

1
モデルに相互作用項がない場合、隣接するポイント間の空間的自己相関は0であると思います。反復項がある場合、その項は空間的自己相関の値を決定します。
マイケルチャーニック

4
@Michael、空間的自己相関は、ポイント間の相関がそれらの空間的位置に依存することを意味します。この答えは、空間位置を入力として滑らかな関数推定を使用する理由を説明できれば、より役立つと思います。表面的には、平滑関数アプローチは平均をモデル化しているのに対し、空間的自己相関は共分散構造を指しているようです。スムーズなプロセスの共分散関数とスムーズな関数推定の間に関係があることは知っていますが、その関係を作らないと、この答えは不完全に見えます。
マクロ

1
@Michael、確かに、緯度/経度座標が平均に影響を与えることは、空間内の2点間の相関をモデリングすることとは異なることがわかります... OPは空間自己相関をモデル化する方法を尋ねましたが、は、滑らかな空間サーフェス(座標の一般化された加法モデルが行うこと)が空間自己相関をどのようにモデル化するかを正確に説明します。gamと共分散関数の間には関係があります(より正確に知るには十分ではありません)が、その関係にアピールすることがここで必要とされるようです。
マクロ

1
@Marco できればサイモン・ウッドの本をご覧ください。詳細があり、スムースに関する関連文献をランダム効果ビットとして引用しています。
ギャビンシンプソン
弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.