バイナリ値を持つポイントの空間的自己相関を測定するための適切な統計とは何ですか?


9

ポイントデータセットの空間的自己相関のレベルを特定しようとしています。私が興味を持っている属性はバイナリ(種の存在/不在)であり、モランのIは適切ではありません。一方、一般にバイナリデータまたはカテゴリデータに推奨されるJoint Count統計は、明らかにポイントデータには適していません。要するに、問題はこうです:対象の属性がバイナリである場合、ポイントのグローバルおよび/またはローカルの空間的自己相関を測定するための適切な統計とは何ですか?

回答:


4

Join-Counts統計がバイナリデータに適切でないというあなたの主張は正しくありません。空間ウェイトマトリックス(Wij)の指定方法の問題です。Morna's-Iと同様に、このタイプの分析では距離行列を使用できませんが、不測の適切なバイナリ行列は、距離カットオフを使用して計算できます。このタイプの空間ウェイトマトリックスを作成するだけでなく、R spdepライブラリで結合カウント分析を実行できます。"joincount.test"およびjoincount.mc(モンテカルロ順列検定の場合)関数を参照してください。


ありがとう、ジェフリー。ジョイントカウントは明らかにバイナリデータを取得する方法ですが、ジョイントカウントはエリア(ポイントではなく)データにのみ適切であるという提案がありました(今はどこか思い出せません)。距離のしきい値を使用してウェイトマトリックスを作成できず、ジョイントカウントを使用できない理由は私にはわかりませんでしたが、一部の大まかな検索でこの例を見つけることができませんでした。このタイプの使用について提供できる参照はありますか?
user13706

これは、ポイントパターン分析に関する大量の文献です。Join-Counts統計は一般的に使用されていないため、現在の文献ではあまり普及していません。DiggleまたはGeitsによる初期の作業に戻ります。二項データの空間依存性を定量化する上での目標は何ですか?Join-Counts係数は、混合効果やCAR / SARモデルなどでは使用できません。占有パターンスケーリング(上ここではいくつかの興味深い背景en.wikipedia.org/wiki/Scaling_pattern_of_occupancy
ジェフリー・エバンス

1
RandomForestはノンパラメトリックモデルであるため、自己相関の影響を受けません。このモデルの問題は、ブートストラップアンサンブル内の相関です。多くの場合、自己相関によってデータに「冗長性」が生じ、ブートストラップにバイアスが生じます。あなたの共変量の条件付き分布に基づいて見ていきます。「R-グループ化係数による確率密度のプロット」で利用可能なRコードがあります:conserveonline.org/workspaces/emt/documents/all.html
Jeffrey Evans

1
ああ、私はRFが完全にブラックボックスであることを一般化しません。これは実際にはそうではありません。このモデルは、しばしば「灰色の箱」と呼ばれます。自己相関は主に頻出法におけるIIDの仮定に影響を与えるため、ノンパラメトリックな仮定に違反しないことはかなり安全な主張です。
ジェフリーエヴァンス

1
「ノンパラメトリック」統計を一般化しています。これには多くの方法が含まれます。ブリーマンの2001年の証明を振り返ると、RFが独立を前提としないことがわかります。Hastieの著書「Elements of Statistical Learning」は、機械学習手法に関連したサンプル理論の確かな統計的背景を提供します。前述のように、疑わしいのは疑似複製/自己相関によって確実に引き起こされる可能性のある集団内の相関です。ただし、これはRFのモデル前提ではありません。ただし、十分に切断すると、バイアスまたはオーバーフィットの正味の影響は明らかに同じになります。
ジェフリーエヴァンス

0

バイナリデータは、空間的自己相関の通常の使用例です。空間分析の本のほとんどはそれについて語ると思います。このドキュメントは役に立ちます。


1
リファレンスの最初のページでは「データの場所はリージョンである」と強調されているため、ポイントデータにはまったく適用されないようです。
whuber

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.