さまざまなタイプのイベント間の関係（2D位置によって定義される）を見つける方法は？

同じ期間に発生したイベントのデータセットがあります。各イベントにはタイプ（10未満の異なるタイプがいくつかあります）と場所があり、2Dポイントとして表されます。

イベントの種類や種類と場所の間に相関関係がないか確認したい。たとえば、タイプAのイベントは通常、タイプBのイベントが発生する場所では発生しない可能性があります。あるいは、ある地域では、タイプCのイベントがほとんどあります。

これを実行するためにどのようなツールを使用できますか？統計分析の初心者である私の最初のアイデアは、このデータセットに対して何らかの種類のPCA（主成分分析）を使用して、各タイプのイベントが独自のコンポーネントを持っているか、または一部が同じコンポーネントを共有しているか（つまり、相関していたか）を確認することでした。

私のデータセットは約500'000ポイントであるため、処理が少し難しくなります。 $(x, y, type)$

編集：以下の回答とコメントに記載されているように、このワークショップレポートで詳細に説明されているように、これをマークポイントプロセスとしてモデル化し、Rを使用してすべての重い作業を実行する方法です：http：/ /www.csiro.edu.au/resources/Spatial-Point-Patterns-in-R.html

— ウカイ
ソース

これは、（処理された）リモートで検知された画像などのラスターデータセットですか、それとも不規則なデータセットですか？

— whuber

まあ、それは不規則だと思います。これは、英国で発生した犯罪の記録であり、ここで入手できます：police.uk/data。

— Wookai

@Wookai 1か月で英国で5億件の犯罪?? 記者会見で報道されなかったアナーキーがイギリス諸島に降りてきたが、ついに警察のファイルで明らかにされたのか？:-)私はその量の約100分の1を-かろうじて信じることができました。

— whuber

うわー、この「タイプミス」を本当にすみません;）！それは実際には1000分の1、500,000の犯罪です（「車両犯罪」、つまりスピードチケットなどを数えます）。

— ookai

はい、Rは進むべき道に見えます！Rのspatstatモジュールに関するワークショップの非常に完全なレポートを見つけました。これはまさに私が探しているものです：csiro.edu.au/resources/Spatial-Point-Patterns-in-R.html

— Wookai

回答:

あなたが説明するデータのタイプは、通常「マーク付きポイントパターン」と呼ばれます。Rには、このタイプの分析に適した多くの優れたパッケージを提供する空間統計のタスクビューがあります。持ってる：（

たとえば、タイプAのイベントは通常、タイプBのイベントが発生する場所では発生しない可能性があります。あるいは、ある地域では、タイプCのイベントがほとんどあります。

これらは2つのかなり異なるタイプの質問です。2番目の質問は、1つのタイプのマーク/イベントの配置について尋ねます。このコンテキストで検索する流行語は、クラスタリング（ある種のイベントがグループ化される傾向がある）または反発（ある種のイベントが分離される傾向がある）パターンの発見に興味がある場合は、fe強度推定またはK関数推定です。最初の質問では、さまざまなタイプのイベント間の相関について尋ねます。これは通常、マーク相関関数で測定されます。

より扱いやすいデータサイズを取得するためにデータをサブサンプリングすることは危険だと思います（@hamnerの返信へのコメントを参照）。おそらく、データを集計できます。観測ウィンドウを同じサイズの管理可能な数のセルに分割し、イベントカウントを各。次に、各セルは、その中心の位置と、10個のマークタイプのカウントの10個のベクトルによって記述されます。この集約されたプロセスでマークされたポイントプロセスに標準の方法を使用できるはずです。

— ファビアン
ソース

私はマークされたポイントプロセスといくつかの関連する理論的なツールに精通しています。キーワードに感謝します。これらについていくつかのアドバイスがありますか？集計のアイデアもありがとう、私は同様のアイデアを持っていたので、これを試みます。

— ウカイ

Peter Diggleは「モデルベースの地球統計学」を書いています。彼はこのページでランカシャーの犯罪データの分析もしています：lancs.ac.uk/staff/diggle/MADEはあなたにいくつかの良いアイデアを与えるかもしれません。

— ファビアン

まず、データセットのサイズ。データセットの小さくて扱いやすいサンプルを取り（ランダムにN個のデータポイントを選択するか、またはXY平面でいくつかの比較的小さな四角形をランダムに選択し、その平面内にあるすべてのポイントを取る）、このサブセットの分析手法を磨くことをお勧めします。機能する分析の形式がわかれば、それをデータセットの大部分に適用できます。

PCAは、主に次元削減手法として使用されます。データセットは3次元のみ（そのうちの1つはカテゴリカル）であるため、ここでは当てはまりません。

MatlabまたはRを使用して、XY平面で分析しているポイント（またはデータセット全体を操作している場合はそれらの相対密度）を視覚化して、個々のタイプとすべてのタイプを組み合わせて、どのパターンが視覚的に現れるかを確認します。これにより、より厳密な分析を行うことができます。

— ベンハムナー
ソース

これが適切かどうかは、データ生成プロセスについてすでに知っていることや想定していることによって異なります。領域ごとにデータをサブサンプリングする（つまり、いくつかの事前定義された小さいウィンドウですべてのポイントを取る）ことは、均一でないと危険な場合があります（別のウィンドウを使用すると結論が変わるため）。トレーニングセットの配置に関係なくデータをサンプリングすると、観察されたプロセスを「間引く」効果があり、マークまたはクラスタリング/反発プロセス間の相関の範囲など、描きたい結論を無効にします。

— ファビアン

はい、PCAは次元削減のためのものであることを知っています。これが、データセットにPCAを適用する方法について混乱した理由です。アイデアは、各イベントタイプに独自の「方向」があるかどうか、またはいくつかの「同じ方向を共有する」かどうかを確認することでした。しかし、私は単に相関関係を考えていたと思います。

— Wookai