空間プロセスのパラメーターの推定


12

正の整数値のグリッドが与えられます。これらの数値は、そのグリッド位置を占める人の信念の強さに対応する強度を表します(値が高いほど、信念が高いことを示します)。人は一般に、複数のグリッドセルに影響を与えます。n×n

強度のパターンは「ガウスに見える」はずで、高強度の中心位置があり、強度はすべての方向に放射状に次第に細くなると思います。具体的には、分散のパラメーターとスケールファクターのパラメーターを持つ「スケーリングされたガウス」からの値としてモデル化したいと思います。

2つの複雑な要因があります。

  • バックグラウンドノイズやその他の影響により、人がいない場合はゼロの値に対応しませんが、値は小さくする必要があります。ただし、これらは不安定になる可能性があり、最初の近似では、単純なガウスノイズとしてモデル化することが困難な場合があります。
  • 強度の範囲は異なる場合があります。1つの例では、値の範囲は1〜10で、別の例では1〜100です。

適切なパラメータ推定戦略、または関連文献へのポインタを探しています。なぜ私がこの問題にまったく間違った方法で取り組んでいるのかについてのポインタも評価されます:)。私はクリギングとガウス過程について読んでいますが、それは私の問題にとって非常に重い機械のようです。


1
分散スケールパラメーターを持つガウスとはどういう意味ですか?分散パラメーターガウスのスケールパラメーターです!また、これまでに設定したモデルについても少しわかりません。実際に解決しようとしている問題を詳しく説明できますか?ガウス分布を使用して低粒度の整数値の観測値をモデル化することは、面白そうです。
枢機卿

(+1)興味深い質問。あなたが少し良く解決しようとしていることを理解することを楽しみにしています。
枢機卿、

ここにいくつかの観察があります:1.値が整数の場合、Gaussianの使用は適切ではないようです。2.モデルの目的が明確ではありません。たとえば、強い信念のクラスターを特定しますか?あなたがそれらを持っている場合、あなたのパラメータの解釈は何ですか?3.グリッドがあるので、二変量分布の混合を当てはめてみませんか?次に、グリッドは分布(たとえば、単位平方)のサポートとなり、強度は高確率領域に対応します。
mpiktas

興味深い点をありがとう。明確にしてみましょう。コメントに照らして、「ガウス」の選択は、それが助けるよりも多くの混乱を引き起こす赤いニシンかもしれません。データの重要な特徴は、人の位置が最も信頼できるポイントでの高輝度値と、その周囲で「放射状」に漸減することです(これは経験的に観察しています)。強度値は、(線形)逆問題の解から得られるため、実際には必ずしも積分である必要はありません。これは、たまたま持っているデータです。
Suresh Venkatasubramanian 2011

ところで、質問をより明確にしてよりよくモデル化する試みに感謝します。正しいモデリングの仮定に収束するように、実際のデータ設定を説明するために最善を尽くします。
Suresh Venkatasubramanian 2011

回答:


5

このpysal pythonライブラリのモジュールは、以下で説明する空間データ分析方法に使用できます。

各人の態度が周囲の人の態度にどのように影響されるかについての説明は、空間自己回帰モデル(SAR)で表すことができます(このSE回答 2の簡単なSARの説明も参照してください)。最も単純なアプローチは、他の要因を無視し、MoranのI統計を使用して、周囲の人々が互いの態度に与える影響の強さを推定することです。

より複雑なタスクである周囲の人々の影響の強さを推定しなが​​ら他の要因の重要性を評価したい場合は、回帰のパラメーターを推定できます:ここのドキュメントを参照してください(このタイプの回帰を推定する方法は、空間計量経済学の分野から来ており、私が与えた参照よりもはるかに洗練されている可能性があります)。y=bx+rhoWy+e

課題は、空間ウェイトマトリックス()を作成することです。マトリックスの各要素w i jは、他の人jに影響を与える必要があると感じている人iがある距離内にいるかどうかに基づいて、1または0 である必要があると思います。Wwijij

この問題を直感的に理解するために、空間自己回帰データ生成プロセス(DGP)が値のパターンを作成する方法を以下に示します。シミュレートされた値の2つのラティスでは、白いブロックは高い値を表し、暗いブロックは低い値を表します。

下の最初のラティスでは、グリッド値は、がゼロである正規分布ランダムプロセス(またはガウス)によって生成されています。rho

ランダム(ガウス)

rhoここに画像の説明を入力してください


それは非常に興味深いです(関連するGeary Cもそうです)。これは私が必要としているものに近いかもしれません。
Suresh Venkatasubramanian、2011年

Geary Cは、分布の途中の値であっても、値が他のクラスターにどのように近いかを確認するのに役立ちます。MoranのIは、非常に高い値が非常に高い値とクラスター化し、非常に低い値が非常に低い値の周りにクラスター化する方法を確認するのに役立ちます。したがって、おそらくあなたは正しく、最も簡単で最良の方法はGeary's Cです。Geary's Cのアプローチは探索的であり、他の要因に基づいて結果を調整できないことに注意してください。GearyのCを実行するためのコードについては、このpythonモジュールを参照してください:pysal.org/1.1/library/esda/geary.html
b_dev

これらをもう少し試してみましょう。それが私が必要とすることをしているようであるなら(そして私はそうすると思います)、これは最良の答えのように聞こえます。
Suresh Venkatasubramanian、2011年

3

これはうまくいくかもしれない簡単なアイデアです。コメントで述べたように、強度のあるグリッドがある場合は、2変量分布の密度に適合しないのはなぜですか?

これが私のポイントを説明するためのサンプルグラフです: ここに画像の説明を入力してください

の各グリッドポイントは、強度に応じて色付けされた正方形として表示されます。グラフには、2変量正規密度プロットのコンタープロットが重ねて表示されています。ご覧のとおり、等高線は強度が減少する方向に拡大しています。中心は、2変量正規の平均と、共分散行列による強度の広がりによって制御されます。

平均と共分散行列の推定値を取得するには、単純な数値最適化を使用できます。平均と共分散行列をパラメーターとして使用して、強度を密度関数の値と比較します。最小化して見積もりを取得します。

もちろん、これは厳密に言えば統計的な推定値ではありませんが、少なくともそれをさらに進める方法についてのアイデアを提供します。

グラフを再現するためのコードは次のとおりです。

require(mvtnorm)
sigma=cbind(c(0.1,0.7*0.1),c(0.7*0.1,0.1))

x<-seq(0,1,by=0.01)
y<-seq(0,1,by=0.01)
z<-outer(x,y,function(x,y)dmvnorm(cbind(x,y),mean=mean,sigma=sigma))

mz<-melt(z)

mz$X1<-(mz$X1-1)/100
mz$X2<-(mz$X2-1)/100

colnames(mz)<-c("x","y","z")

mz$intensity<-round(mz$z*1000)

ggplot(mz, aes(x,y)) + geom_tile(aes(fill = intensity), colour = "white") + scale_fill_gradient(low = "white",     high = "steelblue")+geom_contour(aes(z=z),colour="black")

2

X[i,j]X[i,j](X[i1,j1],...,X[im,jm])(X[i1+k,j1+l]...,X[im+k,jm+l])corr(X[i1,j1],X[i2,j2])d([i1,j1],[i2,j2])ρ(d)ρ(d)=kd1k

d([i1,j1],[i2,j2])=|i1i2|+|j1j2|ρd例えば、最尤を介して。その他のアイデアについては、「ランダムフィールド」を探してください。


1
「空間的定常性を仮定したい」というのは、「強度がすべての方向に放射状に先細りになる」というOPの仮定に直接反するように見えます。
whuber

どうして?このようなパターンは、私が提案した自己相関構造で発生します。
charles.y.zheng

1
@charlesこれは重要なポイントです。実際、この明らかな傾向が自己相関に起因する場合、原則として、プロセスの別の独立した実現は、中心点から離れた値の増加など、劇的に異なる傾向を示す可能性があります。OPはトレンド(「放射状テーパー」)と相関要素(「複数のグリッドセルに影響を与える」)にいくつかの決定論的要素を明確に明確にし、区別しているため、これを尊重する返信は、断言するものよりも肯定的に見られる可能性があります。 OPは彼の考えを変えたがります。
whuber

空間的な定常状態を理解しているのかわかりません。表面的には、特定の場所に「先が細くなるピーク」という考えとは相性が悪いようですが、はっきりと理解できていません。
Suresh Venkatasubramanian 2011

1
@charles、記述したパターンは、空間的な定常性の仮定により、グリッドポイントごとに存在します。定常性とは、基本的に、私のすべてのポイントは同じように動作するということです。これは、OPで記述されている場合とは異なります。答えは非常に良いですが、この場合は適切ではありません。
mpiktas 2011
弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.