回帰モデルと空間的自己相関


15

2つの異なるデータベース間の依存関係を検証するために、OLSとGWRを使用しました。GWRの残差平方は0.82であるため、2つのデータセット間の関係を決定するために使用される正しい回帰モデルになります。

私が知りたいことは、GWRはローカル回帰であり、OLSはグローバル回帰であり、いつどこで使用されるべきですか?

また、GWRモデルのMoran's IがRandomである場合、それはどういう意味ですか?

回答:


13

これらの手順とは

OLSGWRは、その統計的製剤の多くの側面を共有し、彼らは異なる目的のために使用されます。

  • OLSは、特定の種類のグローバルな関係正式にモデル化します。最も単純な形式では、データセットの各レコード(またはケース)は、実験者によって設定される値(「独立変数」と呼ばれることが多い)xと、観測される別の値y (「従属変数」)で構成されます)。OLSは、yがおよそ特に簡単な方法でxに関連します。つまり、実験者が関心を持つxのすべての値に対して、a + b * xがyの適切な推定値となる(未知の)数 'a'および 'b'が存在します。 。「良い推定値」は、yの値がそのような数学的予測から変化する可能性があり、今後変化することを認めます。(1)実際にそうである-自然は数学的な方程式ほど単純ではないこと、および(2)yはエラー。aとbの値を推定することに加えて、OLSはyの変動量も定量化します。これにより、OLSはパラメーターaおよびbの統計的有意性を確立することができます。

OLSフィットは次のとおりです。

ここに画像の説明を入力してください

  • GWRは、ローカルな関係を調査するために使用されます。この設定では、まだ(x、y)のペアがありますが、現在は(1)通常、xとyの両方が観測されます(どちらも実験者が事前に決定することはできません)、および(2)各レコードには空間位置 zがあります。任意の場所 z(データが利用可能な場所である必要はありません)について、GWRはOLS アルゴリズムを隣接するデータ値に適用して、yとaの位置固有の関係をy = a(z)+ b(z)の形式で推定します *バツ。「(z)」という表記は、係数aとb が場所によって異なることを強調しています。 そのため、GWRはローカルに重み付けされたスムーザーの特殊バージョンです近隣を決定するために空間座標のみが使用されます。その出力は、xとyの値が空間領域にわたってどのように変化するかを示唆するために使用されます。方程式で「x」と「y」のどちらが独立変数と従属変数の役割を果たすかを選択する理由がないことが多いのは注目に値しますが、これらの役割を切り替えると結果が変わります!これは、正式な方法ではなく、GWRを探索的(データを理解するための視覚的および概念的な支援)と見なすべき多くの理由の1つです。

これは、局所的に重み付けされたスムーズです。 データ内の見かけ上の「小刻みに」動くことができるが、すべてのポイントを正確に通過するわけではないことに注意してください。(GWRが手順の設定を変更することで空間データを多少正確に追跡できるように、手順の設定を変更することで、ポイントを通過したり、より小さな小刻みをたどったりすることができます。)

低い

直観的に、OLSは(x、y)ペアの散布図に剛な形状(線など)を当てはめると考え、GWRはその形状を自由に揺らすことができると考えます。

それらの選択

この場合、「2つの異なるデータベース」が何を意味するかは明確ではありませんが、OLSまたはGWRを使用してそれらの関係を「検証」することは不適切であると思われます。たとえば、データベースが同じ場所の同じ量の独立した観測を表す場合、(1)x(一方のデータベースの値)とy(他方のデータベースの値)の両方が(xを固定され正確に表現されると考える代わりに)変化するものとして考えられ、(2)GWRはxとyの関係を探索するのに適しいますが、検証に使用することはできません何でも:何があっても関係を見つけることが保証されています。さらに、前述のように、「2つのデータベース」の対称的な役割は、どちらかを「x」として選択し、もう一方を「y」として選択できることを示しています。

以下は、xとyの役割を逆にして、同じデータの局所的に重み付けされた平滑です。 これを前のプロットと比較してください。全体的な適合度がどれほど急で、細部もどのように異なるかに注目してください。

ロウネス2

2つのデータベースが同じ情報を提供していることを確認したり、相対的なバイアスや相対的な精度を評価したりするには、さまざまな手法が必要です。技術の選択は、データの統計的性質と検証の目的に依存します。例として、化学測定のデータベースは通常、キャリブレーション手法を使用して比較されます

モランの私を解釈する

「Moran's I for GWR model」の意味を理解するのは困難です。Moran's I統計は、GWR計算の残差に対して計算された可能性があると思います。(残差は、実際の値と近似値の差です。) モランのIは、空間相関のグローバルな尺度です。小さい場合、y値とGWRのx値からの適合との間の変動には、空間相関がほとんどないか、まったくないことが示唆されます。GWRがデータに「調整」されると(これは実際に任意の点の「隣接」を構成するものを決定することを伴います)、GWRは(暗黙的に)xとyの間の空間相関を活用するため、残差の低い空間相関が予想されますそのアルゴリズムの値。


GWRでは、変数を逆にすると異なる結果が得られると言いましたが、より高い残差平方を与える結果は、2つの間に強い関係があることを意味するのではありませんか?
Sam007

サム、それ自体の低い残余の正方形は、より強い関係を示すものではありません。特に、xとyの役割を逆にすると、残差平方を比較することすらできなくなります。これらはしばしば異なる単位になります。(たとえば、一方は正方形の温度で、もう一方は正方形の降雨量かもしれません。どちらが低いかはどのようにわかりますか?)たとえ無意味であっても、より多くのパラメーターをモデルに含めることで、常に残余正方形を減らすことができます:この方向に行き過ぎていることを「オーバーフィット」と呼びます。ある意味では、空間範囲が短いGWRは過剰適合の一種です。
whuber

2
あなたはR二乗を考えているかもしれません、サム:それは比率です。(「残差の二乗」は、正確に言うと、残差の二乗の和であると理解しました。ほとんどの統計ソフトウェアは、この統計をR二乗値とともに報告します。)しかし、異なるモデルを比較することは依然として危険であり、通常は間違っていますxでのyとyでのx)をR 2乗で表したもの:stats.stackexchange.com/questions/13314を参照してください。GWRは探索的であるためパターンを見つけて関係を仮説化するのには適していますが、(とにかく実践されているように)主張を実証するには不適切です。
whuber

1
すごいすべての統計でした。実際、私が難しいと感じる理由は、統計のバックグラウンドが非常に低いため、モデルの結果にのみ依存しているので、正確に何を意味するのか理解していません。R2のほとんどのものは私の頭上にありました。私を始めて統計の基礎を築くための良い初心者向けの本をいくつか提案していただけますか?
Sam007


3

モデルの比較にRsquaredを使用しないでください。対数尤度またはAIC値を使用します。

GWRの残差がランダムである場合、または特定のモデルを持っている可能性があるよりも、ランダムに見える(統計的には示されていない)と思われます。少なくとも、相関する残差がないことを示唆しており、省略された変数がないことを示唆する必要があります。

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.