GPS座標(緯度と経度)を線形モデルのフィーチャとして使用できますか?


10

多くの機能の中で、GPS座標(緯度と経度)を含むデータセットがあります。これらのデータセットを使用して、次のような問題を調査したいと思います。(2)特定のポイントの犯罪の量を推定する。

線形回帰モデルを使用したいのですが。ただし、これらのGPS座標を線形モデルで直接使用できますか?

緯度と経度には、人の年齢などの序数プロパティはありません。たとえば、2つのポイント(40.805996、-96.681473)と(41.226682、-95.986587)には意味のある順序がないようです。それらは空間の単なるポイントです。それらを明確な米国の郵便番号に置き換えてから、ワンホットエンコーディングを行うことを考えていましたが、その結果、多くの変数が発生します。


1
それらを直接使用する必要がありますか?S. OpenshawによるAZPアルゴリズムなどのゾーニングツールについて聞いたことがありますか。エリアが比較的一貫している場合は、マップ内のリージョンを手動で区切ってリージョン/ゾーンを分離することもできます。
Mephy、2017年

@Mephy:つまり、lat / longをゾーンに変換するということですか?しかし、郵便番号の場合と同じように、私は数百または数千のカテゴリーゾーンを持っています。それらすべてをワンホットエンコードする必要があります。
stackoverflowuser2010 2017年

もちろん、ゾーンのカット方法によって異なります。「赤道の南/赤道の北」を選択すると、2つだけになります。多くのゾーニングアルゴリズムには、ゾーンの数や最小ゾーンサイズなどの数量を定義するためのハイパーパラメータがあります。
Mephy

同じ問題があります。人々の立場を予測したいのですが。トレーニングデータのすべてのジオロケーション機能をジオハッシュしました。その後、LabelDecoderを使用して、カテゴリロケーション機能を変換します。最後に、結果はひどいです。空間予測を処理するための良いアイデアはありますか?
berisfu 2018年

回答:


5

誰かが「どのくらい東か北か」を予測することを考えているのでない限り、真の線形関係はありそうもないので、それらを直接使用することはできません。コメントで述べたように、ゾーンに変換する必要があります。本当にシンプルにしたい場合は、潜在的なクラスターの数が少ないkNNクラスタリングアルゴリズムを使用し、各インスタンスにクラスターIDを使用して新しい機能を割り当て、それをワンホットエンコードします。

マップ全体の値を予測するために人々が座標を補間する方法について読むこともできます。最初の例は温度ステーションの場合ですが、犯罪の「ホットゾーン」であると想像することもできます。

ドキュメント


2

心の欲望は何でもできますが、モデルが温度または時間差を予測しない限り、座標のみに依存する他のターゲット変数を思い付くことはできません。

おそらくやりたいことは、外部データソースを使用し、モデルの実行に役立つ国/郵便番号/気候/その他の地理的特徴でデータを充実させることです。


0

GPS座標は、ジオハッシュに直接変換できます。Geohashは、桁数に基づいて地球をさまざまなサイズの「バケット」に分割します(短いGeohashコードは大きな領域を作成し、小さな領域には長いコードを作成します)。

geohashは、モデルの機能として使用できる単一の数値です。

Geohashは全世界にのみ適用され、郵便番号は適用されません。


ジオハッシャーの出力は文字列であり、単一の数値ではありませんよね?そして、geohashが文字列の場合、ワンホットエンコードする必要があります。これにより、ワンホットエンコードされた郵便番号の場合と同様に、多くの変数が生成されます。
stackoverflowuser2010

geohashは、base 32でエンコードされた単一の数値です。1ホットエンコードする理由はありません。精度のレベルを選択し、関連する桁数を使用します。
ブライアンスピアリング2017年

私はジオハッシュの文字列表現を見ただけです。ただし、geohashがlong intとして表されたとしても、線形モデルで使用するためにそれらの間に線形関係はありますか?それがまさに私の最初の質問のポイントです。
stackoverflowuser2010 2017年

geohashesの関係は少し複雑です- en.wikipedia.org/wiki/Geohash#Design
ブライアンSpiering

1
線形およびワンホットエンコーディング以外にも、機能エンジニアリングには多くの方法があります。たとえば、カーネルトリックやHelmert変換。
ブライアンスピアリング
弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.