経度/緯度機能を扱う方法[終了]


18

25個の機能を持つ架空のデータセットに取り組んでいます。特徴の2つは場所の緯度と経度であり、その他はさまざまな範囲のpH値、標高、windSpeedなどです。他の機能で正規化を実行できますが、緯度/経度機能にどのようにアプローチしますか?

編集:これは、農業の収量を​​予測する問題です。緯度/経度は非常に重要だと思います。ロケーションは予測に不可欠であるため、ジレンマになります。


これらの機能を正規化できるとは思わない理由を明確にできますか?おそらく他の機能と同じ数値なので、平均/標準偏差をとることができますか?場所間の距離を自然に測定することに懸念はありますか?ある場合、データは小さな領域(同様の値を持つ)をカバーしていますか?
ニールスレーター

@NeilSlaterこれらの機能を正規化することは、直感的には意味がありません。正規化しても情報は失われませんか?アメリカの郡をカバーするデータセットがあります。
AllThingsScience

どんな情報が失われると思いますか?おそらく実際に失われることはありませんが、懸念事項を質問で説明すると、誰かが答えることができます。もうわからないので、関係なく正規化するだけです-完全にグローバルな値といくつかの問題(ポイント間の距離が重要な場合)のために、long / latから3Dデカルト座標フィーチャを作成できます。
ニールスレーター

ここであなたの質問は何ですか?データから何を見つけようとしていますか?相関?クラスタリング?分類?予測?補間?モデルにとって場所はどのように重要ですか?
Spacedman

@Spacedman編集をご覧ください。
AllThingsScience

回答:


24

緯度経度座標には、3次元空間を表す2つの特徴であるという問題があります。これは、長い座標が周りを回ることを意味します。つまり、2つの最も極端な値は実際には非常に近くにあります。私はこの問題に何度か対処しましたが、この場合に行うことは、それらをx、y、z座標にマップすることです。これは、これらの3次元の近接点も実際には近接していることを意味します。ユースケースによっては、高さの変化を無視して、完全な球体にマッピングできます。これらの機能は適切に標準化できます。

明確にするために(コメントから要約):

x = cos(lat) * cos(lon)
y = cos(lat) * sin(lon), 
z = sin(lat) 

1
それはとても興味深いです。ありがとうございました!これらが変換のための式であるかどうか確認できますか?x = R * cos(lat)* cos(lon)、y = R * cos(lat)* sin(lon)、z = R * sin(lat)
AllThingsScience

現時点ではコードにアクセスできませんが、正しく見えます。とにかく標準化するので、Rは必要ありません;)
Jan van der Vegt

パーフェクト!ありがとうございました。
AllThingsScience
弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.