25個の機能を持つ架空のデータセットに取り組んでいます。特徴の2つは場所の緯度と経度であり、その他はさまざまな範囲のpH値、標高、windSpeedなどです。他の機能で正規化を実行できますが、緯度/経度機能にどのようにアプローチしますか?
編集:これは、農業の収量を予測する問題です。緯度/経度は非常に重要だと思います。ロケーションは予測に不可欠であるため、ジレンマになります。
これらの機能を正規化できるとは思わない理由を明確にできますか?おそらく他の機能と同じ数値なので、平均/標準偏差をとることができますか?場所間の距離を自然に測定することに懸念はありますか?ある場合、データは小さな領域(同様の値を持つ)をカバーしていますか?
—
ニールスレーター
@NeilSlaterこれらの機能を正規化することは、直感的には意味がありません。正規化しても情報は失われませんか?アメリカの郡をカバーするデータセットがあります。
—
AllThingsScience
どんな情報が失われると思いますか?おそらく実際に失われることはありませんが、懸念事項を質問で説明すると、誰かが答えることができます。もうわからないので、関係なく正規化するだけです-完全にグローバルな値といくつかの問題(ポイント間の距離が重要な場合)のために、long / latから3Dデカルト座標フィーチャを作成できます。
—
ニールスレーター
ここであなたの質問は何ですか?データから何を見つけようとしていますか?相関?クラスタリング?分類?予測?補間?モデルにとって場所はどのように重要ですか?
—
Spacedman
@Spacedman編集をご覧ください。
—
AllThingsScience