歪んだデータを正規分布に変換する理由


15

Kaggle(住宅価格に関するヒューマンアナログのカーネル:Advance Regression Techniques)での住宅価格競争の解決策を経験していて、この部分に出会いました:

# Transform the skewed numeric features by taking log(feature + 1).
# This will make the features more normal.
from scipy.stats import skew

skewed = train_df_munged[numeric_features].apply(lambda x: skew(x.dropna().astype(float)))
skewed = skewed[skewed > 0.75]
skewed = skewed.index

train_df_munged[skewed] = np.log1p(train_df_munged[skewed])
test_df_munged[skewed] = np.log1p(test_df_munged[skewed])

歪んだ分布を正規分布に変換する必要があるかどうかはわかりません。誰かが詳細に説明できますか:

  1. なぜこれがここで行われているのですか?またはこれはどのように役立ちますか?
  2. これは機能のスケーリングとどう違うのですか?
  3. これは機能エンジニアリングに必要なステップですか?この手順をスキップするとどうなりますか?

2
そのため、残差はガウス分布であり(平均化によってキャンセルできます)、分散は安定しており、最適化を事前調整して収束を促進します。en.wikipedia.org/wiki/Power_transform
Emre

回答:


12

係数を解釈したい場合があります。それは、「私は私の変数増やす場合のようなものと言うことができるように、ある 1で、その後、平均値と等しい他のすべての上に、Yが増加すべきβ 1を」。バツ1Yβ1

係数を解釈可能にするために、線形回帰は多くのことを想定しています。

バツ

バツバツY^YY

データによっては、ガウスにできる場合があります。典型的な変換は、逆数、対数、または平方根を取ります。もちろん他にも多くのデータが存在しますが、すべてデータに依存しています。データを確認してから、ヒストグラムを実行するか、Shapiro-Wilkテストなどの正規性テストを実行する必要があります。

これらはすべて、不偏推定量を構築するための手法です。他の人が言ったように、収束とは関係ないと思います(データを正規化することもできますが、それは別のトピックです)。

係数を解釈する場合、またはモデルで統計的検定を使用する場合は、線形回帰の仮定に従うことが重要です。それ以外の場合は、忘れてください。

Yy^y2ynormalize


3

ここで歪んだデータは、1を追加することで正規化され(0のログが定義されていないためゼロが1に変換されるように追加されます)、自然対数を取ります。データは、平方根、逆数、または対数を取るなどの変換手法を使用して、ほぼ正規化できます。さて、なぜそれが必要なのか。実際、データのアルゴリズムの多くは、データサイエンスが正常であると想定し、これを想定してさまざまな統計を計算します。そのため、データが正常に近いほど、仮定に適合します。


3
ここでのアルゴリズムは、勾配ブースティングと投げ縄回帰です。この答えは、これら2つのアルゴリズムに特に関連する(または関連しない)ことを示すことができれば、より役立つと思います。
oW_

私の観点から、モデルが線形回帰であろうとディシジョンツリー(外れ値に対してロバスト)であろうと、モデルがトレーニングされると、スキューデータがモデルをデータの適切なパターンを見つけるのを難しくします。通常またはガウスになります。
ゴールディラナ

1

データサイエンスは1日の終わりの単なる統計であり、統計の重要な仮定の1つは中央極限定理です。そのため、後続のステップでは、それに依存する統計手法を使用するため、このステップが実行されています。


1
定理は仮定ではありません。実際、中央極限定理は、個々のランダム変数が正規分布していなくても、独立したランダム変数の平均がほぼ正規分布することを保証します。
エリアスストレレ

1
これは非常に欠陥のある推論の連鎖です。「-食べる前にリンゴをむくのを見たことがあります。なぜですか?-りんごは果物であり、重要な果物の1つはオレンジで、いつもオレンジをむいているからです!」
アヨルゴ
弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.