機械学習でパワー変換またはログ変換があまり教えられないのはなぜですか?


24

機械学習(ML)は、線形およびロジスティック回帰手法を多用しています。また、機能の工学的手法(に依存しているfeature transformkernelなど)。

なぜ何も程度variable transformation(例えばpower transformation)MLに言及していませんか?(たとえば、ルートの取得やフィーチャへのログについて聞いたことはありません。通常は単に多項式またはRBFを使用します。)同様に、MLの専門家が従属変数のフィーチャ変換を気にしないのはなぜですか?(たとえば、yの対数変換を行うことについて聞いたことはありません。yを変換しません。)

編集:たぶん質問は間違いではないかもしれませんが、私の本当の質問は「MLへの変数への累乗変換は重要ではないのですか?」


4
これがなぜ投票されたのか知りたい。それは実際に興味深い質問です。
シャドウトーカー

1
ほとんどの人は最初のMLコースの前に線形回帰コースを受講したと思います。確かに、ストックLRコースには、これらのことに関する章(変換)が含まれます。ところで、私は質問に反対票を投じなかった。
user603

回答:


12

Kuhn and JohnsonによるApplied Predictive Modelingの本は、Box-Coxを含む変数変換に関する大きなセクションを含む、高く評価されている実用的な機械学習の本です。著者は、特徴に対称分布と単峰分布がある場合、多くの機械学習アルゴリズムがよりよく機能すると主張しています。このような機能の変換は、「機能エンジニアリング」の重要な部分です。


8

私自身の観点からは、条件付き平均よりも応答変数の予測分布に興味があることがよくあります。その場合は、ターゲット分布をより正確に表す可能性を使用する方が良いでしょう。たとえば、必要に応じてポアソン尤度を使用できるため、サポートベクトル回帰ではなくカーネル化線形モデルを使用するのが好きです。多くの機械学習者はベイジアンなので、異なる尤度を使用することは変換よりもエレガントに見えると思われます(適切な尤度を選択することが最初のステップです)。


0

これが私のその後の考えです。

MLは主に分類に対応しており、分類ではyを変換する必要がないためだと思います(yはカテゴリカルです)。MLは通常、大きな独立変数(たとえばNLPの数千)を処理し、ロジスティック回帰は正規性を必要としません。だからこそ、彼らは速度を考慮してBox-Coxの電力変換を使用しないのだと思います。(注:私は、電力変換に精通していません。)

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.