多くの人が、歪んだデータを機械学習アプリケーション用の通常の分散データに変換したいのはなぜですか?


8

画像および表形式のデータの場合、多くの人が、前処理中に歪んだデータを正規分布データに変換します。

機械学習における正規分布とはどういう意味ですか?それは機械学習アルゴリズムの本質的な仮定ですか?

画像データでさえ、画像のピクセル全体を正規分布または均一分布に従うように変換する分位変換を見てきました。

私は1つの理由を考えることができます:外れ値の影響を回避するため。しかし、これらの変換はデータの元の分布を歪めます。

なぜ正規分布が機械学習にとって非常に重要で、多くの前処理にこのステップが含まれているのですか?


2
そうではありません。これは、モデルが通常のデータでより良いパフォーマンスをするという誤った考えから来ていますが、これは単に正しくありません(実際に正規性を必要とするモデルを除く)。均一なデータは、特にNNの場合、その動作方法のために役立つことがあります。[0,1]
user2974951

4
この迷信は、「そうでない限り、ノーマリティはどのモデルでも必須ではない」と要約できます。初心者は、それが真実であるケースがほとんどなくても、正規性が常に要件であると誤って信じることがよくあります。
Sycoraxは、モニカを復活させる

4
他にも、しばしばより重要な仮定があります。しかし、それらの他の仮定は理解するのがより困難です。
kjetil b halvorsen

ニューラルネットワークの場合、正規分布データがパフォーマンスの向上に役立つことがありますが、他のモデルではデータに依存する場合がありますか?そしてそれをチェックするために、私は手で試すか、アルゴリズムの背後にある数学を探さなければならないかもしれませんか?
林彥良

回答:


11

@ user2974951がコメントで述べているように、正規分布の方が何とか優れているのは迷信かもしれません。おそらく彼らは、通常のデータは多くの付加的なエラーの結果であるため、データを強制的に通常にすると、結果の数値を付加的なエラーがあるものとして扱うことができるという誤った考えを持っているかもしれません。または、彼らが学んだ最初の統計手法はOLS回帰であり、Normalについての何かは仮定でした...

通常、正常性は必須ではありません。しかし、それが役立つかどうかは、モデルがデータをどのように処理するかによって異なります。

たとえば、財務データは対数正規であることがよくあります。つまり、乗法的(パーセント)エラーがあります。変分オートエンコーダは、ボトルネックで正規分布を使用して、滑らかさと単純さを強制します。シグモイド関数は、通常のデータで最も自然に機能します。混合モデルは通常、法線の混合を使用します。(それが正常であると想定できる場合は、2つのパラメーターで完全に定義する必要があります。これらのパラメーターの意味はかなり直感的です。)

また、モデリングに単峰性の対称分布が必要な場合もあり、法線はそれです。(そして、「通常」への変換は、厳密に通常ではなく、より対称的であることが多いです。)

正規性は、いくつかの計算を簡略化し、データを生成するプロセスの概念と一致する場合があります。ほとんどのデータは中間にあり、関心の対象となる比較的低い値または高い値が比較的まれです。

でも私の印象は、カーゴカルトだと思います


4

上記の答えはそれを本当に釘付けにします。「正規性」を求めるのと、すべての機能を同様の範囲にスケーリングするのを考えたい(分布が異なっていても)という考えを分ける価値があることを付け加えておきます。これらの変換にはどちらも長所と短所があり、最適化ステップでの数値の癖を回避したり、これらのアルゴリズムでの体系的なバイアスを回避したりするために必要な場合があります。

また、どのような「機械学習」を参照しているか(SVM、ツリーベースモデル、ニューラルネットなど)にも依存します。これらはすべて動作が異なり、数値の問題が異なる可能性があるためです。上記のように、特定の状況には利点がありますが、歪んだデータを正規化するとパフォーマンスが向上するという考えは、完全な戦略ではありません。一般に、「前処理」または「データ操作/変換」のステップを正当化することは、より堅牢な代替手段になる傾向があります。

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.