ホワイトニングは常に良いですか?


27

機械学習アルゴリズムの一般的な前処理手順は、データのホワイトニングです。

データを無相関化し、モデル化をより簡単にするため、ホワイトニングを行うことは常に良いようです。

ホワイトニングが推奨されない場合

注:私はデータの非相関性に言及しています。


1
ホワイトニングの参考にできますか?
アティラオズグル

2
このスレッドはスタブだと思います。本当に拡張する必要があります。--現在受け入れられている回答には、情報がほとんどありません。--私はそれを受け入れず、ここで賞金を開きます。
レオレオポルドヘルツ

「常に」そこにいることによって、あなたの質問も偏っています。もちろん、美白は常に良いとは限りません。また、ホワイトニングのタイプを定義します。ここではあまり建設的な答えにならないと思います。--使用するデータのタイプを定義します。--より良い質問は、この素晴らしいデータでこのホワイトニングの適用をどのように改善できますか?。--@AtillaOzgur 1つのソースen.wikipedia.org/wiki/Whitening_transformation。ホワイトニングの基本的な変換が考慮されている場合。
レオレオポルドヘルツ

回答:


13

事前白色化は、特徴の正規化の一般化であり、変換された入力共分散行列に対して入力を変換することにより、入力を独立させます。なぜこれが悪いのかわかりません。

ただし、クイックサーチでは、「気象レーダーのパフォーマンスを向上させるデータホワイトニングの実現可能性」pdf)が明らかになりました。

特に、指数ACF(モナコフの結果と一致)の場合はホワイトニングがうまく機能しましたが、ガウス分布の場合はあまり良くありませんでした。数値実験の後、ガウスの場合、ガウス共分散行列の条件数(最大固有値と最小固有値の比)が非常に大きいという意味で、数値的に条件が悪いことがわかりました。

私はこれについてコメントするのに十分な教育を受けていません。たぶんあなたの質問への答えは、ホワイトニングは常に良いが、特定の落とし穴があるということです(例えば、ランダムデータでは、ガウス自己相関関数を介して行われるとうまく機能しません)。


2
私が理解しているように、共分散行列が十分に推定されていればうまく機能します。誰かがこれについてコメントできますか?ありがとう。
ラン

3
上記の引用は、推定が不十分な共分散行列を参照していません(ただし、これも問題になります)。完全に指定された共分散行列の場合、必要な因数分解(および関連するデータ変換)を正確に実行することは依然として困難であると言われています。これは数値の悪条件によるもので、有限精度の丸め誤差が計算を汚染することを意味します。
GeoMatt22 16

2
これは不十分な答えです。それはほとんど関係ない資料をコピーしました。--この答えは本当に拡張されるべきです。スタブです。
レオレオポルトヘルツ준영

20

まず、相関除去とホワイトニングは別々の手順であると思います。

Σ=XX

ΣΦ=ΦΛ

Λ

ΦXΦ

対角化された共分散を次のように書くこともできます。

(1)ΦΣΦ=Λ

xi

(2)xi=Φxi

Λ

Λ1/2ΛΛ1/2=I

(1)

Λ1/2ΦΣΦΛ1/2=I

xixi

(3)xi=Λ1/2xi=Λ1/2Φxi

xixiE(xixi)=I

Σ

そして最後に、人々が注意すべき一般的な「落とし穴」があります。トレーニングデータのスケーリング係数を計算し、次に式(2)および(3)を使用して同じスケーリング係数をテストデータに適用することに注意する必要があります。そうしないと、オーバーフィットのリスクがあります(トレーニングプロセスのテストセットからの情報)。

ソース:http : //courses.media.mit.edu/2010fall/mas622j/whiten.pdf


2
説明をありがとう、あなたは正しい。私は相関解除について言及していました。ところで:最後に、ホワイトニングはトレーニングデータに対してのみ実行されると書いています。私の知る限り、トレーニングデータからマトリックスを計算しますが、トレーニングデータとテストデータの両方で実行します。
ラン

@Ranはい、それは私が意味したことです...私は答えを更新します
-tdc

回答のセクションも提供できると便利です。イントロ、要約、数学の事柄があります。--あなたはあなたの答えに十分に深く入っていないと思います。--あなたの答えはほとんど些細な命題を扱っていますが、このトピックでは十分に深くは行きません。講義ノートの基本的なコピーペーストされた資料だけがありますが、トピックに関する独自の作業はほとんどありません。
レオレオポルドヘルツ

簡単に言えば、pcaを実行して相関のない特徴を取得し、新しい特徴をforeachし、分散で除算して白色化された特徴を取得します。
アボカド

1

http://cs231n.github.io/neural-networks-2/から

この変換の弱点の1つは、すべての次元(ほとんどがノイズである小さな分散の無関係な次元を含む)を入力で同じサイズに引き伸ばすため、データのノイズを大幅に誇張できることです。これは、実際には、より強力な平滑化によって軽減できます...

残念ながら、私はこれについてさらにコメントするのに十分な教育を受けていません。


どの形態のノイズが誇張されているかを述べてください。あなたの参照は厳密です。これは、トピックに関する基本的なコンピューターサイエンス、つまり古代のニューラルネットワークアプローチによるホワイトノイズです。-- 誇張した作品も定義する必要があります。
レオレオポルドヘルツ

これは、すべての機能が同じ分散を持つためのスケーリングに関連しているように思えますよね?そのため、トレーニングセットの分散がノイズであるフィーチャが存在する場合、このフィーチャの全体的な分散は別のフィーチャよりもはるかに小さいと予想される場合があります。この変換により、「ノイズ」機能と他の機能の両方の分散が同じになり、「ノイズの増幅」と見なすことができます。
-ijoseph
弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.