独立成分分析を実行するための適切な前処理手順は何ですか?


17

後で独立成分分析(ICA)を実行するために、波形を前処理するための適切な手順は何ですか?私はその方法を理解していますが、それについてのさらなる説明は害はありませんが、私はその理由にもっと興味があります。


前処理が必要な理由がわかりません。特別な理由はありますか?
フォノン

@Phonon ICAを実行する前にデータをスフィアした調査員に遭遇しました。標準的な方法があるのだろうかと思いました。
jonsca

とても興味深い。建設的な答えが見たいです。
フォノン

1
EEG信号のスペクトル分析の場合、人々は白色化してスペクトルの形状の支配的な影響を減らします。これについては、補足資料で少なくとも少し説明してい ます。これが特にICA以前の一般的なトリックであるかどうかは不明です。アプリケーションはEEG / MEG / LFP信号ですか?私の考えが正しければ、ICAを行う人がこれを完全な答えに具体化できるかもしれません。興味深い質問-私はそれを読み上げます。1/f
ImAlsoGreg

1
@Gigiliそれも質問の一部です。通常の手順とみなされるものはどれですか?
jonsca

回答:


15

独立成分分析(ICA)は、統計的に独立した、そして最も重要な非ガウス成分の線形混合物をその成分に分離するために使用されます。ノイズフリーICAの標準モデルは

x=As

ここで、は観測またはデータベクトル、はソース信号/元のコンポーネント(非ガウス)、は構成信号の線形混合を定義する変換ベクトルです。通常、およびは不明です。xsAAs

前処理

ICAには、2つの主要な前処理戦略、つまりセンタリングとホワイトニング/スフェリングがあります。前処理の主な理由は次のとおりです。

  • アルゴリズムの簡素化
  • 問題の次元の削減
  • 推定されるパラメータの数の削減。
  • 平均と共分散では簡単に説明できないデータセットの特徴を強調する。

G. LiおよびJ. Zhangの紹介から、「球状化とその特性」、The Indian Journal of Statistics、Vol。60、シリーズA、パートI、pp。119-133、1998:

外れ値、クラスター、またはその他の種類のグループ、および曲線や平坦でない表面近くの濃度は、おそらくデータ分析者にとって重要な重要な特徴です。一般に、それらはサンプル平均と共分散行列の単なる知識からは得られません。これらの状況では、平均行列と共分散行列に含まれる情報を分離し、よく理解されている性質以外のデータセットの側面を調べるように強制することが望ましいです。センタリングとスフェリングは、平均共分散情報を排除し、線形相関や楕円形を超えた構造を強調するのに役立つシンプルで直感的なアプローチであるため、データセットの表示や分析を検討する前に実行されることがよくあります

1.センタリング:

センタリングは非常に単純な操作であり、単に平均を減算することを指します。実際には、サンプル平均を使用して、新しいベクトル。ここで、はデータ。幾何学的に、平均値を引くことは、座標の中心を原点に変換することと同等です。平均は、結果の最後に常に再追加できます(これは、行列の乗算が分散的であるため可能です)。E{x}xc=xx¯x¯

2.ホワイトニング:

ホワイトニングは、データを恒等共分散行列、つまり持つように変換する変換です。通常、サンプル共分散行列を使用して作業します。E{xcxcT}=I

Σ^=C.xcxcT

ここで、は適切な正規化係数(次元に応じて)の単なるレイジープレースホルダーです。新しい白色化されたベクトルは次のように作成されますCx

xw=Σ^1/2xc

共分散を持ちます。幾何学的に、ホワイトニングはスケーリング変換です。以下はMathematicaの小さな例です:I

s = RandomReal[{-1, 1}, {2000, 2}];
A = {{2, 3}, {4, 2}};
x = s.A;
whiteningMatrix = Inverse@CholeskyDecomposition[Transpose@x.x/Length@x];
y = x.whiteningMatrix;
FullGraphics@GraphicsRow[
  ListPlot[#, AspectRatio -> 1, Frame -> True] & /@ {s, x, y}]

ここに画像の説明を入力してください

最初のプロットは、2つの均一に分布したランダムベクトルのジョイント密度、またはコンポーネントです。2番目は、変換ベクトルによる乗算の効果を示しています。正方形は歪んで菱形になります。ホワイトニングマトリックスを乗算することにより、結合密度は元からわずかに回転した正方形に戻ります。sA

ホワイトニング変換のため、解決される新しいシステム、つまりでは、は直交行列です。これは簡単に表示できます:xw=AwswAw

E{xwxwT}=E{Awsw(Awsw)T}=AwE{swswT}AwT=AwAwT=I

の統計的独立性のため、最後のステップが続きます。直交性条件は、推定する必要があるパラメーターが約半分しかないことを意味します。(注:この場合と私の例ではこれは当てはまりますが、は最初は正方形である必要はありません)。siA

変換後、ゼロに近い固有値がある場合、これらは単なるノイズであり、「過学習」による推定のみを妨げるため、これらは安全に破棄できます。

3.その他の前処理

特定のアプリケーションには、回答ではカバーできない他の前処理ステップが含まれる場合があります。たとえば、時系列のログを使用する記事と、時系列をフィルタリングする他の記事を見てきました。特定のアプリケーション/条件に適している場合もありますが、結果はすべてのフィールドに引き継がれるわけではありません。

コンポーネントの多くがGaussianである場合 ICAを使用することは可能だと思いますが、現時点ではこの参照を見つけることができません。


なぜ「球状化」と呼ばれるのですか?

これはおそらくよく知られていますが、面白い事実として、球面化は、白色化による次元の超楕円体から次元の球体へのガウス成分の場合の共分散行列の構造の変化から生じます。ここでの例では、(上記と同じコードを使用しますが、置き換えだと)nn{-1,1}NormalDistribution[]

ここに画像の説明を入力してください

1つ目は2つの非相関ガウス分布の結合密度、2つ目は変換中、3つ目はホワイトニング後です。実際には、手順2と3のみが表示されます。


2
うわー、それをすべて取り入れるのに少し時間がかかりますが、感謝は控えめです!
jonsca

申し訳ありませんが、私はすでにそれを受け入れたと思いました。
-jonsca
弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.