機能主成分分析(FPCA):それは何ですか?


21

機能的主成分分析(FPCA)は、私が偶然見つけたものであり、理解できなかったものです。それは何ですか?

Shang、2011よる「機能的主成分分析の調査」を参照してください。

PCAは、「次元の呪い」(Bellman 1961)のために、機能データの分析において深刻な困難に直面します。「次元の呪い」は、高次元空間におけるデータの希薄性に由来します。PCAの幾何学的特性が有効なままであっても、数値的手法が安定した結果を提供する場合でも、サンプル共分散行列は母集団共分散行列の不十分な推定値である場合があります。この困難を克服するために、FPCAはPCAよりもサンプルの共分散構造を調べるより有益な方法を提供します[...]

わかりません。この論文が説明している欠点は何ですか?PCAは、「次元の呪い」のような状況を処理する究極の方法であると想定されていませんか?

回答:


7

まさにあなたが質問の中で述べ、@ tdcが彼の答えを述べているように、PCAの幾何学的特性が有効である場合でも非常に高い次元の場合、共分散行列は実際の母集団共分散の良い推定ではなくなります。


あります、非常に興味深い論文「fMRIデータの機能主成分分析」PDF、彼らは分散を視覚化する機能PCAを使用します):

...他の探索的手法と同様に、目的は、適切なモデルが選択される前にデータに「自分で話す」機会を与える初期評価を提供することです。[...]

論文では、彼らがそれをどのように正確に行ったかを説明し、理論的推論も提供します。

このアプローチの決定的な利点は、基底関数セットの選択と、近似によって最小化された誤差汎関数の仮定セットを指定できることです。これらの仮定は、Fマスキングのように事前定義された血行動態機能と一連のイベントまたは条件の指定よりも弱く、したがって手順の探索的特性を保持します。ただし、この仮定は、通常のPCAの困難を克服するのに十分に厳しいままである可​​能性があります。


FPCAの背後にあるロジックを理解するのに苦労しています。私はあなたが引用した論文を見ましたが、それでも混乱したままです。設定は、データ行列はであることである有するサイズNの長さの観測時系列T » N。PCA では、共分散行列の最初のt長の固有ベクトルを見つけることができます。主張は、非常にうるさいということです。FPCA溶液を用いて、各時系列を近似することであるk個の基底関数(K « T)、次いで基底関数の空間にPCAを実行します。正しい?その場合、各時系列を平滑化してから標準PCAを実行することとどのように違いますか?なぜ特別な名前ですか?n×tntntkkt
アメーバは、モニカを復活させる

それについてもう少し読んだ後、私は自分の答えを投稿することにしました。おそらくあなたは興味があるでしょう。私は確かに追加の洞察に感謝します。
アメーバは、モニカを復活させる

24

「機能的PCA」は不必要に混乱させる概念です。それはまったく別のものではなく、時系列に適用される標準のPCAです。

ntn×ttn201000t

ここでは間違いなく標準PCAを適用できます。どうやら、あなたの引用の中で著者は、結果の固有時系列がうるさすぎることを懸念しています。これは実際に発生する可能性があります!これに対処する2つの明白な方法は、(a)PCA後の結果の固有時系列を平滑化するか、(b)PCAを行う前に元の時系列を平滑化することです。

ktk

FPCAのチュートリアルでは通常、PCAを無限次元の機能空間に一般化する方法について長い議論が行われますが、実際には機能データは常に最初から離散化されているため、実際の関連性は完全に私を超えています。

ここにあるように思わラムゼイとシルバー「機能データ分析」教科書から取ら図であるFPCAを含む「機能的データ解析」の決定的なモノグラフは:

ラムゼイとシルバーマン、FPCA

「離散化されたデータ」(ポイント)でPCAを実行すると、対応する関数でフーリエベース(線)でFPCAを実行するのと実質的に同じことがわかります。もちろん、最初に離散PC​​Aを実行してから、同じフーリエ基底で関数を適合させることができます。ほぼ同じ結果が得られます。

t=12n>t


2
まばらに不規則にサンプリングされた軌道(例:縦方向のデータ)の場合、FPCAは「結果の固有時系列の補間と平滑化」よりもはるかに複雑です。たとえば、何らかの方法で何らかのスパースデータの投影スコアを計算する固有成分を取得したとしても、明確に定義されていません。例:ヤオ他 JASA2005。高密度に定期的にサンプリングされたプロセスに付与されます
usεr11852は回復モニック言う

ありがとう、@usεr11852(+1)。もう一度調べる時間を見つける必要があります。あなたが参照した論文を調べて、この答えに戻ります。
アメーバは、モニカーを復活させる

@amoeba、これはすべて、複雑な波/時系列の成分波を復元する離散フーリエ変換にほとんど関連しているように聞こえますか?
ラッセルリッチー

9

私はFDAでジムラムゼイと数年間働いていたので、@ amoebaの答えにいくつかの説明を加えることができます。実用レベルでは、@ amoebaは基本的に正しいと思います。少なくとも、FDAを研究した後、私がついに達成した結論です。ただし、FDAフレームワークは、固有ベクトルの平滑化が単なる手がかり以上のものである理由について興味深い理論的洞察を提供します。滑らかさのペナルティを含む内積の影響を受ける関数空間での最適化により、基底スプラインの有限次元解が得られることがわかりました。FDAは無限次元の関数空間を使用しますが、分析には無限の次元数は必要ありません。これは、GaussianプロセスまたはSVMのカーネルトリックのようなものです。実際には、カーネルのトリックによく似ています。

ラムゼイのオリジナルの作品は、データの主なストーリーが明らかな状況を扱っていました。関数は多かれ少なかれ線形であるか、多かれ少なかれ周期的です。標準PCAの主要な固有ベクトルは、関数の全体的なレベルと線形トレンド(または正弦関数)を反映するだけで、基本的には既にわかっていることを教えてくれます。興味深い特徴は残差にあります。残差はリストの最上部からのいくつかの固有ベクトルです。また、後続の各固有ベクトルは前の固有ベクトルと直交する必要があるため、これらの構成要素は分析のアーティファクトにますます依存し、データの関連する特徴に依存しなくなります。因子分析では、斜め因子回転はこの問題を解決することを目的としています。ラムゼイのアイデアは、コンポーネントを回転させることではなく、むしろ、分析のニーズをより適切に反映する方法で直交性の定義を変更します。これは、定期的なコンポーネントに関心がある場合は、D3D、サインとコンサインを排除します。線形トレンドを削除したい場合は、に基づいて滑らかになりますD2 標準の3次スプラインが得られます。

OLSを使用して傾向を取り除き、その操作の残差を調べる方が簡単であることに反対する人もいるかもしれません。FDAの付加価値がこの方法の非常に複雑な価値があると確信したことはありませんでした。しかし、理論的な観点からは、関係する問題を検討する価値があります。データに対して行うすべてのことは、物事を台無しにします。元のデータが独立していても、OLSの残差は相関しています。時系列を平滑化すると、生の系列にはなかった自己相関が導入されます。FDAの考え方は、最初のトレンド除去から得た残差が関心のある分析に適していることを保証することでした。

FDAは、スプライン関数が活発に研究されていた80年代初期に生まれたことを覚えておく必要があります。グレースワバと彼女のチームについて考えてみてください。それ以来、多変量データに対する多くのアプローチが登場しました-SEM、成長曲線分析、ガウス過程、確率過程理論のさらなる発展など。FDAが対処する質問に対する最善のアプローチであるかどうかはわかりません。一方、FDAを意図したアプリケーションを見ると、FDAが何をしようとしているかを著者が本当に理解しているかどうかをよく疑問に思います。


+1。おっと、あなたの答えに気付いたのは今だけで、偶然です(誰かが私の答えの下にコメントを残し、下にスクロールしました)。貢献してくれてありがとう!これについてもう少し読んで、カーネルトリックとの類似性についてあなたが言ったことについて考える時間を見つける必要があると思います。それは合理的に聞こえます。
アメーバは、モニカを復活

5

FPCAについてはわかりませんが、覚えておくべきことの1つは、非常に高い次元ではより多くの「スペース」があり、スペース内のポイントが均一に分布し始めていることです(つまり、すべてが他のすべてから遠く離れています)。この時点で、共分散行列は基本的に均一に見え始め、ノイズに非常に敏感になります。したがって、それは「真の」共分散の悪い評価になります。FPCAが何らかの形でこれを回避するのかもしれませんが、私にはわかりません。

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.