時系列データでPCAを解釈する方法は?


19

私は、「クラスタは、コンピューティングとスケールでマッピング脳活動」と題した最近の雑誌の記事でPCAの使用を理解しようとしていますフリーマンら、2014(無料のPDF ラボのウェブサイトで入手可能)。彼らは、時系列データに対してPCAを使用し、PCAの重みを使用して脳のマップを作成します。

データは(と呼ばれる行列として記憶試験平均撮像データであるYを有する紙で)n個のボクセル(または脳の撮像位置)× Tの時点(脳への単一刺激の長さ)。Y^n×t^

彼らは、その結果SVD使用Y = U S VV行列の転置を表すVを)。

Y^=USV
VV

著者は、

主成分(の列)長さのベクトルであり、T、及びスコア(の列Uは)長さのベクトルであるN個の対応するコンポーネントによって与えられた方向に各ボクセルの投影を説明する、(ボクセル数) 、ボリューム上に投影、つまり全脳マップを形成します。Vt^Un

だから、PCは、長さのベクトルですトン。PCAのチュートリアルで一般的に表現されているように、「最初の主成分がほとんどの分散を説明する」と解釈するにはどうすればよいですか?多くの高度に相関した時系列のマトリックスから始めました-単一のPC時系列は元のマトリックスの分散をどのように説明しますか?私は「最も多様な軸への点のガウス雲の回転」のこと全体を理解していますが、これが時系列にどのように関係するかはわかりません。著者は、「スコア(Uの列)は長さnのベクトルである」と述べるとき、方向によって何を意味しますかt^Un (ボクセルの数)、対応するコンポーネントによって与えられる方向への各ボクセルの投影を記述します」?主成分の時間経過はどのように方向を持つことができますか?

主成分1と2の線形結合と関連する脳マップから得られる時系列の例を見るには、次のリンクに移動し、XYプロットのドットにマウスを合わせます。

フリーマン等。

2番目の質問は、主成分スコアを使用して作成する(状態空間)軌跡に関連しています。

これらは、(私は上に概説した「微細運動」の例の場合)を最初の2項目を取ることによって作成され、式により主要部分空間への(上記試験平均行列を作成するために使用される)は、個々の試験を投影している:

J=UY.

リンクされた映画でわかるように、状態空間の各トレースは、脳全体の活動を表しています。

最初の2台のPCのスコアのXYプロットを関連付ける図と比較して、状態空間ムービーの各「フレーム」が何を意味するかについて、誰かが直感を提供できますか。実験の1回の試行がXY状態空間の1つの位置にあり、別の試行が別の位置にある特定の「フレーム」で何を意味しますか?映画のXYプロットの位置は、私の質問の最初の部分で述べたリンクされた図の主成分トレースとどのように関係しますか?

フリーマンら。


1
+1あなたの質問を編集しました。ここでtex方程式をフォーマットする方法を見てみましょう。それとは別に、私は論文をよく知っているので、後で返信します。
アメーバは2014

1
これは、OPが望んでいるものとはまったく異なりますが、時系列データから取得した場合、常にこれを行うため、主成分を解釈するのに便利になる場合があります。私は通常、PCAをKarhunen-Loève拡張として解釈するのが好きです。与えられた時系列(PCAを適用する異なる時系列)を無相関の時系列(つまり主成分)の線形結合として表現します。この場合の各時系列の重みは、共分散行列から取得した固有ベクトルによって与えられます。Xt
ネスター14年

1
(私のポイントのより詳細な説明についてはこちらをご覧ください:astro.puc.cl/~nespino/files/Ch2_PCA_nespinoza.pdf
ネスター

1
あなたの質問に、あなたが言及しているスクリーンショットをいくつか追加しました。
アメーバは、モニカを復活させる14

どのように写真を追加しましたか?
statHacker 14年

回答:


16

Q1:PC時系列と「最大分散」の関係は何ですか?

彼らが分析していることをデータは、Tのそれぞれについてのデータ点Nの一つとしてそれについて考えることができるので、ニューロンのTのデータポイントのn次元空間R N。「点の雲」であるため、PCAを実行することは、ご存じのとおり、最大分散の方向を見つけることになります。これらの方向(共分散行列の固有ベクトル)を「主軸」と呼び、これらの方向へのデータの投影を「主成分」と呼びます。t^nt^nRn

時系列を分析する場合、この画像にのみ添加ポイントは有意義(注文、又は番号付けされていることであるT単に順不同であることとは対照的に)収集ポイント。つまり、1つのニューロン(R nの 1つの座標)の発火率を取得すると、その値は時間の関数としてプロットできます。我々は(からの投影であるものPC取る場合同様、R nは、いくつかのライン上に)、それはまた有するTの値を、時間の関数としてプロットすることができます。元の機能が時系列である場合、PCも時系列です。1t^RnRnt^

上記の@Nestorの解釈に同意します:元の各特徴はPCの線形結合として見ることができ、PCは相互に無相関であるため、元の特徴が分解される基底関数と考えることができます。これはフーリエ解析に少し似ていますが、正弦波と余弦波の固定基底を使用する代わりに、この特定のデータセットに「最も適切な」基底を見つけています。これは、最初のPCがほとんどの分散などを説明するという意味です。

ここでの「ほとんどの分散の説明」とは、1つの基底関数(時系列)のみを取得し、それを使用してすべての機能を近似しようとすると、最初のPCが最適な仕事をすることを意味します。したがって、ここでの基本的な直観は、最初のPCは、利用可能なすべての時系列に最も適合する基底関数時系列であるということです。


フリーマンらのこの一節はなぜですか。とても分かりにくい?

フリーマンら。データマトリックス分析Y行の変数(すなわち、ニューロン)とを(!)、いない列に。行の平均を減算することに注意してください。これは、変数が通常PCAの前に中央に配置されるために意味があります。それから、彼らはSVD行うY = U S V上記用語Iの提唱者を使用して、列Uは、主軸(IN方向であるR N)との列S V主成分(長さの時系列であるT)。Y^

Y^=USV.
URnSVt^

フリーマンらから引用した文。実際、非常に混乱しています。

主成分(の列)長さのベクトルであり、T、及びスコア(の列Uは)長さのベクトルであるN個の対応するコンポーネントによって与えられた方向に各ボクセルの投影を説明する、(ボクセル数) 、ボリューム上に投影、つまり全脳マップを形成します。Vt^Un

まず、列はPCではなく、単位ノルムにスケーリングされたPCです。次に、「スコア」は通常PCを意味するため、Uの列はスコアではありません。第三に、「対応するコンポーネントによって与えられる方向」は不可解な概念です。私が考えて、彼らがここで絵を反転して考えることを提案することをn個のポイントトン今、各ニューロンは、データポイント(および変数ではなく)され、その結果、次元空間。概念的には大きな変更のように聞こえますが、数学的にはほとんど違いはありません。唯一の変更は主軸と[単位ノルム]主成分が場所を変更することです。この場合は、(上から私のPC トン -long時系列)はすなわち、主軸になりますVUnt^t^方向、およびは、これらの方向の正規化された投影と見なすことができます(正規化されたスコア?)。U

これは非常にわかりにくいので、単語の選択を無視することをお勧めしますが、式だけを見てください。この時点から、Freeman et al。ではなく、好きな用語を使用し続けます。それらを使用します。


Q2:状態空間の軌跡とは何ですか?

彼らは、単一試行データを取得し、それを最初の2つの主軸、つまり最初の2列に投影します。あなたは、元のデータでそれをやった場合はY、あなたが戻って二つの第一主成分を得るでしょう。再び、1つの主軸上の投影は、一の主成分、すなわちaはT -long時系列。UY^t^

Yt^

Y


下のコメントとしてこの質問をしましたが、おそらく@amoebaが役立つでしょうか?最初の主成分の重みベクトルは、すべてのボクセルにわたって崩壊する平均時系列だけですか?平均値である場合、個々のデータトレースに適合する最小スコアが得られます。–
statHacker 14

1
短い答えはnoです。多くの場合、非常に近い場合がありますが、通常は平均時系列ではありません。例として、すべてがゼロを通過する異なる勾配(正と負)を持つすべての直線である時系列のコレクションを考えます。その場合、平均時系列はほぼゼロになります。しかし、最初のPCは強力な直線になります。ところで、これは素晴らしい質問だと思います。詳細や図が必要な場合は、別の質問として(もう一度)質問してください。フリーマンらに関するこの質問のいかなる部分も複製しないようにしてください。それらを別々にします。
アメーバは、モニカを復活させる14

(または応答に興味のある他の人)-Q2に関して、「最初の2つの[PC]に[各試行]を投影する」とはどういう意味ですか。数学的には、Uが長さnのボクセルのベクトルであり、行列に長さnの行列Yを掛けると、最初の2台のPCへの次元削減が達成されることが非常に明確です。Uがスコアのマトリックス(つまり、最初の2台のPCからの各ボクセルの距離)に関して直感を提供できますか。Jの各時点を、上の1番目の画像の2次元プロットにおける各ボクセル位置の投影の2次元平均と考えることができますか?
statHacker

UU

SV

1

pVt^

Y^n×t^Un×nVt^×t^

2番目の質問に関して。与えられた方程式は

J=UTY

J×t

tt^J

t^

私はこれまでカラーリングの方法論を扱ったことがなく、その側面についてコメントするのに自信がつくまでしばらく時間がかかりました。ボクセルごとの回帰によって色が得られるため、図4cとの類似性に関するコメントは混乱を招きました。一方、図6では、各トレースはイメージ全体のアーチファクトです。率直に言わない限り、図のコメントにあるように、それはその時間セグメントにおける刺激の方向だと思います。


上の最初の図は、毎回同じ視覚刺激を提示した実験を示しています。これらのデータには異なる図とムービーがあります。上の2番目の図は、刺激が異なる方向の視覚刺激である異なる実験を示しています。上の2番目の図のトレースは、異なる視覚刺激の方向に単純に対応するように色付けされています。
statHacker 14年

YT^ \n

VS
J=UY.
U

私は物事を整理しました。謝罪は、私が何かを整理する前から残っていました。
推測

ご助力いただきありがとうございます。最初の主成分の重みベクトルは、すべてのボクセルにわたって崩壊する平均時系列だけですか?平均値である場合、個々のデータトレースに適合する最小スコアが得られます。
statHacker 14年
弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.