依存観測のPCAのプロパティ


23

通常、ケースがiidであると想定されるデータの次元削減手法としてPCAを使用します

質問:依存する非iidデータにPCAを適用する際の典型的なニュアンスは何ですか?iidデータを保持するPCAの優れた/有用なプロパティは、侵害された(または完全に失われた)ものですか?

たとえば、データは多変量時系列である場合があり、その場合、自己相関または自己回帰条件付き不均一分散(ARCH)が予想されます。

時系列データにPCAを適用する上でいくつかの関連の質問は、前に依頼されている例えば1234、私は(個々のポイントに多くの拡大を必要とせずに)、より一般的かつ総合的な答えを探しています。

編集: @ttnphnsが指摘したように、PCA 自体は推論分析ではありません。ただし、PCAの一般化パフォーマンス、つまり、サンプルPCAの母集団の対応に注目することができます。例えば、Nadler(2008)に書かれているとおり:

与えられたデータが(一般的に未知の)分布からの有限でランダムなサンプルであると仮定すると、興味深い理論的および実用的な問題は、有限データから計算されたサンプルPCA結果と基礎となる母集団モデルの結果の間の関係です。

参照:


14
念のため。PCA 自体は推論分析ではありません。これは、数値の多変量データセットの変換です。そのコアはsvdまたは固有分解だけです。したがって、観測の独立性を仮定しません。集団からのサンプルを分析するための統計ツールとして PCAを使用する場合、仮定が生じます。しかし、それらはPCAの仮定ではありません。たとえば、データを削減するためにPCAが正当化されるかどうかを決定するための球形度のテストには、不注意が必要です。
ttnphns

@ttnphns、非常に良い点、ありがとう。投稿を編集するきちんとした方法を見つけたら、お気軽に。私も自分で考えます。
リチャードハーディ

1
リチャード、あなたの質問は素晴らしいし、重要です(+1)。「ケースが想定されるデータの次元削減として通常PCAを使用します。ケース(時間)の時系列データにPCAを適用する際の典型的なニュアンスは何ですか。ポイント)はラグに依存しています...?」
ttnphns

1
@amoeba、そう。しかし、PCの負荷を取得するだけで停止することはほとんどありません。一般的にPCAに続く手順では、非iid'nessの下で何に注意する必要がありますか?答えが質問(現在の定式化より)よりも良いことを願っています。大まかに/創造的にそれを見れば、おそらくあなたはいくつかの良い点を思い付くことができます。
リチャードハーディ

2
プレーンPCAは「水平」関連(列間)のみを尊重し、「垂直」(ケース間)を無視します。列の共分散行列は、ケースの順序をシャッフルすると同じです。これが「ケースのシリアル関係の仮定がない」と呼ばれるか、「独立したケースの仮定がなされる」かは好みの問題です。iidの仮定はデータ分析のデフォルトであるため、PCAのように、単にケースの順序に特別な注意を払わない方法は、iidの仮定の「サイレントサポート」に帰着させることができます。
ttnphns

回答:


1

おそらく、サンプリングされたポイントに追加機能として時間コンポーネントを追加できますが、今ではそれらはiidですか?基本的に、元のデータポイントは時間を条件としています。

p(xiti)p(xi)

ただし、を定義すると、次のようになります。xi={xi,ti}

p(xiti)=p(xi)

...そして、データサンプルは相互に独立しています。

実際には、各データポイントにフィーチャとして時間を含めることにより、PCAは結果として、1つのコンポーネントが時間フィーチャ軸に沿って単純に指すようにすることができます。ただし、機能が時間機能と相関している場合、コンポーネントはこれらの機能の1つ以上と時間機能で構成されている可能性があります。


1
答えてくれてありがとう。それは時間が直線的に入る非常に特殊なケースです。より一般的な現象は、たとえば、時間自体が機能としての役割を果たさない自己相関です。
リチャードハーディ

xtθxt1xtxt1θxt1

xt1
弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.