AIC(またはBIC)を使用したPCAモデルの選択


12

赤池情報量基準(AIC)を使用して、PCAで抽出する適切な数の要因を選択します。唯一の問題は、パラメーターの数を決定する方法がわからないということです。

ような行列考えます。ここで、は変数の数、は観測値の数を表します。共分散行列は対称であるため、最尤推定では、AICのパラメーター数をます。T×NXNTXN(0,Σ)ΣN(N+1)2

あるいは、PCAで、の最初の固有ベクトルと固有値を抽出し、それらをおよびと呼び、\ Sigma = \ beta_ {f} \ Lambda_ {f} \ beta_を計算できます。{f} '+ I \ sigma_ {r} ^ {2} ここで、\ sigma_ {r} ^ {2}は平均残差分散です。あなたが持っている場合は、私の数によって、F要因を、あなたが希望Fのパラメータ\ Lambda_ {F} Nf個のパラメータbeta_ {F} \、および1つのにおけるパラメータsigma_ {R} ^ {2} \fΣβfΛf

Σ=βfΛfβf+Iσr2
σr2ffΛfNfβf1σr2

このアプローチは正しいですか?因子の数が増えると、最尤法よりも多くのパラメーターにつながるようです。N


1
Nfはパラメーターをオーバーカウントします。固有ベクトルが相互に直交しているという事実のために冗長性があります。
whuber

10
最初の固有ベクトルには、N自由パラメーターがあります。直交性条件は、2番目の固有ベクトルを最初のベクトルに直交するハイパースペースに制限し、パラメーターのみを必要とします。連続する各固有ベクトルは、前のものより1つ少ないパラメーターを必要とします。の制限でN1固有ベクトルあなた廃棄 σ 2 R(今はゼロだから)、を与える N + N - 1 + + 1 = N N + 1 / 2のパラメータTOTOで、Nσr2N+(N1)++1N(N+1)/2最初のパラメーターカウントと一致します。
whuber

1
@ A.Donda状況はあいまいです。各固有値の多重度も示しており、これらの多重度がN 加算されているとします。PCAが直交変換を検出できるようにすると、それを決定するためのN N 1 / 2パラメーターが得られます。しかし、各固有空間のスタビライザーは、次元n iの直交グループです。それにより、n in in1,n2,,ns,N.N(N1)/2ni.パラメーター、 N N 1 / 2 s i = 1 n in i1 / 2パラメーターの回転を残しますSの固有値は、残りのパラメータを供給する。ni(ni1)/2
N(N1)/2i=1sni(ni1)/2
s
whuber

1
(質問へのこのカウントの適用は疑わしいと付け加えます。PCA 、たとえより高い多重度の固有値を見つけたとしても、すべてのパラメーターを使用します。とにかく1より大きい多重度を取得することはありません。)N(N1)/21
whuber

1
@whuber、ありがとう!私の質問は、固有値の制約の下で共分散行列を推定する状況に動機付けられています。
A.ドンダ

回答:


5

PCAの確率的ビューに関するMinka(PCAの次元の自動選択、2000年)およびTipping&Bishop(確率的主成分分析)の作品は、興味のあるフレームワークを提供する可能性があります。Minkaの作品は、尤度ここで、 kはラプラス近似を使用したデータセット Dの潜在次元です。明示的に述べられているように、「ラプラスの方法の簡略化はBIC近似です。logp(D|k)kD

明らかにこれは、AICが使用する情報理論の基準(KL発散)に基づいていない問題のベイジアン視点を取ります。

元の「パラメータの数の決定」の質問に関して、@ whuberのコメントは正しい直感を持っていると思います。


さまざまなサイズのランダム行列で、AIC対AICcをいじっていました。AICcはより良く機能しているようです。これらの参照は見栄えが良いが、私はまだ消化する機会がなかった。
ジョン

6

PCAで「適切な」数のコンポーネントを選択することは、ホーンの並列分析(PA)を使用してエレガントに実行できます。論文は、この基準が肘基準やカイザーの規則などの経験則を一貫して上回ることを示しています。Rパッケージ「paran」には、マウスを数回クリックするだけで済むPAが実装されています。

もちろん、保持するコンポーネントの数は、データ削減の目標によって異なります。「意味のある」分散のみを保持したい場合、PAは最適な削減を行います。ただし、元のデータの情報損失を最小限に抑えるには、説明された95%の分散をカバーするのに十分なコンポーネントを保持する必要があります。これにより、明らかにPAよりも多くのコンポーネントが保持されますが、高次元のデータセットの場合、次元の削減は依然としてかなりのものになります。

「モデル選択」問題としてのPCAに関する最後のメモ。ピーターの返事には完全に同意しません。スパースPCA、スパース確率的PCA、またはScotLASSなど、PCAを回帰タイプの問題として再定式化した多くの論文があります。これらの「モデルベース」PCAソリューションでは、負荷は適切なペナルティ条件で0に設定できるパラメーターです。おそらく、このコンテキストでは、検討中のモデルのAICまたはBICタイプの統計を計算することも可能です。

このアプローチには、たとえば、2台のPCが無制限(すべての負荷がゼロ以外)であるモデルと、PC1が無制限でPC2がすべての負荷を0に設定したモデルを理論的に含めることができます。概して。

参照(PA)

  • Dinno、A.(2012)。paran:主成分/因子のホーンのテスト。Rパッケージバージョン1.5.1。http://CRAN.R-project.org/package=paran
  • Horn JL1965。因子分析における因子の数の理論的根拠とテスト。サイコメトリカ。30:179–185
  • ハバード、R。&アレンSJ(1987)。主成分抽出のための代替方法の経験的比較。Journal of Business Research、15、173-190。
  • Zwick、WR&Velicer、WF1986。保持するコンポーネント数を決定するための5つのルールの比較。心理的報告。99:432–442

サイト@BenMへようこそ。あなたの答えから、私はあなたの周りにいることは素晴らしいと思う(私はあなたの主張を評価するための基本を超えてPCAについて十分に知らないが)。質問の1つは、これらのポジションが十分に確立されていることです。興味のある読者が詳細を見つけられる代表的な出版物をいくつか挙げていただけますか。
グン-モニカの復職

-1

AICはモデル選択用に設計されています。これは実際にはモデル選択の問題ではなく、おそらく別のアプローチを取る方が良いでしょう。別の方法として、説明された分散の特定の合計パーセンテージ(たとえば75%)を指定し、パーセンテージが75%に達したときに停止することもできます。


1
因子の数に基づいて異なるモデルから選択しています(1因子のモデルと2因子のモデルなど)。分散の割合に関する問題は、主に、特に観測値の数が変数の数より少ない場合に、追加の固有ベクトルを推定するコストを無視することです。AICは、確率的PCAアプローチとうまく適合します。
ジョン

3
マイケル、これがモデル選択の問題ではない理由を正確に説明していただけますか?ジョンは明らかにそれを1つとして定式化したようです。
whuber

@whuber統計モデルとは何ですか?変数Yの分散のx%を表すために使用される主成分の数を決定することは、モデルを選択しないように思えます。主成分もモデルパラメーターとは考えません。
マイケルR.チャーニック

2
XiN(0,Σ)Σσi2ρ|ρ|=1θλ1λ2λ2=0。両方のパースペクティブは、完全な相関(共線性)をテストします。異なるパラメーター化を使用するだけです。最初のモデルをモデルとして許可する場合、2番目のモデルを許可する必要あります。
whuber

-2

AICはここでは適切ではありません。パラメーターの数が異なるモデルから選択するのではなく、主成分はパラメーターではありません。

因子分析または主成分分析から因子または成分の数を決定する多くの方法があります-スクリーテスト、固有値> 1など。しかし、実際のテストは実質的です:いくつの因子が理にかなっていますか?要因を見て、重みを考慮し、データに最適なものを見つけます。

統計の他のことと同様に、これは簡単に自動化できるものではありません。


4
ΣΣ

1
@whuber共分散行列のパラメーターは、モデルパラメーターではないかもしれません。私はこれについてピーターに味方します。
マイケルR.チャーニック

3
ピーター、「モデルパラメーター」と「パラメーター」を正確に区別していますか?私はそのようなことを知りませんので、これについて学ぶことを感謝します。あなたの目的が多変量共分散の簡潔な説明を見つけることである場合、それらは「モデル」パラメーターを構成していませんか?
whuber

3
ピーター、これに関する多くの作業は、「低ランクモデル」の名前で行われました。アプリケーションには、時系列のスペクトル分析、その空間的一般化、およびスプラインが含まれます。時系列の場合、たとえば、一連のn 観察結果は mn本質的にPCAと同じ機構と概念を使用したフーリエ級数コンポーネント:最大の固有値(つまり、波の振幅またはパワー)に対応する固有ベクトル(つまり、正弦波と余弦波)を保持します。
whuber

1
情報をありがとう。時系列は、私がほとんど知らない統計の1つの領域です。
ピーター・フロム-モニカの復職
弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.