タグ付けされた質問 「pca」

主成分分析(PCA)は、線形次元削減手法です。これは、多変量データセットを、できるだけ多くの情報(できるだけ多くの分散)を維持する、構築された変数のより小さなセットに削減します。主成分と呼ばれるこれらの変数は、入力変数の線形結合です。

1
PCA、LDA、CCA、およびPLS
PCA、LDA、CCA、およびPLSはどのように関連していますか?それらはすべて「スペクトル」および線形代数であり、非常によく理解されているように見えます(たとえば、50年以上の理論が構築されています)。それらは非常に異なることに使用されます(次元削減のためのPCA、分類のためのLDA、回帰のためのPLS)にもかかわらず、それらは非常に密接に関連していると感じています。

5
上位主成分は、従属変数の予測力をどのように保持できますか(または、より良い予測につながりますか)?
私は回帰実行していると仮定Y〜XY〜バツY \sim X。上位kkk主成分を選択することにより、モデルは予測力を保持するのはなぜですか?YバツバツXYYY 次元削減/機能選択の観点から、が上位固有値を持つの共分散行列の固有ベクトルであり、が上位主成分である場合、最大の分散で。それにより、特徴の数をkに減らして、予測力の大部分を保持することができます。 X K X 、V 1、XのV 2。。。X v k k kv1、v2、。。。vkv1、v2、。。。vkv_1, v_2, ... v_kXバツXkkkXv1,Xv2...Xvkバツv1、バツv2。。。バツvkXv_1, Xv_2 ... Xv_kkkkkkk しかし、なぜ上位コンポーネントが予測力を保持するのでしょうか?YkkkYYY 一般的なOLSについて話す場合、フィーチャ分散が最大である場合、が最も予測力があることを示唆する理由はありません。Z I Z I YY∼ZY〜ZY \sim ZZiZ私Z_iZiZ私Z_iYYY コメントを見た後の更新:次元削減のためにPCAを使用する例がたくさんあると思います。私は、残された次元が最も予測力があることを意味していると思っていました。それ以外の場合、次元削減のポイントは何ですか?

3
回帰におけるリッジ正則化の解釈
最小二乗コンテキストでのリッジペナルティに関していくつかの質問があります。 βridge=(λID+X′X)−1X′yβridge=(λID+X′X)−1X′y\beta_{ridge} = (\lambda I_D + X'X)^{-1}X'y 1)この式は、Xの共分散行列が対角行列に向かって縮小されることを示唆しています。これは、(変数が手順の前に標準化されると仮定して)入力変数間の相関が低下することを意味します。この解釈は正しいですか? 2)それは収縮アプリケーションである場合、なぜそれが線で処方されていない(λID+(1−λ)X′X)(λID+(1−λ)X′X)(\lambda I_D + (1-\lambda)X'X)我々が何らかの形で正規化して[0,1]の範囲にラムダを制限することができると仮定すると、。 3)[0,1]のような標準範囲に制限できるように、正規化λλ\lambdaできるもの。 4)対角線に定数を追加すると、すべての固有値に影響します。特異値または特異値に近い値のみを攻撃する方が良いでしょうか?これは、PCAをXに適用し、回帰の前に上位N主成分を保持するのと同じですか、または異なる名前を持っていますか(相互共分散計算を変更しないため)? 5)我々は、クロス共分散を正則化することも、意味、任意の用途を有するないβridge=(λID+X′X)−1(γX′y)βridge=(λID+X′X)−1(γX′y)\beta_{ridge} = (\lambda I_D + X'X)^{-1}(\gamma X'y) ここで、小さなγγ\gammaは相互共分散を低下させます。これは明らかにすべてのββ\beta等しく低下させますが、おそらく共分散値に応じてハード/ソフトしきい値処理などのよりスマートな方法があります。

2
PCAとLDAを組み合わせるのは理にかなっていますか?
たとえば、ベイズ分類器を介して、教師付き統計分類タスク用のデータセットがあるとします。このデータセットは20個のフィーチャで構成されており、主成分分析(PCA)や線形判別分析(LDA)などの次元削減手法を使用して2つのフィーチャに要約します。 どちらの手法も、データをより小さな特徴部分空間に投影しています。PCAでは、データセットの分散を最大化する方向(コンポーネント)を見つけ(クラスラベルを考慮せず)、LDAでは、 -クラス分離。 今、私はこれらの技術を組み合わせることができるのか、どのように、そしてなぜできるのか、それが理にかなっているのか疑問に思っています。 例えば: PCAを介してデータセットを変換し、それを新しい2Dサブスペースに投影する LDAを介した(既にPCA変換済みの)データセットの変換 クラス内の分離 または PCAステップをスキップし、LDAの上位2つのコンポーネントを使用します。 または意味のある他の組み合わせ。

2
R prcompの結果を予測に使用する方法は?
800個のオブジェクトを持つdata.frameがあります。40個の変数を使用し、主成分分析を使用して、予測の結果を改善したいと考えています(これまでに15個の変数を選択してSupport Vector Machineで最適に機能します)。 prcompを使用すると予測を改善できることは理解していますが、prcomp関数の結果の使用方法はわかりません。 私は結果を得ます: > PCAAnalysis <- prcomp(TrainTrainingData, scale.=TRUE) > summary(PCAAnalysis) Importance of components: PC1 PC2 PC3 PC4 PC5 PC6 PC7 PC8 PC9 PC10 PC11 PC12 PC13 PC14 Standard deviation 1.7231 1.5802 1.3358 1.2542 1.1899 1.166 1.1249 1.1082 1.0888 1.0863 1.0805 1.0679 1.0568 1.0520 Proportion of Variance 0.0742 0.0624 …
25 r  pca 

3
LSAとPCA(ドキュメントクラスタリング)
ドキュメントクラスタリングで使用されるさまざまな手法を調査していますが、PCA(主成分分析)およびLSA(潜在的意味分析)に関するいくつかの疑問をクリアしたいと思います。 まず、それらの違いは何ですか?PCAでは、SVD分解が用語共分散行列に適用されるのに対して、LSAでは用語文書行列です。他に何かありますか? 第二-文書クラスタリング手順における彼らの役割は何ですか?これまで読んだことから、それらの目的は次元の削減、ノイズの削減、表現間の用語間の関係の組み込みであると推測します。PCAまたはLSAを実行した後、k-meansやagglomerative methodなどの従来のアルゴリズムが縮小タームスペースに適用され、コサイン距離などの一般的な類似度が使用されます。私が間違っている場合は修正してください。 第三-PCA / LSAを適用する前にTF / IDF項ベクトルを正規化するかどうかは重要ですか?そして、その後、再び正規化する必要がありますか? 4番目-LSA / PCAによって削減された用語スペースでクラスタリングを実行したとしましょう。次に、結果クラスターにラベルをどのように割り当てる必要がありますか?寸法は実際の単語に対応していないため、かなり難しい問題です。私の頭に浮かぶ唯一のアイデアは、元の用語ベクトルを使用して各クラスターの重心を計算し、上位の重みを持つ用語を選択することですが、あまり効率的ではありません。この問題の特定の解決策はありますか?何も見つかりませんでした。 これらの問題を明確にしてくれてとても感謝しています。

2
PCAは多重共線性の下で不安定ですか?
回帰状況では、推定された係数の不安定性のため、高度に相関する変数のセットがある場合、これは通常「悪い」ことを知っています(行列式がゼロに近づくにつれて、分散は無限に向かっていきます)。 私の質問は、この「悪」がPCAの状況で持続するかどうかです。共分散行列が特異になると、特定のPCの係数/負荷/重み/固有ベクトルは不安定/任意/非一意になりますか?私は、最初の主成分のみが保持され、他のすべてが「ノイズ」または「その他」または「重要でない」として却下される場合に特に興味があります。 ゼロまたはゼロに近い分散を持ついくつかの主成分だけが残っているため、それはないと思います。 これを見やすいのは、2変数の単純な極端な場合ではありません-それらが完全に相関していると仮定します。次に、最初のPCは正確な線形関係になり、2番目のPCは最初のPCに対して垂直になり、すべての観測値でPCの値はすべてゼロになります(分散0)。より一般的な場合は疑問に思う。

5
分散が小さいPCが「有用」であるPCAの例
通常、主成分分析(PCA)では、最初の数台のPCが使用され、データの変動の多くを説明していないため、低分散PCは削除されます。 ただし、バリエーションの少ないPCが有用な例(データのコンテキストでの使用、直感的な説明など)があり、破棄しないでください。
24 pca 

2
「非線形次元削減」のように「非線形」を理解する方法は?
線形次元削減法(PCAなど)と非線形法(Isomapなど)の違いを理解しようとしています。 この文脈で(非)線形性が何を意味するのか、私にはまったく理解できません。ウィキペディアから読んだこと 比較すると、PCA(線形次元削減アルゴリズム)を使用してこの同じデータセットを2つの次元に削減すると、結果の値はあまり整理されません。これは、この多様体をサンプリングする高次元ベクトル(それぞれが文字「A」を表す)が非線形に変化することを示しています。 何をする この多様体をサンプリングする高次元ベクトル(それぞれ文字「A」を表す)は、非線形に変化します。 平均?それとももっと広い意味で、この文脈における(非)線形性をどのように理解すればよいのでしょうか?

3
スパースPCAはPCAよりどれくらい正確ですか?
数回前に授業でPCAについて学びました。この魅力的な概念についてさらに掘り下げることで、まばらなPCAについて知ることができました。 私が間違っていなければ、これはまばらなPCAです:PCAでは、変数を持つデータポイントがある場合、PCAを適用する前に次元空間で各データポイントを表すことができます。PCAを適用した後、同じ次元空間で再び表すことができますが、今回は、最初の主成分に最大の分散が含まれ、2番目の主成分に2番目に大きな分散方向が含まれます。したがって、データの多くの損失を引き起こさないため、最後のいくつかの主要コンポーネントを削除でき、データを圧縮できます。右?p pnnnpppppp スパースPCAは、ベクトル係数に含まれる非ゼロ値がより少ない主成分を選択しています。 これはどのようにデータをよりよく解釈するのに役立つと思われますか?誰でも例を挙げることができますか?

1
依存観測のPCAのプロパティ
通常、ケースがiidであると想定されるデータの次元削減手法としてPCAを使用します 質問:依存する非iidデータにPCAを適用する際の典型的なニュアンスは何ですか?iidデータを保持するPCAの優れた/有用なプロパティは、侵害された(または完全に失われた)ものですか? たとえば、データは多変量時系列である場合があり、その場合、自己相関または自己回帰条件付き不均一分散(ARCH)が予想されます。 時系列データにPCAを適用する上でいくつかの関連の質問は、前に依頼されている例えば1、2、3、4、私は(個々のポイントに多くの拡大を必要とせずに)、より一般的かつ総合的な答えを探しています。 編集: @ttnphnsが指摘したように、PCA 自体は推論分析ではありません。ただし、PCAの一般化パフォーマンス、つまり、サンプルPCAの母集団の対応に注目することができます。例えば、Nadler(2008)に書かれているとおり: 与えられたデータが(一般的に未知の)分布からの有限でランダムなサンプルであると仮定すると、興味深い理論的および実用的な問題は、有限データから計算されたサンプルPCA結果と基礎となる母集団モデルの結果の間の関係です。 参照: ナズラー、ボアズ。「主成分分析の有限サンプル近似結果:行列摂動アプローチ。」 統計学年報(2008):2791-2817。

2
PCAと漸近PCAの違いは何ですか?
1986年と1988年の2つの論文で、コナーとコラジクは資産の収益をモデル化するアプローチを提案しました。これらの時系列は、通常、期間の観測よりも多くの資産を持っているため、資産収益の断面共分散に対してPCAを実行することを提案しました。彼らは、このメソッドを漸近主成分分析(APCA、PCAの漸近特性を聴衆がすぐに考えるため、かなり混乱します)と呼びます。 方程式を作成しましたが、2つのアプローチは数値的には同等に見えます。収束はではなくで証明されるため、漸近性はもちろん異なります。私の質問は、APCAを使用してPCAと比較した人はいますか?具体的な違いはありますか?もしそうなら、どれ?T → ∞N→ ∞N→∞N \rightarrow \inftyT→ ∞T→∞T \rightarrow \infty
23 pca  econometrics 

4
PCAの欠損値の代入
prcomp()RでPCA(主成分分析)を実行するためにこの関数を使用しました。ただし、その関数にはバグがあり、na.actionパラメーターが機能しません。私はstackoverflowの助けを求めました。そこで2人のユーザーが、NA値を処理する2つの異なる方法を提供しました。ただし、両方のソリューションの問題は、NA値がある場合、その行が削除され、PCA分析で考慮されないことです。私の実際のデータセットは100 x 100のマトリックスであり、単一のNA値が含まれているという理由だけで行全体を失いたくありません。 次の例はprcomp()、NA値が含まれているため、関数が行5の主成分を返さないことを示しています。 d <- data.frame(V1 = sample(1:100, 10), V2 = sample(1:100, 10), V3 = sample(1:100, 10)) result <- prcomp(d, center = TRUE, scale = TRUE, na.action = na.omit) result$x # $ d$V1[5] <- NA # $ result <- prcomp(~V1+V2, data=d, center = TRUE, scale = TRUE, na.action = …

1
次元数がである場合、データに対して
PCAでは、次元数がサンプル数よりも大きい(または等しい)場合、最大で非ゼロの固有ベクトルを持つことになります。つまり、次元間の共分散行列のランクはです。dddNNNN− 1N−1N-1d≥ Nd≥Nd\ge NN− 1N−1N-1 例:サンプルはベクトル化された画像で、寸法はですが、画像しかありません。d= 640 × 480 = 307200d=640×480=307200d = 640\times480 = 307\,200N= 10N=10N=10

2
データのSVDによるデータのPCAが必要な理由
この質問は、主成分を計算する効率的な方法に関するものです。 casewise dataの特異値分解を使用した線形PCAの多くのテキスト。つまり、データあり、変数(その列)を主成分で置き換えたい場合、SVDを実行します。、特異値(固有値の平方根)の主対角を占める、右固有ベクトルは、軸変数から軸コンポーネントへの直交回転行列です。左固有ベクトルは、場合のみに似ています。その後、コンポーネント値をとして計算できます。XX\bf XX=USV′X=USV′\bf X=USV'SS\bf SVV\bf VUU\bf UVV\bf VC=XV=USC=XV=US \bf C=XV=US 変数のPCAを行う別の方法は、分解を経由している(つまり正方行列でき相関または共分散の変数の間、など)。分解は、固有分解または特異値分解である可能性があります:正方対称正定行列では、前述の\ bf Lおよび\ bf Vの対角要素と同じ固有値を持つ\ bf R = VLV 'と同じ結果が得られます。コンポーネントの値は\ bf C = XVになります。R=X′XR=X′X\bf R=X'XRR\bf R R=VLV′R=VLV′\bf R=VLV'LL\bf LVV\bf VC=XVC=XV\bf C=XV さて、私の質問:データXX\bf Xが大きな行列であり、ケースの数が(多くの場合)変数の数よりはるかに大きい場合、ウェイ(1)はウェイ(2 )、方法(1)は非常に高価なアルゴリズム(SVDなど)を大きなマトリックスに適用するため。巨大な行列UU\bf Uを計算して保存しますが、この場合は実際には必要ありません(変数のPCA)。もしそうなら、なぜそんなに多くのtexbookが主張しているように見える、または単に方法(1)だけに言及しているように見えるのでしょうか?たぶんそれは効率的で、私は何かが欠けていますか?

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.