タグ付けされた質問 「pca」

主成分分析(PCA)は、線形次元削減手法です。これは、多変量データセットを、できるだけ多くの情報(できるだけ多くの分散)を維持する、構築された変数のより小さなセットに削減します。主成分と呼ばれるこれらの変数は、入力変数の線形結合です。

3
PCAコンポーネントを回転させて、各コンポーネントの分散を均等化します。
データセットに対してPCAを実行し、最後の数台のPCを破棄することで、データセットの次元とノイズを削減しようとしています。その後、残りのPCでいくつかの機械学習アルゴリズムを使用したいので、PCの分散を均等化してデータを正規化し、アルゴリズムをより適切に機能させたいと考えています。 簡単な方法の1つは、分散を単純に単位値に正規化することです。ただし、最初のPCには、次のデータセットよりも元のデータセットからの差異が多く含まれています。それでも、「重み」を付けたいと思います。したがって、私は疑問に思っていました:分散を分割して、分散の少ないPCと共有する簡単な方法はありますか? 別の方法は、PCを元の特徴空間にマッピングすることですが、その場合、次元も元の値に増加します。 結果の列を直交に保つ方が良いと思いますが、現時点では必要ありません。

3
PCAの結果にパターンがないことをどのように確認できますか?
19変数の1000以上のサンプルデータセットがあります。私の目的は、他の18の変数(バイナリおよび連続)に基づいてバイナリ変数を予測することです。6つの予測変数がバイナリ応答に関連付けられていると確信していますが、データセットをさらに分析し、欠落している可能性のある他の関連付けまたは構造を探します。これを行うために、PCAとクラスタリングを使用することにしました。 正規化されたデータでPCAを実行すると、分散の85%を保持するために11のコンポーネントを保持する必要があることがわかります。 ペアプロットをプロットすると、次のようになります。 次は何なのかわかりません... pcaに重要なパターンがありません。これが何を意味するのか、変数の一部がバイナリであることが原因であるのではないかと思います。6つのクラスターでクラスター化アルゴリズムを実行すると、次の結果が得られますが、いくつかのblobが目立っているように見えますが(黄色のもの)、これは必ずしも改善にはなりません。 おそらくおわかりのように、私はPCAの専門家ではありませんが、いくつかのチュートリアルを見て、高次元空間で構造を垣間見ることがどのように強力であるかを確認しました。有名なMNISTディジット(またはIRIS)データセットを使用すると、うまく機能します。私の質問は、PCAをより理解するために、私は今何をすべきかです。クラスタリングが有用なものを取得していないようですが、PCAにパターンがないこと、またはPCAデータのパターンを見つけるために次に何を試すべきかをどのようにして確認できますか?
9 pca 

1
主成分に回帰を適用して出力変数を予測する方法は?
私はから主成分分析の基礎について読んtutorial1、リンク1とリンク2。 100個の変数(出力変数Yを含む)のデータセットがあります。PCAによって変数を40に減らし、それらの40変数を使用して変数Yを予測します。 問題1:主成分を取得して最初の40個の成分を選択した後、それに回帰を適用すると、データに適合するいくつかの関数が得られます。しかし、元のデータから変数Yを予測するにはどうすればよいでしょうか。変数YIを予測するには、入力に(100-1)個の変数があり、元の100-1個の変数から選択する40個の変数をどのようにして知ることができますか? 問題2: PCAを逆にして、40の主要コンポーネントからデータを取得します。しかし、最初の40個のコンポーネントのみを選択したため、データが変更されています。これらのデータに回帰を適用しても意味がありますか? 私はMatlab / Octaveを使用しています。
9 regression  pca 

1
主成分スコアに相関がないのはなぜですか?
仮説は、平均中心のデータの行列です。行列S = cov (A)はm × mで、m個の異なる固有値と、直交する固有ベクトルs 1、s 2 ... s mを持っています。AA\mathbf AS=cov(A)S=cov(A)\mathbf S=\text{cov}(\mathbf A)m×mm×mm\times mmmms1s1\mathbf s_1s2s2\mathbf s_2smsm\mathbf s_m 番目の主成分は、(何人かの人々は「スコア」と呼ん)ベクターであり 、Z iは = A S Iを。言い換えると、これはAの列の線形結合であり、係数はSの i番目の固有ベクトルの成分です。iiizi=Asizi=Asi\mathbf z_i = \mathbf A\mathbf s_iAA\mathbf AiiiSS\mathbf S とz jがすべてのi ≠ jに対して無相関であることが判明する理由がわかりません。s iとs jが直交しているという事実から来ていますか?確かにそうではありません。なぜなら、B xとB yが相関するような行列Bと1組の直交ベクトルx、yを簡単に見つけることができるからです。zizi\mathbf z_izjzj\mathbf z_ji≠ji≠ji\neq jsisi\mathbf s_isjsj\mathbf s_jBB\mathbf Bx,yx,y\mathbf x, \mathbf yBxBx\mathbf …

2
主成分分析の出力からの結論
次のように実行される主成分分析の出力を理解しようとしています。 > head(iris) Sepal.Length Sepal.Width Petal.Length Petal.Width Species 1 5.1 3.5 1.4 0.2 setosa 2 4.9 3.0 1.4 0.2 setosa 3 4.7 3.2 1.3 0.2 setosa 4 4.6 3.1 1.5 0.2 setosa 5 5.0 3.6 1.4 0.2 setosa 6 5.4 3.9 1.7 0.4 setosa > res = prcomp(iris[1:4], scale=T) > …
9 r  pca  interpretation 

1
変数を説明変数に分割するために使用する基準と、生態学の順序付け方法の応答は何ですか?
母集団内で相互作用するさまざまな変数があります。基本的に、私はヤスデのインベントリを作成し、次のような地形の他の値を測定しています。 収集した標本の種類と量 動物がいるさまざまな環境 pH 有機物の割合 P、K、Mg、Ca、Mn、Fe、Zn、Cuの量 Ca + Mg / K関係 基本的に、PCAを使用して、サンプルの変動性を駆動し、フォレスト(環境)を異なるものにする変数を決定します。「変数」にはどの変数を使用し、「個人」にはどの変数を使用すればよいですか?

1
PCAは自己相関データをどのように処理していますか?
一部の特派員が自己相関の計算方法に関して興味深い質問をしたからといって、時系列と自己相関についての知識がほとんどないまま、私はそれを試してみました。 特派員は彼のデータ(時系列のデータポイント)をそれぞれ1タイムラグずらして配置したため、最初の行は元のデータ、2行目はデータ(私が理解しているように)の行列になりますデータは時間単位ずつシフトされ、次の行は別の行単位にシフトされます。これを最後に尾に接着し、「円形」のデータセットを作成することでさらに実現しました。32323232×3232×3232\times32111 次に、そこから何が得られるかを調べるために、相関行列を計算し、これから主成分を計算しました。驚いたことに、私は周波数分解のイメージを取得し、(他のデータについても)1つの周波数、つまり、データの1周期が最初の主成分であり、4周期が2番目のPCであるというように続きました。 (固有値の「関連」PC を取得しました323232666>1>1>1)。最初、これは入力データに依存すると思っていましたが、循環シフト(「テプリッツ」行列とも呼ばれます)を使用したデータセットの特別な構成により、体系的にこのようになっていると思います。PCソリューションのバリマックスまたは他の回転基準への回転は、わずかに異なり、おそらく興味深い結果をもたらしましたが、一般に、そのような周波数分解を提供するようです。 以下は、ポイントのデータセットから作成した画像へのリンクです。曲線は、因子行列の負荷から単純に作成されます。1つの曲線は、1つの因子の負荷です。最初のPC1の曲線は、最大の振幅を示しているはずです(おおよそ、loadingsquareの合計が最大であるため)323232 質問: Q1:これは仕様による機能ですか?(このタイプのデータセットを持つPCAの) Q2:このアプローチは、周波数/波長分析への真剣なアプローチに実際に何らかの形で使用できますか? [更新]ここはデータセットです(コピーできるようになっていることを願っています) -5,-3,-1,0,2,4,6,5,3,1,1,0,-2,-3,-1,0,3,5,7,6,7,5,4,3,2,3,5,4,3,2,3,4 -3,-1,0,2,4,6,5,3,1,1,0,-2,-3,-1,0,3,5,7,6,7,5,4,3,2,3,5,4,3,2,3,4,-5 -1,0,2,4,6,5,3,1,1,0,-2,-3,-1,0,3,5,7,6,7,5,4,3,2,3,5,4,3,2,3,4,-5,-3 0,2,4,6,5,3,1,1,0,-2,-3,-1,0,3,5,7,6,7,5,4,3,2,3,5,4,3,2,3,4,-5,-3,-1 2,4,6,5,3,1,1,0,-2,-3,-1,0,3,5,7,6,7,5,4,3,2,3,5,4,3,2,3,4,-5,-3,-1,0 4,6,5,3,1,1,0,-2,-3,-1,0,3,5,7,6,7,5,4,3,2,3,5,4,3,2,3,4,-5,-3,-1,0,2 6,5,3,1,1,0,-2,-3,-1,0,3,5,7,6,7,5,4,3,2,3,5,4,3,2,3,4,-5,-3,-1,0,2,4 5,3,1,1,0,-2,-3,-1,0,3,5,7,6,7,5,4,3,2,3,5,4,3,2,3,4,-5,-3,-1,0,2,4,6 3,1,1,0,-2,-3,-1,0,3,5,7,6,7,5,4,3,2,3,5,4,3,2,3,4,-5,-3,-1,0,2,4,6,5 1,1,0,-2,-3,-1,0,3,5,7,6,7,5,4,3,2,3,5,4,3,2,3,4,-5,-3,-1,0,2,4,6,5,3 1,0,-2,-3,-1,0,3,5,7,6,7,5,4,3,2,3,5,4,3,2,3,4,-5,-3,-1,0,2,4,6,5,3,1 0,-2,-3,-1,0,3,5,7,6,7,5,4,3,2,3,5,4,3,2,3,4,-5,-3,-1,0,2,4,6,5,3,1,1 -2,-3,-1,0,3,5,7,6,7,5,4,3,2,3,5,4,3,2,3,4,-5,-3,-1,0,2,4,6,5,3,1,1,0 -3,-1,0,3,5,7,6,7,5,4,3,2,3,5,4,3,2,3,4,-5,-3,-1,0,2,4,6,5,3,1,1,0,-2 -1,0,3,5,7,6,7,5,4,3,2,3,5,4,3,2,3,4,-5,-3,-1,0,2,4,6,5,3,1,1,0,-2,-3 0,3,5,7,6,7,5,4,3,2,3,5,4,3,2,3,4,-5,-3,-1,0,2,4,6,5,3,1,1,0,-2,-3,-1 3,5,7,6,7,5,4,3,2,3,5,4,3,2,3,4,-5,-3,-1,0,2,4,6,5,3,1,1,0,-2,-3,-1,0 5,7,6,7,5,4,3,2,3,5,4,3,2,3,4,-5,-3,-1,0,2,4,6,5,3,1,1,0,-2,-3,-1,0,3 7,6,7,5,4,3,2,3,5,4,3,2,3,4,-5,-3,-1,0,2,4,6,5,3,1,1,0,-2,-3,-1,0,3,5 6,7,5,4,3,2,3,5,4,3,2,3,4,-5,-3,-1,0,2,4,6,5,3,1,1,0,-2,-3,-1,0,3,5,7 7,5,4,3,2,3,5,4,3,2,3,4,-5,-3,-1,0,2,4,6,5,3,1,1,0,-2,-3,-1,0,3,5,7,6 5,4,3,2,3,5,4,3,2,3,4,-5,-3,-1,0,2,4,6,5,3,1,1,0,-2,-3,-1,0,3,5,7,6,7 4,3,2,3,5,4,3,2,3,4,-5,-3,-1,0,2,4,6,5,3,1,1,0,-2,-3,-1,0,3,5,7,6,7,5 3,2,3,5,4,3,2,3,4,-5,-3,-1,0,2,4,6,5,3,1,1,0,-2,-3,-1,0,3,5,7,6,7,5,4 2,3,5,4,3,2,3,4,-5,-3,-1,0,2,4,6,5,3,1,1,0,-2,-3,-1,0,3,5,7,6,7,5,4,3 3,5,4,3,2,3,4,-5,-3,-1,0,2,4,6,5,3,1,1,0,-2,-3,-1,0,3,5,7,6,7,5,4,3,2 5,4,3,2,3,4,-5,-3,-1,0,2,4,6,5,3,1,1,0,-2,-3,-1,0,3,5,7,6,7,5,4,3,2,3 4,3,2,3,4,-5,-3,-1,0,2,4,6,5,3,1,1,0,-2,-3,-1,0,3,5,7,6,7,5,4,3,2,3,5 3,2,3,4,-5,-3,-1,0,2,4,6,5,3,1,1,0,-2,-3,-1,0,3,5,7,6,7,5,4,3,2,3,5,4 2,3,4,-5,-3,-1,0,2,4,6,5,3,1,1,0,-2,-3,-1,0,3,5,7,6,7,5,4,3,2,3,5,4,3 3,4,-5,-3,-1,0,2,4,6,5,3,1,1,0,-2,-3,-1,0,3,5,7,6,7,5,4,3,2,3,5,4,3,2 4,-5,-3,-1,0,2,4,6,5,3,1,1,0,-2,-3,-1,0,3,5,7,6,7,5,4,3,2,3,5,4,3,2,3

3
ICAは最初にPCAを実行する必要がありますか?
私は、ICAを適用する前に(fastICAパッケージを使用して)PCAを適用するというアプリケーションベースの論文をレビューしました。私の質問は、ICA(fastICA)ではPCAを最初に実行する必要があるのですか? この論文では、 ... PCAを事前に適用すると、(1)ホワイトニングの前に小さな後続の固有値を破棄し、(2)ペアごとの依存関係を最小限に抑えることで計算の複雑さを軽減することで、ICAのパフォーマンスが向上することも主張されています。PCAは入力データを非相関化します。残りの高次依存関係はICAによって分離されます。 また、他の論文はICAの前にPCAを適用しています、例えばこれ。 ICAの前にPCAを実行する他の長所と短所はありますか?理論を参考にしてください。

4
PCAに類似した非直交手法
2Dポイントデータセットがあり、データ内のすべての極大分散の方向を検出したいとします。次に例を示します。 PCAは直交分解であるため、この状況では役に立ちません。したがって、青色で示されている両方のラインを検出できません。その出力は、緑色のラインで示されているもののようになります。 この目的に適した手法を推奨します。ありがとう。


1
主成分分析と対応分析の使用
潮間帯群集に関するデータセットを分析しています。データは、四角形の(海藻、フジツボ、ムール貝などの)カバー率です。種数の観点からのコレスポンデンス分析(CA)と、線形環境(種ではない)傾向に役立つものとして主成分分析(PCA)を考えることに慣れています。PCAまたはCAがカバー率(紙を見つけることができない)に適しているかどうかを判断するのに実際に運がありませんでした。また、100%に制限されているものがどのように分配されるかさえわかりません? 最初のトレンド除去対応分析(DCA)軸の長さが2を超える場合、CAを使用する必要があると安全に判断できるという大まかなガイドラインに精通しています。DCA軸1の長さは2.17でしたが、役に立ちませんでした。


1
離散データとPCAの代替
私は、昆虫の密接に関連するいくつかの種の形態学的翼の特徴を説明する離散(順序、メリット、および名目)変数のデータセットを持っています。私が期待しているのは、形態学的特徴に基づいて、さまざまな種の類似性を視覚的に示すような分析を行うことです。最初に頭に浮かんだのはPCA(これは私が作成しようとしている視覚化の種類です)ですが、それを調べた後(特に、次のような他の質問:主成分分析を連続の混合を含むデータセットに適用できますか?)とカテゴリ変数?)、PCAは離散データには不適切である可能性があります(PCAはこれらのタイプの研究で文献で使用されていますが、常に連続データを使用しています)。このデータが不適切である理由の統計的背景を無視すると、PCAは私の生物学的質問に関して比較的完璧な結果を私に与えます(興味のあるハイブリッドグループは父方のグループの真ん中にあります)。 私はまた、統計を緩和するために複数のコレスポンデンス分析を試しました(少なくとも私の理解の限りでは)が、PCAで得られるプロットに似ているプロットを取得できないようです。異なるグループ(生物学的に言えば、異なる種)を示すために、色で区切られています。この分析は、個々の観察ではなく、変数(ここでは、私の形態学的特性)が互いにどのように関連しているかを説明することを目的としているようです。また、グループごとに色分けした観測をプロットすると、個人のセット全体を表す単一の値(おそらく平均)しか得られません。私はRで分析を行ったので、プロットについてのアイデアを機能させるのに十分なほどRに精通していないかもしれません。 私のデータでこの種の分析を試すのは正しいですか、それとも私は順調ですか?わからない場合は、私の統計的な専門知識は限られているので、これらの分析の下で行われている方程式はすべて私の頭の中にあります。私はこの分析を完全に記述的に実行しようとしています(これ以上ダウンストリームの数値計算を行う必要はありません)。これが当てはまる場合は、PCAで十分ですが、確実に確認したいと思います。あまりにも多くの統計的仮定に違反しています。

2
PCAまたは因子分析における歪んだ変数
22の変数に基づいてSPSSの主成分分析(因子分析)を実行したいと考えています。ただし、一部の変数は非常に歪んでいます(SPSSの範囲から計算された歪度は2〜80です)。 だからここに私の質問があります: そのように歪んだ変数を保持する必要がありますか、それとも主成分分析で変数を変換できますか?はいの場合、どのように因子得点を解釈しますか? どのタイプの変換を行う必要がありますか?log10またはln? 元々、私のKMO(Kaiser–Meyer–Olkin)は0.413です。多くの文献では、最低でも0.5を推奨しています。それでも因子分析を行うことはできますか、またはKMOを0.5に上げるために変数を削除する必要がありますか?

3
PCA、ICA、ラプラシアン固有マップ
私はラプラシアン固有マップ法にとても興味があります。現在、私の医療データセットの次元削減に使用しています。 ただし、この方法を使用して問題が発生しました。 たとえば、いくつかのデータ(スペクトル信号)があり、PCA(またはICA)を使用して一部のPCおよびICを取得できます。問題は、元のデータの同様の次元削減コンポーネントを取得する方法ですか? ラプラシアン固有マップ法によれば、次の一般化固有値問題を解く必要があります。 L y= λ D YLy=λDyL y = \lambda D y ここで、yは固有ベクトルです。固有ベクトル、たとえばyベクトルの上位3つ(3つの固有値に従って解を設定)をプロットすると、結果が解釈できなくなります。 ただし、常に上位3つのPCと上位3つのICをプロットできます。これらは、元のデータxを何らかの形で表します。 理由は、行列Lが重み付け行列(隣接行列W)によって定義され、データxが熱カーネルでフィッティングされて指数関数を使用するWが作成されたためだと思います。私の質問は、(行列Lの固有ベクトルyではなく)xの削減された成分を取得する方法ですか? 誠にありがとうございました。お返事をお待ちしております。 返信してくれてありがとう。 私のデータセットは制限されており、問題を実証するのは簡単ではありません。ここで私はおもちゃの問題を作成して、私が何を意味し、何を尋ねたいのかを示しました。 写真をご覧ください、 最初に、赤い曲線で示す正弦波A、B、Cを作成します(図の最初の列)。A、B、Cには1000個のサンプルがあります。つまり、1x1000ベクトルに保存されています。 次に、にランダムに作成された線形結合を使用してソースA、B、Cを混合しました。ここで、r1、r2、r3はランダムな値です。混合信号Mは非常に高次元の空間にあります。たとえば、、1517はランダムに選択された高次元の空間です。信号Mの最初の3行のみを緑色の曲線で示しています(図の2列目)。M ∈ R 1517 × 1000年M= r 1 ∗ A + r 2 ∗ B + r 3 ∗ CM=r1∗A+r2∗B+r3∗CM = r1*A + r2*B + r3*CM∈ R1517 × …
9 pca  ica 

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.