タグ付けされた質問 「pca」

主成分分析(PCA)は、線形次元削減手法です。これは、多変量データセットを、できるだけ多くの情報(できるだけ多くの分散)を維持する、構築された変数のより小さなセットに削減します。主成分と呼ばれるこれらの変数は、入力変数の線形結合です。

3
分類にLDAではなくPCAをいつ使用しますか?
私は、主成分分析と多重判別分析(線形判別分析)の違いについてこの記事を読んでおり、MDA / LDAではなくPCAを使用する理由を理解しようとしています。 説明は次のように要約されます。 PCAで大まかに言えば、データが最も分散している(PCAはデータセット全体を1つのクラスとして扱うため、クラス内で)最大の分散を持つ軸を見つけようとしています。MDAでは、クラス間の分散をさらに最大化しています。 常に分散を最大化し、クラス間の分散を最大化したいと思いませんか?

1
PCA固有ベクトルではないベクトルの「固有値」(説明された分散のパーセンテージ)を取得する方法は?
PCAによって提供される座標空間ではなく、わずかに異なる(回転した)ベクトルのセットに対して、データセットの分散のパーセンテージを取得する方法を理解したいと思います。 set.seed(1234) xx <- rnorm(1000) yy <- xx * 0.5 + rnorm(1000, sd = 0.6) vecs <- cbind(xx, yy) plot(vecs, xlim = c(-4, 4), ylim = c(-4, 4)) vv <- eigen(cov(vecs))$vectors ee <- eigen(cov(vecs))$values a1 <- vv[, 1] a2 <- vv[, 2] theta = pi/10 rotmat <- matrix(c(cos(theta), sin(theta), -sin(theta), …


2
主成分分析は株価/非定常データに使用できますか?
私は「ハッカーのための機械学習」という本の例を読んでいます。最初に例について詳しく説明し、次に私の質問について話します。 例: 25株価の10年間のデータセットを取得します。25の株価でPCAを実行します。主成分をダウジョーンズインデックスと比較します。PCとDJIの非常に強い類似性を観察します! 私が理解していることから、この例は、私のような初心者がPCAのツールがいかに効果的であるかを理解するのに役立つおもちゃのようなものです! しかし、別のソースから読むと、株価は非定常であり、株価でPCAを実行することは不合理であることがわかります。私が読んだソースは、株価の共分散とPCAを計算するという考えを完全にばかげています。 質問: この例はどのようにうまく機能しましたか?株価のPCAとDJIは非常に近いものでした。そしてデータは2002-2011年の株価からの実際のデータです。 誰かが静止/非定常データを読み取るための素晴らしいリソースを私に指摘できますか?私はプログラマーです。数学の知識が豊富です。しかし、私は3年間真剣な数学をしていません。ランダムウォークなどについてまた読み始めました。

1
PCAが大きなペアワイズ距離のみを保持することは何を意味しますか?
私は現在t-SNE視覚化手法について読んでいますが、主成分分析(PCA)を使用して高次元データを視覚化することの欠点の1つは、ポイント間の大きなペアワイズ距離しか保持されないことです。高次元空間で遠く離れている意味の点も低次元部分空間では遠く離れて表示されますが、他のすべてのペアワイズ距離が台無しになることを除いて。 なぜ誰かがそれを理解するのを手伝ってくれませんか?

1
大規模なPCAも可能ですか?
主成分分析(PCA)の古典的な方法は、列の平均がゼロである入力データマトリックスで行う(PCAが「分散を最大化できる」)方法です。これは、列を中央に配置することで簡単に実現できます。ただし、入力マトリックスがスパースの場合、中央に配置されたマトリックスはスパースになり、マトリックスが非常に大きい場合、メモリに収まりません。ストレージの問題に対するアルゴリズム的な解決策はありますか?

1
すべてのPLSコンポーネントが一緒になって元のデータの分散の一部しか説明しないのはなぜですか?
10個の変数で構成されるデータセットがあります。部分最小二乗(PLS)を実行して、これらの10個の変数によって単一の応答変数を予測し、10個のPLSコンポーネントを抽出して、各コンポーネントの分散を計算しました。元のデータでは、702であるすべての変数の分散の合計を取った。 次に、各PLSコンポーネントの分散をこの合計で割って、PLSで説明される分散のパーセンテージを得ました。驚くべきことに、すべてのコンポーネントを合わせると、元の分散の44%しか説明されません。 その説明は何ですか?100%じゃないですか?

3
次元削減は常にいくつかの情報を失いますか?
タイトルが言うように、次元削減は常にいくつかの情報を失いますか?たとえばPCAを考えてみましょう。私が持っているデータが非常に少ない場合、「より良いエンコーディング」が見つかると思います(これはどういうわけかデータのランクに関連していますか?)何も失われません。

1
人々が興味を持っている分野の調査から得られたこのPCAバイプロットをどのように解釈するのですか?
背景:調査の何百人もの参加者に、選択した領域にどれだけ関心があるかを尋ねました(5ポイントのリッカートスケールで、1は「関心がない」、5は「関心がある」を示しています)。 その後、PCAを試しました。以下の図は、最初の2つの主成分への投影です。色は性別に使用され、PCA矢印は元の変数(つまり、関心)です。 きがついた: ドット(回答者)は、2番目のコンポーネントによって非常によく分離されています。 左向きの矢印はありません。 一部の矢印は他の矢印よりもはるかに短いです。 変数はクラスターを作る傾向がありますが、観測はしません。 下向きの矢印は主に男性の興味であり、上向きの矢印は主に女性の興味であるようです。 一部の矢印は下向きでも上向きでもありません。 質問:ドット(回答者)、色(性別)、矢印(変数)の関係を正しく解釈するにはどうすればよいですか?このプロットから、回答者とその関心について、他にどのような結論を導き出すことができますか? データはここにあります。

1
Anova()とdrop1()がGLMMに異なる回答を提供したのはなぜですか?
次の形式のGLMMがあります。 lmer(present? ~ factor1 + factor2 + continuous + factor1*continuous + (1 | factor3), family=binomial) 私が使用している場合drop1(model, test="Chi")、私は私が使用している場合とは異なる結果を得るAnova(model, type="III")車のパッケージからかsummary(model)。後者の2つは同じ答えを与えます。 大量の偽造データを使用して、これらの2つの方法は通常違いがないことがわかりました。それらは、平衡線形モデル、不平衡線形モデル(異なるグループでnが等しくない場合)、および平衡一般化線形モデルに対して同じ答えを示しますが、平衡一般化線形混合モデルに対しては同じ答えを与えません。したがって、ランダムな要素が含まれている場合にのみ、この不一致が現れます。 これらの2つの方法の間に違いがあるのはなぜですか? GLMMを使用する場合は必要がありますAnova()かdrop1()使用できますか? これらの2つの違いは、少なくとも私のデータでは、かなりわずかです。どちらを使用するかは問題ですか?
10 r  anova  glmm  r  mixed-model  bootstrap  sample-size  cross-validation  roc  auc  sampling  stratification  random-allocation  logistic  stata  interpretation  proportion  r  regression  multiple-regression  linear-model  lm  r  cross-validation  cart  rpart  logistic  generalized-linear-model  econometrics  experiment-design  causality  instrumental-variables  random-allocation  predictive-models  data-mining  estimation  contingency-tables  epidemiology  standard-deviation  mean  ancova  psychology  statistical-significance  cross-validation  synthetic-data  poisson-distribution  negative-binomial  bioinformatics  sequence-analysis  distributions  binomial  classification  k-means  distance  unsupervised-learning  euclidean  correlation  chi-squared  spearman-rho  forecasting  excel  exponential-smoothing  binomial  sample-size  r  change-point  wilcoxon-signed-rank  ranks  clustering  matlab  covariance  covariance-matrix  normal-distribution  simulation  random-generation  bivariate  standardization  confounding  z-statistic  forecasting  arima  minitab  poisson-distribution  negative-binomial  poisson-regression  overdispersion  probability  self-study  markov-process  estimation  maximum-likelihood  classification  pca  group-differences  chi-squared  survival  missing-data  contingency-tables  anova  proportion 


1
PCAは、次元数が観測数よりも大きい場合でも、共分散行列の固有分解を介して行われますか?
私は行列Xを私含む、N = 20でサンプルをD = 100次元空間。次に、Matlabで自分の主成分分析(PCA)をコード化したいと思います。最初にXからX 0を降格します。20×10020×10020\times100XXXN=20N=20N=20D=100D=100D=100XXXX0X0X_0 観測よりも次元が多いシナリオでは、の共分散行列をもはや固有分解しないという誰かのコードを読みました。代わりに、固有分解します1X0X0X_0。なぜそれが正しいのですか?1N−1X0XT01N−1X0X0T\frac{1}{N-1}X_0X_0^T 通常の共分散行列のサイズは、その各要素は2次元間の共分散を示します。私にとって、1D×DD×DD\times Dは正しい寸法ではありません!これはN×N行列なので、何を教えてくれるでしょうか。2つの観測間の共分散?!1N−1X0XT01N−1X0X0T\frac{1}{N-1}X_0X_0^TN×NN×NN\times N
10 pca 

2
分類の目的でPCAをテストデータに適用する
最近、素晴らしいPCAについて学び、scikit-learnのドキュメントで概説されている例を実行しました。 分類の目的でPCAを新しいデータポイントに適用する方法を知りたいです。 PCAを2次元平面(x、y軸)で視覚化した後、データポイントを分割する線を描画して、片側が別の分類になり、もう一方が別の分類になるようにすることができます。この「境界」を描画して新しいデータポイントに適用するにはどうすればよいですか?

1
固有ベクトルの視覚的な説明について混乱:視覚的に異なるデータセットが同じ固有ベクトルを持つことができるのはなぜですか?
多くの統計教科書は、共分散行列の固有ベクトルが何であるかを直感的に説明しています。 ベクトルuとzは固有ベクトル(まあ、固有軸)を形成します。意味あり。しかし、混乱するのは、生データではなく相関行列から固有ベクトルを抽出することです。さらに、まったく異なる生データセットは、同一の相関行列を持つことができます。たとえば、次の両方には次の相関行列があります。 [ 10.970.971][10.970.971]\left[\begin{array}{} 1 & 0.97 \\ 0.97 &1\end{array}\right] そのため、同じ方向を指す固有ベクトルがあります。 [ .71.71− .71.71][.71−.71.71.71]\left[\begin{array}{} .71 & -.71 \\ .71 & .71\end{array}\right] しかし、固有ベクトルが生データのどの方向であるかについて同じ視覚的解釈を適用すると、異なる方向を指すベクトルが得られます。 誰かが私がどこが間違っているのか教えてもらえますか? 二番目の編集:私が大胆であるかもしれないなら、以下の優れた答えで私は混乱を理解し、それを説明することができました。 視覚的説明は、共分散行列から抽出された固有ベクトルが異なるという事実と一致しています。 共分散と固有ベクトル(赤): [ 1111] [ .7.72− .72。7][1111][。7−.72.72。7]\left[\begin{array}{} 1 & 1 \\ 1 & 1\end{array}\right] \left[\begin{array}{} .7 & -.72 \\ .72 & .7\end{array}\right] 共分散と固有ベクトル(青): [ .25.5.51] [ …

2
コンポーネントの数を選択するために、PCAフィットの品質を評価するための適切なメトリックは何ですか?
主成分分析(PCA)の品質を評価するための適切なメトリックは何ですか? このアルゴリズムをデータセットで実行しました。私の目的は、機能の数を減らすことでした(情報は非常に冗長でした)。保持される差異の割合は、保持する情報量の良い指標であることを知っています。冗長な情報を削除し、そのような情報を「失った」ことを確認するために使用できる他の情報メトリックはありますか?

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.