タグ付けされた質問 「pca」

主成分分析(PCA)は、線形次元削減手法です。これは、多変量データセットを、できるだけ多くの情報(できるだけ多くの分散)を維持する、構築された変数のより小さなセットに削減します。主成分と呼ばれるこれらの変数は、入力変数の線形結合です。

4
GaussianカーネルがPCAにとって魔法のようになっているのはなぜですか?
私は、カーネルPCA(約読んでいた1、2、3)ガウスと多項式カーネルを持ちます。 ガウスカーネルは、どのような種類の非線形データも例外的にどのように分離するのですか?直感的な分析と、可能であれば数学的に複雑な分析を提供してください。 他のカーネルにはないガウスカーネル(理想的なσσ\sigma)のプロパティとは何ですか?ニューラルネットワーク、SVM、およびRBFネットワークが思い浮かびます。 たとえば、Cauchy PDFを基準にして、同じ結果を期待してみませんか?

8
PCAの後に回転(バリマックスなど)が続いているのはまだPCAですか?
私はRのSPSSから(PCAを使用して)いくつかの研究を再現しようとしました。私の経験では、パッケージからのprincipal() 関数はpsych、出力に一致する唯一の関数でした(または私の記憶が正しければ、完全に機能します)。SPSSと同じ結果を一致させるには、parameterを使用する必要がありましたprincipal(..., rotate = "varimax")。私は論文がPCAをどのようにしたかについて話しているのを見てきましたが、SPSSの出力と回転の使用に基づいて、それは因子分析のように聞こえます。 質問:PCAは、(を使用してvarimax)回転した後でもPCAですか?私はこれが実際に因子分析であるかもしれないという印象を受けていました...もしそうでない場合、どのような詳細が欠けていますか?

5
k-meansクラスタリングとPCAの関係は何ですか?
クラスタリングアルゴリズム(k-meansなど)の前にPCA(主成分分析)を適用するのが一般的な方法です。これにより、実際のクラスタリング結果が改善されると考えられています(ノイズ低減)。 しかし、PCAとk-meansの関係の比較と詳細な研究に興味があります。たとえば、Chris Ding and Xiaofeng He、2004、K-means Clustering by Principal Component Analysisは、「主成分がK-meansクラスタリングの離散クラスターメンバーシップインジケーターに対する連続的なソリューションである」ことを示しました。しかし、私はこの論文を理解するのに苦労しており、ウィキペディアは実際には間違っていると主張しています。 また、2つの方法の結果は、PCAが分散を維持しながら「機能」の数を減らすのに役立つという意味でやや異なります。一方、クラスタリングは、期待値/手段によっていくつかの点を要約することで「データ点」の数を減らします(k-meansの場合)。したがって、データセットがそれぞれ特徴を持つポイントで構成される場合、PCAはT個の特徴を圧縮することを目的とし、クラスタリングはN個のデータポイントを圧縮することを目的とします。NNNTTTNTTTNNN 私は、これらの2つの手法の関係についての素人の説明と、2つの手法に関するいくつかの技術論文を探しています。

2
ZCAホワイトニングとPCAホワイトニングの違いは何ですか?
ZCAホワイトニングと通常のホワイトニング(主成分をPCA固有値の平方根で除算して得られる)について混乱しています。私の知る限りでは、 xZCAwhite=UxPCAwhite,xZCAwhite=UxPCAwhite,\mathbf x_\mathrm{ZCAwhite} = \mathbf U \mathbf x_\mathrm{PCAwhite},ここでUU\mathbf UはPCA固有ベクトルです。 ZCAホワイトニングの用途は何ですか?通常のホワイトニングとZCAホワイトニングの違いは何ですか?


9
高度な統計図書の推奨事項
このサイトには、入門統計と機械学習に関する本の推奨事項に関するいくつかのスレッドがありますが、優先順位の順に、最尤、一般化線形モデル、主成分分析、非線形モデルなど、高度な統計に関するテキストを探しています。AC Davisonによる統計モデルを試しましたが、率直に言って、2つの章の後にそれを書き留めなければなりませんでした。テキストはその範囲と数学的扱いにおいて百科事典ですが、実務家として、私は最初に直観を理解することによって主題にアプローチするのが好きで、それから数学的背景を掘り下げます。 これらは、教育的価値のために私が傑出していると考えるいくつかのテキストです。私が言及したより高度な主題に相当するものを見つけたいと思います。 Statistics、D。Freedman、R。Pisani、R。Purves。 予測:メソッドとアプリケーション、R。Hyndman et al。 多重回帰とその先、TZキース 現代の統計的手法の適用、Rand R. Wilcox Rのアプリケーションを使用した統計学習の概要-(PDFリリース版)、Gareth James、Daniela Witten、Trevor Hastie、Robert Tibshirani 統計学習の要素:データマイニング、推論、および予測。-(PDFリリース版)、Hastie、Tibshirani、Friedman(2009)

3
特徴選択に主成分分析(PCA)を使用する
私は機能選択が初めてであり、PCAを使用して機能選択を実行する方法を知りたいと思っていました。PCAは、情報価値のない入力変数を除外するために使用できる各入力変数の相対スコアを計算しますか?基本的に、分散または含まれる情報の量によって、データの元の機能を順序付けできるようにしたいと考えています。

7
膨大な数の機能(> 10K)に最適なPCAアルゴリズム?
以前にStackOverflowでこれを尋ねましたが、SOで何の回答も得られなかったことを考えると、ここでの方が適切かもしれません。統計とプログラミングの交差点にあります。 PCA(主成分分析)を行うためのコードを書く必要があります。私はよく知られたアルゴリズムを閲覧し、これを実装しました。これは、私が知る限り、NIPALSアルゴリズムと同等です。最初の2〜3個の主成分を見つけるのに適していますが、収束が非常に遅くなるようです(数百から数千回の繰り返し)。必要なものの詳細は次のとおりです。 アルゴリズムは、膨大な数の機能(10,000〜20,000のオーダー)と数百のオーダーのサンプルサイズを扱う場合に効率的でなければなりません。 ターゲット言語はDであるため、まともな線形代数/マトリックスライブラリがなくても合理的に実装可能でなければなりません。Dはまだ1つもありません。 。 補足として、同じデータセットでRはすべての主成分を非常に高速に見つけるように見えますが、特異値分解を使用します。これは自分でコーディングしたいものではありません。

5
PCAが(距離を伴う)幾何学的問題から(固有ベクトルを伴う)線形代数問題にどのように変化するかについての直感的な説明は何ですか?
私は(のような様々なチュートリアルや質問など、PCAについて多く、読んだ本1、この1、この1、およびこれを)。 PCAが最適化しようとしている幾何学的問題は、私には明らかです。PCAは、再構成(投影)エラーを最小化することで最初の主成分を見つけようとし、同時に投影データの分散を最大化します。 最初にそれを読んだとき、私はすぐに線形回帰のようなものを考えました。必要に応じて、勾配降下法を使用して解決できます。 しかし、その後、線形代数を使用して固有ベクトルと固有値を見つけることで最適化問題が解決されることを読んだとき、私の心は吹き飛ばされました。私は、この線形代数の使用がどのように作用するかを単純に理解していません。 だから私の質問は次のとおりです。PCAはどのようにして幾何学的最適化問題から線形代数問題に変わるのでしょうか?誰かが直感的な説明を提供できますか? 私のような答えを捜しているわけではない、この1と言い、「あなたはPCAの数学の問題を解決するとき、それは共分散行列の固有値と固有ベクトルを見つけることと等価なってしまいます。」固有ベクトルが主成分となる理由と、固有ベクトルが投影されるデータの分散となる理由を説明してください ちなみに、私はソフトウェアエンジニアであり、数学者ではありません。 注:上記の図は、このPCAチュートリアルから取られて変更されています。

3
対数変換された予測子および/または応答の解釈
従属変数のみ、従属変数と独立変数の両方、または独立変数のみが対数変換されるかどうかの解釈に違いがあるのか​​と思います。 の場合を考えます log(DV) = Intercept + B1*IV + Error IVはパーセントの増加として解釈できますが、 log(DV) = Intercept + B1*log(IV) + Error または私が持っているとき DV = Intercept + B1*log(IV) + Error ?
46 regression  data-transformation  interpretation  regression-coefficients  logarithm  r  dataset  stata  hypothesis-testing  contingency-tables  hypothesis-testing  statistical-significance  standard-deviation  unbiased-estimator  t-distribution  r  functional-data-analysis  maximum-likelihood  bootstrap  regression  change-point  regression  sas  hypothesis-testing  bayesian  randomness  predictive-models  nonparametric  terminology  parametric  correlation  effect-size  loess  mean  pdf  quantile-function  bioinformatics  regression  terminology  r-squared  pdf  maximum  multivariate-analysis  references  data-visualization  r  pca  r  mixed-model  lme4-nlme  distributions  probability  bayesian  prior  anova  chi-squared  binomial  generalized-linear-model  anova  repeated-measures  t-test  post-hoc  clustering  variance  probability  hypothesis-testing  references  binomial  profile-likelihood  self-study  excel  data-transformation  skewness  distributions  statistical-significance  econometrics  spatial  r  regression  anova  spss  linear-model 

3
PCAの目的関数は何ですか?
主成分分析は行列分解を使用できますが、それはそこに到達するための単なるツールです。 行列代数を使用せずに主成分をどのように見つけますか? 目的関数(目標)とは何ですか?また、制約は何ですか?
42 pca 

1
ブートストラップまたはモンテカルロアプローチを使用して重要な主成分を決定する方法は?
主成分分析(PCA)または経験的直交関数(EOF)分析から得られる重要なパターンの数を特定することに興味があります。この方法を気候データに適用することに特に興味があります。データフィールドはMxN行列で、Mは時間次元(例:日)、Nは空間次元(例:経度/緯度)です。重要なPCを判別するための可能なブートストラップ方法を読みましたが、より詳細な説明を見つけることができませんでした。これまで、私はこのカットオフを決定するために、Northの経験則(North et al。 例として: ###Generate data x <- -10:10 y <- -10:10 grd <- expand.grid(x=x, y=y) #3 spatial patterns sp1 <- grd$x^3+grd$y^2 tmp1 <- matrix(sp1, length(x), length(y)) image(x,y,tmp1) sp2 <- grd$x^2+grd$y^2 tmp2 <- matrix(sp2, length(x), length(y)) image(x,y,tmp2) sp3 <- 10*grd$y tmp3 <- matrix(sp3, length(x), length(y)) image(x,y,tmp3) #3 respective temporal patterns …
40 r  pca  bootstrap  monte-carlo 

1
データのセンタリングは、回帰およびPCAでインターセプトをどのように取り除きますか?
インターセプトを削除するために、データを中央に配置するインスタンス(正則化またはPCAなど)について読み続けます(この質問で述べたように)。私はそれが簡単であることを知っていますが、私はこれを直感的に理解するのに苦労しています。誰かが私が読むことができる直観または参照を提供できますか?

3
PCAがt-SNEよりも適している場合はありますか?
テキスト修正動作の7つの測定(テキストの修正に費やした時間、キーストロークの回数など)が互いにどのように関連するかを確認したいと思います。メジャーは相関しています。PCAを実行して、メジャーがPC1とPC2にどのように投影されるかを確認しました。これにより、メジャー間で個別の双方向相関テストを実行する重複を回避できました。 いくつかのメジャー間の関係が非線形になる可能性があるため、t-SNEを使用しない理由を尋ねられました。 非線形性を許容することでこれがどのように改善されるかはわかりますが、t-SNEではなくこの場合にPCAを使用する正当な理由があるのでしょうか?メジャーとの関係に従ってテキストをクラスタリングするのではなく、メジャー自体の関係に興味があります。 (EFAはより良い/別のアプローチかもしれませんが、それは別の議論です。)他の方法と比較して、t-SNEに関する投稿はここにほとんどないので、質問する価値があるようです。
39 pca  tsne 

3
PCAはブール(バイナリ)データ型で機能しますか?
高次システムの次元数を減らし、できれば2次元または1次元のフィールドで共分散の大部分をキャプチャしたいと思います。これは主成分分析で行えることを理解しており、多くのシナリオでPCAを使用しています。ただし、ブールデータ型で使用したことがないため、このセットを使用してPCAを実行するのが意味があるかどうか疑問に思っていました。たとえば、定性的または記述的なメトリックを持っているふりをし、そのディメンションに対してそのメトリックが有効な場合は「1」を割​​り当て、そうでない場合は「0」を割り当てます(バイナリデータ)。たとえば、白雪姫の七人の小人を比較しようとしているふりをします。我々は持っています: Doc、Dopey、Bashful、Grumpy、Sneezy、Sleepy、Happy、そしてあなたはそれらを品質に基づいて整理したいのです。 ⎛⎝⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜D o cD O P E YB a s h fU LG r u m p ySN 、E 、E 、ZySL E E p yHa p p yL a c t o S E I N T O L E R A n t1011011A HO N O R R …

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.