タグ付けされた質問 「pca」

主成分分析(PCA)は、線形次元削減手法です。これは、多変量データセットを、できるだけ多くの情報(できるだけ多くの分散)を維持する、構築された変数のより小さなセットに削減します。主成分と呼ばれるこれらの変数は、入力変数の線形結合です。


2
回帰の目的で予測子の次元を減らすことの利点は何ですか?
次元削減回帰(DRR)または教師付き次元削減(SDR)技法の、従来の回帰技法(次元削減なし)に対するアプリケーションまたは利点は何ですか?これらのクラスの技法は、回帰問題の特徴セットの低次元表現を見つけます。このような手法の例には、スライスされた逆回帰、主ヘシアン方向、スライスされた平均分散推定、カーネルスライスされた逆回帰、主成分回帰などが含まれます。 交差検証されたRMSEに関して、次元削減を行わない回帰アルゴリズムでアルゴリズムのパフォーマンスが向上した場合、回帰の次元削減の実際の用途は何ですか?これらのテクニックの要点はわかりません。 これらの手法は、たまたま、回帰のための空間と時間の複雑さを減らすために使用されていますか?それが主な利点である場合、この手法を使用する際の高次元データセットの複雑さの軽減に関するリソースが役立つでしょう。これについては、DRRまたはSDR技術自体を実行するにはある程度の時間とスペースが必要であるという事実について議論します。このSDR / DRR +回帰は、低濃度のデータセットで、高濃度のデータセットでの回帰のみよりも高速ですか? この設定は抽象的な関心のみから研究されたもので、実用的なアプリケーションはありませんか? 余談ですが、特徴と応答同時分布が多様体上にあるという仮定が時々あります。回帰問題を解決するために、このコンテキストで観測されたサンプルから多様体を学習することは理にかなっています。YバツXXYYY

3
データを使用した実用的なPCAチュートリアル
PCAチュートリアルをインターネットで検索すると、何千もの結果が得られます(ビデオも)。チュートリアルの多くは非常に優れています。しかし、デモに使用できるいくつかのデータセットを使用してPCAが説明される実際的な例を見つけることができません。PCA分析の前後に、簡単にプロットできる小さなデータセット(数千行のデータの10000行ではない)を提供するチュートリアルが必要です。その違い/結果を明確に示すことができます。(約100行と3次元のデータを使用した段階的な実践例はすばらしいと思います)。 何か提案はありますか?

1
Rのprincomp()オブジェクトのsummary()とloadings()の違いは何ですか?
コード例: (pc.cr <- princomp(USArrests)) summary(pc.cr) loadings(pc.cr) ## note that blank entries are small but not zero それぞれから異なる出力を取得していますが、違いが何であるかを理解できません。 出力は次のとおりです。 > summary(pc.cr) Importance of components: Comp.1 Comp.2 Comp.3 Comp.4 Standard deviation 82.8908472 14.06956001 6.424204055 2.4578367034 Proportion of Variance 0.9655342 0.02781734 0.005799535 0.0008489079 Cumulative Proportion 0.9655342 0.99335156 0.999151092 1.0000000000 > loadings(pc.cr) ## note …
11 r  pca 

1
RのPCAバイプロットの基礎となる変数の矢印
質問をソフトウェア固有のものにするリスクがあり、その遍在性と特異性を言い訳にしてbiplot()、R の関数について、より具体的には、対応するデフォルトの重ねられた赤い矢印の計算とプロットについて質問したいと思います。基になる変数に。 [コメントの一部を理解するために、最初に投稿されたプロットには希少な問題があり、現在は消去されています。]
11 r  pca  biplot 

1
R / mgcv:なぜte()とti()テンソル積が異なる表面を生成するのですか?
のmgcvパッケージにRは、テンソル積の相互作用をフィッティングするための2つの関数がte()ありti()ます。私は2つの作業の基本的な分業を理解しています(非線形の相互作用を当てはめるか、この相互作用を主効果と相互作用に分解するか)。私が理解していないのは、なぜte(x1, x2)、そしてti(x1) + ti(x2) + ti(x1, x2)(わずかに)異なる結果を生成するのかということです。 MWE(から適応?ti): require(mgcv) test1 <- function(x,z,sx=0.3,sz=0.4) { x <- x*20 (pi**sx*sz)*(1.2*exp(-(x-0.2)^2/sx^2-(z-0.3)^2/sz^2)+ 0.8*exp(-(x-0.7)^2/sx^2-(z-0.8)^2/sz^2)) } n <- 500 x <- runif(n)/20;z <- runif(n); xs <- seq(0,1,length=30)/20;zs <- seq(0,1,length=30) pr <- data.frame(x=rep(xs,30),z=rep(zs,rep(30,30))) truth <- matrix(test1(pr$x,pr$z),30,30) f <- test1(x,z) y <- f + rnorm(n)*0.2 par(mfrow = c(2,2)) # …
11 r  gam  mgcv  conditional-probability  mixed-model  references  bayesian  estimation  conditional-probability  machine-learning  optimization  gradient-descent  r  hypothesis-testing  wilcoxon-mann-whitney  time-series  bayesian  inference  change-point  time-series  anova  repeated-measures  statistical-significance  bayesian  contingency-tables  regression  prediction  quantiles  classification  auc  k-means  scikit-learn  regression  spatial  circular-statistics  t-test  effect-size  cohens-d  r  cross-validation  feature-selection  caret  machine-learning  modeling  python  optimization  frequentist  correlation  sample-size  normalization  group-differences  heteroscedasticity  independence  generalized-least-squares  lme4-nlme  references  mcmc  metropolis-hastings  optimization  r  logistic  feature-selection  separation  clustering  k-means  normal-distribution  gaussian-mixture  kullback-leibler  java  spark-mllib  data-visualization  categorical-data  barplot  hypothesis-testing  statistical-significance  chi-squared  type-i-and-ii-errors  pca  scikit-learn  conditional-expectation  statistical-significance  meta-analysis  intuition  r  time-series  multivariate-analysis  garch  machine-learning  classification  data-mining  missing-data  cart  regression  cross-validation  matrix-decomposition  categorical-data  repeated-measures  chi-squared  assumptions  contingency-tables  prediction  binary-data  trend  test-for-trend  matrix-inverse  anova  categorical-data  regression-coefficients  standard-error  r  distributions  exponential  interarrival-time  copula  log-likelihood  time-series  forecasting  prediction-interval  mean  standard-error  meta-analysis  meta-regression  network-meta-analysis  systematic-review  normal-distribution  multiple-regression  generalized-linear-model  poisson-distribution  poisson-regression  r  sas  cohens-kappa 

2
次元を削減するためのt-SNEのパラメーターを決定する方法は?
私は単語の埋め込みに非常に慣れていません。学習後のドキュメントの様子を視覚化したい。私はt-SNEがそれを行うためのアプローチであると読みました。埋め込みサイズとして250次元の100Kドキュメントがあります。同様に利用可能ないくつかのパッケージがあります。 ただし、t-SNEの場合、何回反復するか、アルファの値または永続性の値をよく学習するために維持する必要があるかわかりません。 これらのハイパーパラメータはありますか、それともいくつかの属性によって決定できますか?

3
最初の主成分はクラスを分離しませんが、他のPCは分離します。そんなことがあるものか?
インスタンスを2つのクラスに分類するための教師付き機械学習で使用される、より小さな変数のセット、つまり主成分を取得するために、17個の量的変数に対してPCAを実行しました。PCAの後、PC1はデータの分散の31%を占め、PC2は17%を占め、PC3は10%を占め、PC4は8%を占め、PC5は7%を占め、PC6は6%を占めます。 ただし、2つのクラス間のPCの平均の違いを見ると、驚いたことに、PC1は2つのクラスの優れた識別器ではありません。残りのPCは優れた弁別子です。さらに、PC1は、決定木で使用されると関係がなくなります。つまり、枝刈り後、PC1はツリーに存在しなくなります。ツリーはPC2-PC6で構成されています。 この現象の説明はありますか?派生変数に何か問題がありますか?

4
Pythonでの主成分分析と回帰
私はSASで行ったいくつかの作業をPythonで再現する方法を理解しようとしています。多重共線性が問題となるこのデータセットを使用して、Pythonで主成分分析を実行したいと思います。scikit-learnとstatsmodelsを確認しましたが、それらの出力を取得してSASと同じ結果構造に変換する方法がわかりません。1つには、SASを使用するPROC PRINCOMPと相関行列でPCAを実行するように見えますが、Pythonライブラリのほとんど(すべて?)はSVDを使用しているようです。 データセット、最初の列は、応答変数であり、次の5はpred1-pred5呼ばれる予測変数です。 SASでは、一般的なワークフローは次のとおりです。 /* Get the PCs */ proc princomp data=indata out=pcdata; var pred1 pred2 pred3 pred4 pred5; run; /* Standardize the response variable */ proc standard data=pcdata mean=0 std=1 out=pcdata2; var response; run; /* Compare some models */ proc reg data=pcdata2; Reg: model response = pred1 pred2 pred3 …


7
国の種類を特定するためのデータ削減手法
私は経済地理学の入門コースを教えています。生徒が現代の世界経済に見られる国の種類をよりよく理解し、データ削減手法を理解できるように、さまざまな国の類型を作成する課題を作成したいと思います(たとえば、高所得の高所得国付加価値製造の平均余命、高所得の天然資源輸出、中高寿命、ドイツが最初のタイプの要素、イエメンが2番目のタイプの例です)。これは、一般に入手可能なUNDPデータを使用します(これを正しく思い出せば、200か国未満の社会経済データが含まれています。申し訳ありませんが、地域データはありません)。 この割り当ての前に、これらに同じ変数間の相関関係を調べるように(同じ間隔(主に間隔または比率レベル)を使用して)要求する別の割り当てがあります。 私の希望は、彼らが最初に異なる変数間の種類の関係(たとえば、平均余命と富の[さまざまな指標]の間の正の関係、富と輸出の多様性の間の正の関係)について直感を養うことです。次に、データ削減手法を使用すると、コンポーネントまたは要素は直感的に理解できます(たとえば、要素/コンポーネント1は富の重要性を捉え、要素/コンポーネント2は教育の重要性を捉えます)。 これらは2年目から4年目の学生であり、より一般的に分析的思考への露出が限られていることが多いので、2番目の課題に最も適切な単一のデータ削減手法はどれですか。これらは人口データであるため、推論統計(p-vlauesなど)は実際には必要ありません。

3
線形判別分析(LDA)のスケーリング値を使用して、線形判別式に説明変数をプロットできますか?
主成分分析で得られた値のバイプロットを使用して、各主成分を構成する説明変数を調べることができます。 これは線形判別分析でも可能ですか? 提供されている例では、データは「エドガーアンダーソンのアイリスデータ」(http://en.wikipedia.org/wiki/Iris_flower_data_set)です。ここで、虹彩データ: id SLength SWidth PLength PWidth species 1 5.1 3.5 1.4 .2 setosa 2 4.9 3.0 1.4 .2 setosa 3 4.7 3.2 1.3 .2 setosa 4 4.6 3.1 1.5 .2 setosa 5 5.0 3.6 1.4 .2 setosa 6 5.4 3.9 1.7 .4 setosa 7 4.6 3.4 1.4 .3 …


1
RのキャレットパッケージでPCAを使用して前処理するときの主成分の数
のcaretパッケージRをバイナリSVM分類器のトレーニングに使用しています。機能を削減するためにpreProc=c("pca")、呼び出し時に組み込み機能を使用してPCAで前処理していtrain()ます。ここに私の質問があります: キャレットはどのように主成分を選択するのですか? 選択された主成分の数は決まっていますか? 主成分は、ある程度の説明された差異(80%など)によって選択されていますか? 分類に使用する主成分の数を設定するにはどうすればよいですか? (PCAは信頼できる予測推定を可能にするために外部相互検証の一部であるべきことを理解しています。)PCAは内部相互検証サイクル(パラメーター推定)にも実装する必要がありますか? キャレットは相互検証でPCAをどのように実装しますか?

1
PCAに関する質問:PCはいつ独立しますか?PCAがスケーリングに敏感なのはなぜですか?PCが直交するように制約されているのはなぜですか?
PCAのいくつかの説明を理解しようとしています(最初の2つはWikipediaからのものです)。 主成分が独立していることが保証されるのは、データセットが共同で正規分布している場合のみです。 主成分の独立性は非常に重要ですか?この説明をどのように理解できますか? PCAは、元の変数の相対的なスケーリングに敏感です。 「スケーリング」とはどういう意味ですか?異なる次元の正規化? 変換は、最初の主成分が可能な最大の分散を持ち、後続の各成分が先行する成分に直交するという制約の下で最大の分散を持つように定義されます。 この制約を説明できますか?

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.