統計とビッグデータ pca

2

最初の主成分と相関行列の平均相関との関係は何ですか？たとえば、経験的なアプリケーションでは、平均相関は、全分散（すべての固有値の合計）に対する最初の主成分（最初の固有値）の分散の比率とほぼ同じであることがわかります。数学的な関係はありますか？以下は、実験結果のグラフです。ここで、相関は、15日間のローリングウィンドウで計算されたDAX株価指数コンポーネントのリターンの平均相関であり、説明された分散は、同じく15日間のローリングウィンドウで計算された最初の主成分によって説明された分散のシェアです。これは、CAPMなどの一般的なリスク要因モデルで説明できますか？

9 correlation pca mathematical-statistics eigenvalues

1

観測されたイベントと期待されたイベントを比較する方法は？

4つの可能なイベントの頻度の1つのサンプルがあるとします。 Event1 - 5 E2 - 1 E3 - 0 E4 - 12 そして、私は自分のイベントの発生が予想される確率を持っています： p1 - 0.2 p2 - 0.1 p3 - 0.1 p4 - 0.6 4つのイベントの観測頻度の合計（18）を使用して、イベントの予想頻度を計算できますか？ expectedE1 - 18 * 0.2 = 3.6 expectedE2 - 18 * 0.1 = 1.8 expectedE1 - 18 * 0.1 = 1.8 expectedE1 - …

9 r statistical-significance chi-squared multivariate-analysis exponential joint-distribution statistical-significance self-study standard-deviation probability normal-distribution spss interpretation assumptions cox-model reporting cox-model statistical-significance reliability method-comparison classification boosting ensemble adaboost confidence-interval cross-validation prediction prediction-interval regression machine-learning svm regularization regression sampling survey probit matlab feature-selection information-theory mutual-information time-series forecasting simulation classification boosting ensemble adaboost normal-distribution multivariate-analysis covariance gini clustering text-mining distance-functions information-retrieval similarities regression logistic stata group-differences r anova confidence-interval repeated-measures r logistic lme4-nlme inference fiducial kalman-filter classification discriminant-analysis linear-algebra computing statistical-significance time-series panel-data missing-data uncertainty probability multivariate-analysis r classification spss k-means discriminant-analysis poisson-distribution average r random-forest importance probability conditional-probability distributions standard-deviation time-series machine-learning online forecasting r pca dataset data-visualization bayes distributions mathematical-statistics degrees-of-freedom

1

PCAとLSA / LSIの比較

質問： PCAとLSA / LSIのどちらを適用するかを決定するために使用できる、入力データの特性に関する一般的なガイドラインはありますか？ PCAとLSA / LSIの概要：主成分分析（PCA）と潜在的意味分析（LSA）または潜在的意味索引付け（LSI）は、すべてが基本的に特異値分解（SVD）をマトリックスに適用することに依存しているという意味で類似しています。 LSAとLSIは、私の知る限り、同じものです。LSAはPCAと基本的に異なりませんが、SVDを適用する前にマトリックスエントリを前処理する方法が異なります。 LSAの前処理ステップでは、通常、列が「ドキュメント」に対応し、行が何らかの種類の単語に対応するカウントマトリックスを正規化します。エントリは、ある種の（正規化された）文書の単語出現回数と考えることができます。 PCAでは、前処理ステップでは、元の行列から共分散行列を計算します。元のマトリックスは、概念的にはLSAの場合よりも本質的に「一般的」です。PCAが関係する場合、列は通常、一般的なサンプルベクトルを指すと言われ、行は測定される個々の変数を指すと言われます。共分散行列は定義により正方対称であり、共分散行列は対角化によって分解できるため、実際にはSVDを適用する必要はありません。特に、PCAマトリックスはLSA / LSIバリアントよりもほぼ確実に密度が高くなります。ゼロエントリは、変数間の共分散がゼロの場合、つまり変数が独立している場合にのみ発生します。最後に、2つを区別するためにかなり頻繁に行われるもう1つの説明的なポイントは、 LSAはフロベニウスノルムで最高の線形部分空間を求め、PCAは最高のアフィン線形部分空間を目指します。いずれにせよ、これらの手法の違いと類似性はインターネット全体のさまざまなフォーラムで激しく議論されており、明らかにいくつかの顕著な違いがあり、明らかにこれらの2つの手法は異なる結果を生み出します。したがって、私の質問を繰り返します。PCAとLSA / LSIのどちらを適用するかを決定するために使用できる、入力データの特性に関する一般的なガイドラインはありますか？用語ドキュメントマトリックスに似たものがある場合、LSA / LSIが常に最良の選択になりますか？LSA / LSIの用語/ドキュメントマトリックスを準備して、SVDを直接適用するのではなく、PCAを結果に適用することで、より良い結果が得られると期待できますか？

9 machine-learning pca lsa

1

次元削減/多次元スケーリングの結果を解釈するにはどうすればよいですか？

データの構造をよりよく理解するために、6次元データマトリックスのSVD分解と多次元スケーリングの両方を実行しました。残念ながら、すべての特異値は同じ次数であり、データの次元は確かに6であることを意味します。しかし、特異ベクトルの値を解釈できるようにしたいと思います。たとえば、最初のものは各次元でほぼ等しいように見え（つまり(1,1,1,1,1,1)）、2番目のものも興味深い構造（のようなもの(1,-1,1,-1,-1,1)）を持っています。これらのベクトルをどのように解釈できますか？この件に関するいくつかの文献を教えていただけませんか？

9 pca interpretation dimensionality-reduction svd

2

機能の選択にカーネルPCAを使用することは可能ですか？

PCAが使用されるのと同じ方法で、潜在的セマンティックインデックス（LSI）にカーネル主成分分析（kPCA）を使用することは可能ですか？ prcompPCA関数を使用してRでLSIを実行し、最初のコンポーネントから最も負荷の高い機能を抽出します。これにより、コンポーネントを最もよく表す機能が得られます。kkk kpca（kernlibパッケージから）関数を使用しようとしましたが、主成分の機能の重みにアクセスする方法がわかりません。カーネルメソッドを使用する場合、これは全体的に可能ですか？

9 r pca feature-selection kernel-trick

2

さまざまなタイプのイベント間の関係（2D位置によって定義される）を見つける方法は？

同じ期間に発生したイベントのデータセットがあります。各イベントにはタイプ（10未満の異なるタイプがいくつかあります）と場所があり、2Dポイントとして表されます。イベントの種類や種類と場所の間に相関関係がないか確認したい。たとえば、タイプAのイベントは通常、タイプBのイベントが発生する場所では発生しない可能性があります。あるいは、ある地域では、タイプCのイベントがほとんどあります。これを実行するためにどのようなツールを使用できますか？統計分析の初心者である私の最初のアイデアは、このデータセットに対して何らかの種類のPCA（主成分分析）を使用して、各タイプのイベントが独自のコンポーネントを持っているか、または一部が同じコンポーネントを共有しているか（つまり、相関していたか）を確認することでした。私のデータセットは約500'000ポイントであるため、処理が少し難しくなります。（x 、y、t yp e ）(x,y,type)(x, y, type) 編集：以下の回答とコメントに記載されているように、このワークショップレポートで詳細に説明されているように、これをマークポイントプロセスとしてモデル化し、Rを使用してすべての重い作業を実行する方法です：http：/ /www.csiro.edu.au/resources/Spatial-Point-Patterns-in-R.html

9 correlation pca multivariate-analysis point-process

3

PCA後の斜めローテーションの使用について

SAS、SPSS、Rなどのいくつかの統計パッケージでは、PCAの後にある種の因子ローテーションを実行できます。 PCAの後にローテーションが必要なのはなぜですか？ PCAの目的が直交次元を生成することであるとすると、PCAの後に斜め回転を適用するのはなぜですか？

9 pca factor-analysis factor-rotation

2

複数の「ヒストグラム」（棒グラフ）の視覚化

データを視覚化する正しい方法を選択するのが困難です。我々は持っていると言う書店販売している本を、そしてすべての本は、少なくとも一つの持っているカテゴリを。書店の場合、本のすべてのカテゴリーをカウントすると、その書店の特定のカテゴリーに該当する本の数を示すヒストグラムが取得されます。書店の動作を視覚化したいのですが、他のカテゴリよりもカテゴリを好むかどうかを確認したいと思います。彼らがまとめてSFを支持しているかどうかは知りたくありませんが、すべてのカテゴリを平等に扱っているかどうかは知りたいです。約100万冊の書店があります。私は4つの方法を考えました：データをサンプリングし、500の書店のヒストグラムのみを表示します。10x10グリッドを使用して、5つの個別のページに表示します。4x4グリッドの例：＃1と同じ。ただし、今回はカウントdescに従ってx軸の値を並べ替えます。したがって、好意がある場合は簡単に確認できます。＃2のヒストグラムをデッキのようにまとめて3Dで表示することを想像してみてください。このようなもの：色を表すために3番目の軸を使用して色を表現する代わりに、ヒートマップ（2Dヒストグラム）を使用します。複数のヒストグラムを表す他の視覚化のアイデア/ツールはありますか？

9 pca data-visualization histogram barplot

1

CCAを実行するか、PCAで従属変数を作成してから回帰を実行するか

2つの多次元データセットとYが与えられると、主成分分析（PCA）を使用して代理従属変数を作成することにより、多変数分析を実行する人がいます。すなわち、上の実行PCAであるYの第一の構成要素に沿って得点を取り、セットY '、および上にそれらのスコアの重回帰を実行X：Y ' = β X + ε。（私はこの記事を基に質問をしています）。バツバツXYYYYYYy』y』y'バツバツXy』= βバツ+ ϵy』=βバツ+εy' = \beta X+\epsilon 私には、2つのデータセット間の正規相関分析（CCA）の偽装された形式のように見えます。しかし、この領域に背景がないため、指を置くことができません。だから私の質問は、CCAと比較して、PCA +回帰分析の長所/短所は何でしょうか？直感は、CCAはここでより合理的である必要があると言います。なぜなら、説明された分散を盲目的に最大化するのではなく、との相関を最大化するという最終的な目的を念頭に置いて、正規変量を構築するからです。私は正しいですか？バツバツX 参照：Mei et al。、2010、メタボリックシンドロームコンポーネントの遺伝的関連研究のための主成分ベースの多変量回帰

9 regression multiple-regression pca canonical-correlation

3

ニューラルネットワークベースの分類では次元削減が必要ですか？

ニューラルネットワークベースの分類子を使用して、データの分類をn次元で実行しています。次に、最初にデータに対してPCAのような次元削減を実行し、PCAの結果を分類子に入れる（3つのPCを保持する）のは良い考えだと思いました。ただし、次元が削減されたフィーチャの分類は、元の高次元のフィーチャを直接使用するほどよくありません。次に、この投稿NNをDR1として見つけ、ニューラルネットワークを次元削減方法として説明しました。また、混乱しているDR2として、このペーパーNNにいくつかの情報があります。ニューラルネットワークベースの分類（Matlab）を使用する場合、自動的に次元削減が行われますか？ニューラルネットワーク分類を実行する前に、PCAのような次元削減を実行する必要がありますか？ PCAの結果の分類が、元の高次元の特徴を使用するほど良くない理由は他にありますか？

9 pca neural-networks

3

GLMで予測子として主成分を使用する方法は？

PCAがGLMの変数選択に使用されていると仮定すると、一般化線形モデル（GLM）で主成分分析（PCA）の出力をどのように使用しますか？明確化： GLMで相関変数を使用しないようにPCAを使用したいと思います。ただし、PCAを.2*variable1+.5*variable3使用すると、変数1と3をGLMに入力するのに慣れています。PCAは線形結合を提供するので、たとえば、それを新しい変数としてGLMに入れますか（変数1と3による応答の系統的変動を考慮するため）？

9 pca generalized-linear-model feature-selection

2

PCAの最初の固有ベクトルが、基になるトレンドの導関数に似ているのはなぜですか？

PCAを使用して空間的に関連するいくつかの時系列を分析しています。最初の固有ベクトルは系列の平均トレンドの導関数に対応しているようです（以下の例を参照）。なぜ最初の固有ベクトルがトレンド自体ではなくトレンドの導関数に関連しているのか知りたいのですが。データは行列に配置され、行は各空間エンティティの時系列であり、列（およびPCAの次元）は年です（つまり、以下の例では、7年ごとに10の時系列）。PCAの前に、データも平均中心です。 Stanimirovic et al。、2007も同じ結論に達しましたが、それらの説明は、線形代数についての私の理解を少し超えています。 [更新]- 提案どおりにデータを追加します。 [Update2]-回答済み。結果をプロットするときに、コードが固有ベクトル行列の転置を誤って使用していることを発見しました（excel_walkthrough）（ありがとう@amoeba）。この特定のセットアップで転置固有ベクトル/微分関係が存在するのは単なる偶然のようです。この投稿で数学的かつ直観的に説明されているように、最初の固有ベクトルは、実際には、その派生物ではなく、基になるトレンドに関連しています。

8 time-series pca spatial eigenvalues

2

部分空間への正射影後のデータ行列のSVD

いくつかの行列 SVDを知ることができるとしましょう：X = U S V TバツXXバツ= USVTX=USVTX = USV^T 直交行列がある場合（つまり、Aは正方であり、正規直交列がある場合）、X Aの SVD はあAAあAAバツあXAXA ここで、 W = A T Vです。バツA = USWTXA=USWTXA = USW^TW= ATVW=ATVW = A^TV しかし、Bに正規直交列があるが必ずしも正方形ではない場合、のSVDについて何か言えるでしょうか。言い換えれば、X BのSVD がX B = D E F Tである場合、行列D、E、またはFは、XおよびBの SVDに関して記述できますか？バツBXBXBBBBバツBXBXBバツB = D EFTXB=DEFTXB = DEF^TDDDEEEFFFバツXXBBB 更新： @whuberは、Bが正方形になるまで正規直交列を追加することで、を直交に拡張できることを示唆しています。この直交行列コール〜Bを。BBBBBBB〜B~\tilde B B〜= [ B ; B⊥]B~=[B;B⊥] …

8 pca svd matrix-decomposition

1

なぜ確率的PCAは潜在変数よりガウス事前分布を使用するのですか？

現在、確率的PCAに関する論文を読んでいますが、潜在変数にガウスの事前（他の事前ではなく）が選ばれるのはなぜですか？それは単純な理由だけですか、それとも別の理由がありますか？参照： Tipping＆Bishop、1999年、確率論的主成分分析 -eq。（2） Tipping＆Bishop、1999、Mixtures of Probabilistic Principal Component Analyzers -eq。（4）

8 normal-distribution pca prior latent-variable

1

因子分析でどのマトリックスを解釈する必要がありますか：パターンマトリックスまたは構造マトリックス？

因子分析（たとえば、主軸因数分解による）または主成分分析を因子分析として実行し、負荷の斜め回転を実行した場合、どの行列がどの要素にどのアイテムを負荷するかを理解するために、どの行列を使用するかそして、要因を解釈するために- パターン行列または構造行列？本を読んだところ、ほとんどの研究者はパターンマトリックスを使用することが多いので、分析しやすいためですが、著者は構造マトリックスの結果と結果を再確認することを提案しました。ただし、私の場合、これら2つのテーブルには多くの違いがあり、因子を指定してラベルを付けるためにどのテーブルを使用するかわかりません。

8 pca interpretation factor-analysis rotation

タグ付けされた質問 「pca」

タグ付けされた質問「pca」