タグ付けされた質問 「pca」

主成分分析(PCA)は、線形次元削減手法です。これは、多変量データセットを、できるだけ多くの情報(できるだけ多くの分散)を維持する、構築された変数のより小さなセットに削減します。主成分と呼ばれるこれらの変数は、入力変数の線形結合です。

3
PCAを行う前に、他の標準化因子ではなく標準偏差で割るのはなぜですか?
生データをその標準偏差で除算する理由について、次の正当化(cs229コースノートから)を読みました。 説明が言っていることは理解できますが、なぜ標準偏差で割るとそのような目標が達成されるのかはわかりません。誰もが同じ「スケール」にいるようにそれは言います。ただし、標準偏差で除算することでそれが達成される理由は完全には明らかではありません。同様に、分散で割ると何が悪いのでしょうか?なぜ他の数量ではないのですか?のような...絶対値の合計?または他の標準... STDを選択するための数学的な正当化はありますか? この抽出物の主張は、数学(および/または統計)を通じて導き出される/証明できる理論的な声明なのか、それとも「実践」で機能するように見えるために私たちが行う声明の1つですか? 基本的に、その直観が真実である理由の厳密な数学的説明のいずれかを提供できますか?または、それが単なる経験的な観察である場合、なぜPCAを行う前にそれが一般に機能すると考えるのですか? また、PCAのコンテキストでは、これは標準化または正規化のプロセスですか? 私が持っていたいくつかの他の考えは、STDがなぜ「説明」するかもしれない: 1n∑ni = 1(x私- μ )p1n∑i=1n(xi−μ)p\frac{1}{n} \sum^{n}_{i=1} (x_i -\mu)^p おそらく関連する質問があることがわかりました。 相関または共分散に関するPCA? しかし、「相関」または「共分散」をいつ使用するかについてはもっと話しているように見えましたが、厳密または説得力のある、または詳細な正当化が欠けていました。 同じ: 分析前にデータを正規化する必要がある理由 関連: SVD / PCAの変数の「正規化」

2
加重主成分分析
いくつかの検索の後、主成分分析に観測値の重み/測定誤差を組み込むことはほとんどありません。私が見つけたものは、重み付けを含めるために反復アプローチに依存する傾向があります(たとえば、ここ)。私の質問は、なぜこのアプローチが必要なのですか?なぜ重み付き共分散行列の固有ベクトルを使用できないのですか?


1
特異値分解(SVD)を計算するための効率的なアルゴリズムとは何ですか?
主成分分析に関するウィキペディアの記事には、 マトリックスX T Xを形成することなくのSVDを計算する効率的なアルゴリズムが存在するため、SVDの計算は、少数のコンポーネントのみが必要な場合を除き、データマトリックスから主成分分析を計算する標準的な方法になりました。XXXXTXXTXX^TX 誰かがこの記事で話している効率的なアルゴリズムを教えてもらえますか?参照はありません(この計算方法を提案している記事へのURLまたは引用は良いでしょう)。
17 pca  algorithms  svd  numerics 

1
堅牢な方法は本当に優れていますか?
私は2つのグループの被験者AとBを持ち、それぞれ約400のサイズと約300の予測変数を持っています。私の目標は、バイナリ応答変数の予測モデルを構築することです。私の顧客は、AからBに構築されたモデルを適用した結果を見たいと思っています(彼の本、「回帰モデリング戦略」で、@ FrankHarrellは、2つのデータセットを組み合わせて、パワーと精度--- 90ページ、外部検証を参照してください。私が持っているデータの種類を収集するのは非常に費用と時間がかかることを考えると、私は彼に同意する傾向があります。 。)私の予測子の多くは、非常に相関があり、非常に歪んでいます。ロジスティック回帰を使用して、予測モデルを構築しています。 私の予測子は主に力学から来ています。たとえば、対象がおよびさまざまな値に対して期間しきい値よりも高いストレス下にあった合計時間。それらの定義から、これらの合計時間の多くが互いに代数的に関連していることは明らかです。代数的に関連していない予測因子の多くは、それらの性質のために関連している:期間中に高応力下にある科目期間中に高応力下になる傾向がありも、αα\alpha[t1,t2][t1,t2][t_1, t_2]α&gt;0α&gt;0\alpha > 00≤t1&lt;t20≤t1&lt;t20 \leq t_1 < t_2[t1,t2][t1,t2][t_1, t_2][t3,t4][t3,t4][t_3,t_4][t1,t2]∩[t3,t4]=∅[t1,t2]∩[t3,t4]=∅[t_1,t_2] \cap [t_3,t_4] = \emptyset。データの次元を削減するために、関連する予測変数をクラスター化し(たとえば、すべての合計ストレス時間を一緒に)、主成分分析を使用して各クラスターを表しました。変数が歪んでいるため、2つの代替パスを試しました。 PCAを実行する前に、変数のスキューを減らすために対数変換を使用しました。 Rのパッケージrrcov(PcaHubert)で実装されているMia HubertのROBPCAアルゴリズムを使用して、堅牢な主成分を見つけました。 ROC曲線の全体形状、精密リコール曲線の形状、およびROC曲線下面積(AUC)をパフォーマンス測定として使用していますが、データセットAとBの両方で同様の結果を取得したいです。堅牢な主成分を使用することでより良い結果が得られると期待していましたが、驚いたことに、最初の方法の方が優れていました。曲線。 これの説明は何ですか?そして、データを通常のように見せようとする代わりに、堅牢な主成分をどのように使用できますか?ROBPCAの代わりに推奨する特定の堅牢なPCAメソッドはありますか?

4
SVD / PCAの変数の「正規化」
我々が持っていると仮定測定可能な変数、、我々は数やる、測定のをしてから実行したい特異値分解をするために最高の分散の軸を見つけるために、結果にポイント次元空間。(注:の平均はすでに減算されていると仮定しているため、すべてのについてです。)(1、2、... 、N)M &gt; N M N A I ⟨ A I ⟩ = 0 INNN(a1,a2,…,aN)(a1,a2,…,aN)(a_1, a_2, \ldots, a_N)M&gt;NM&gt;NM > NMMMNNNaiaia_i⟨ai⟩=0⟨ai⟩=0\langle a_i \rangle = 0iii ここで、変数の1つ(またはそれ以上)が、他と大きく異なる特性の大きさを持っていると仮定します。たとえば、値はの範囲で、残りはです。これにより、分散が最も大きい軸がの軸に向かって大きくます。 10 − 100 0.1 − 1 a 1a1a1a_110−10010−10010-1000.1−10.1−10.1-1a1a1a_1 大きさの違いは、測定単位の不幸な選択のためかもしれません(たとえば、物理データ、たとえばキロメートルとメートルの場合)が、実際には異なる変数はまったく異なる次元(たとえば、重量と体積)を持っている可能性があります。それらに「同等の」ユニットを選択する明白な方法はないかもしれません。 質問: この問題を回避するためにデータを正規化する標準/一般的な方法が存在するかどうかを知りたいです。私は、何か新しいものをよりも、この目的のために匹敵する大きさを生成する標準的な手法にもっと興味を持っています。a1−aNa1−aNa_1 - a_N 編集: 1つの可能性は、各変数をその標準偏差または同様のもので正規化することです。ただし、次の問題が発生します。データを次元空間の点群として解釈してみましょう。この点群は回転させることができ、このタイプの正規化は、回転に応じて(SVD後の)最終結果が異なります。(例えば、最も極端な場合、データを正確に回転させて主軸を主軸に合わせると想像してください。)NNN これを行うための回転不変の方法はないだろうと期待していますが、特に結果の解釈の警告に関して、誰かがこの問題についての文献の議論を指摘してくれれば幸いです。

3
主成分分析の「後方」:データの分散は、変数の与えられた線形結合によってどの程度説明されますか?
6つの変数、、、、、主成分分析を実行しました。正しく理解すれば、回転していないPC1はこれらの変数の線形結合がデータの最大の分散を説明/説明し、PC2はこれらの変数の線形結合がデータの次に大きな分散を説明するなどを教えてくれます。AAABBBCCCDDDEEEFFF 私はちょうど興味があります-この「後方」を行う方法はありますか?これらの変数の線形結合を選択するとしましょう。たとえば、場合、これが記述するデータの分散を計算できますか?A+2B+5CA+2B+5CA+2B+5C

2
主成分分析を実行する前にデータをログ変換するのはなぜですか?
ここのチュートリアルに従っている:http : //www.r-bloggers.com/computing-and-visualizing-pca-in-r/ PCAの理解を深めるために。 このチュートリアルでは、Irisデータセットを使用し、PCAの前にログ変換を適用します。 次のコードでは、[1]で示唆されているように連続変数に対数変換を適用し、PCAの適用前に変数を標準化するための呼び出しでset centerand scaleequal to TRUEに注意してくださいprcomp。 Irisデータセットの最初の4列で最初にlog関数を使用する理由を説明してください。データを相対的にすることと関係があることは理解していますが、ログ、センター、スケールの正確な機能は混乱しています。 上記の参考文献[1]は、VenablesおよびRipley、ModernがS-PLUSで統計を適用した、セクション11.1で簡単に述べています。 データは物理的な測定値であるため、適切な初期戦略は対数スケールで作業することです。これは全体にわたって行われました。

1
多変量ガウスデータのPCAコンポーネントは統計的に独立していますか?
データが多変量正規分布している場合、PCAコンポーネント(主成分分析)は統計的に独立していますか?もしそうなら、どのようにこれを実証/証明できますか? 私が尋ねたのは、この投稿を見たので、トップの答えは次のとおりです: PCAは、明示的なガウス性の仮定を行いません。データで説明された分散を最大化する固有ベクトルを見つけます。主成分の直交性は、データの可能な限り多くの変動を説明するために最も相関のない成分を見つけることを意味します。多変量ガウス分布の場合、成分間のゼロ相関は独立性を意味し、ほとんどの分布には当てはまりません。 答えは証拠なしに述べられており、データが多変量正規である場合、PCAが独立したコンポーネントを生成することを暗示しているようです。 具体的には、データが次のサンプルであるとします。 x∼N(μ,Σ)x∼N(μ,Σ)\mathbf{x} \sim \mathcal N(\mathbf{\mu}, \mathbf{\Sigma}) 我々は置くのサンプルサンプルの我々の行列の行にので、ある。のSVDの計算(センタリング後)nnnxx\mathbf{x}XX\mathbf{X}XX\mathbf{X}n×mn×mn \times mXX\mathbf{X} X=USVTX=USVT\mathbf{X} = \mathbf{USV}^{T} の列は統計的に独立しており、行も統計的に独立していると言えますか?これは一般に、に当てはまるのですか、それともまったく当てはまりませんか?UU\mathbf{U}VTVT\mathbf{V}^Tx∼N(μ,Σ)x∼N(μ,Σ)\mathbf{x} \sim \mathcal N(\mathbf{\mu}, \mathbf{\Sigma})
16 pca  independence  svd 

2
マップでの空間的および時間的相関の表示
私は全米の気象観測所のネットワークのデータを持っています。これにより、日付、緯度、経度、測定値を含むデータフレームが表示されます。データは1日に1回収集され、地域規模の天候によって駆動されると仮定します(いいえ、その議論に入るつもりはありません)。 同時に測定された値が時間と空間にわたってどのように相関するかをグラフィカルに示したいと思います。私の目標は、調査されている価値の地域的な均質性(またはその欠如)を示すことです。 データセット まず、マサチューセッツ州とメイン州の地域にあるステーションのグループに参加しました。NOAAのFTPサイトで利用可能なインデックスファイルから緯度と経度でサイトを選択しました。 すぐに1つの問題が表示されます。同じような識別子を持つサイトや非常に近いサイトがたくさんあります。FWIW、私はUSAFとWBANコードの両方を使用してそれらを識別します。メタデータを詳しく見ると、座標と標高が異なり、データはあるサイトで停止してから別のサイトで開始することがわかりました。それで、私はそれ以上良く分からないので、それらを別々のステーションとして扱わなければなりません。これは、データが互いに非常に近いステーションのペアを含むことを意味します。 予備分析 暦月ごとにデータをグループ化して、異なるデータのペア間の通常の最小二乗回帰を計算してみました。次に、すべてのペア間の相関を、ステーションを結ぶ線としてプロットします(下図)。線の色は、OLS近似からのR2の値を示しています。図は、1月、2月などからの30以上のデータポイントが、対象エリアの異なるステーション間でどのように相関しているかを示しています。 6時間ごとにデータポイントがある場合にのみ1日の平均が計算されるように基礎となるコードを記述したため、データはサイト間で比較可能である必要があります。 問題点 残念ながら、1つのプロットで意味をなさないデータが多すぎます。行のサイズを小さくしても修正できません。 領域内の最近傍間の相関をプロットしようとしましたが、それはすぐに混乱に変わります。以下のファセットは、ステーションのサブセットから最近傍を使用して、相関値のないネットワークを示しています。この図は、概念をテストするためのものです。 kkk ネットワークは複雑すぎるように見えるので、複雑さを軽減する方法、または何らかの空間カーネルを適用する方法を見つける必要があると思います。 また、相関を示すのに最も適切なメトリックが何であるかはわかりませんが、意図した(非技術的な)対象者にとっては、OLSからの相関係数が最も簡単に説明できるかもしれません。勾配や標準誤差などの他の情報も提示する必要がある場合があります。 ご質問 私はこの分野とRへの道を同時に学んでいます。 私がやろうとしていることの正式な名前は何ですか?より多くの文献を見つけることができる役立つ用語はありますか?私の検索は、一般的なアプリケーションでなければならないもののために空白を描いています。 スペースで区切られた複数のデータセット間の相関を示すより適切な方法はありますか? ...特に、視覚的に結果を簡単に表示できる方法はありますか? これらのいずれかがRに実装されていますか? これらのアプローチのいずれかが自動化に役立ちますか?

2
次元削減とクラスタリングを組み合わせるのはいつですか?
ドキュメントレベルのクラスタリングを実行しようとしています。用語ドキュメント頻度行列を作成し、k-meansを使用してこれらの高次元ベクトルをクラスタリングしようとしています。直接クラスタリングの代わりに、最初にLSA(潜在意味解析)特異ベクトル分解を適用してU、S、Vt行列を取得し、スクリープロットを使用して適切なしきい値を選択し、縮小行列(特にVtそれは私に良い結果を与えているように思えた概念ドキュメント情報を提供します)。 SVD(特異ベクトル分解)はクラスタリング(コサイン類似性尺度などを使用)であり、SVDの出力にk-meansを適用できるかどうかわからないと言う人もいます。SVDは次元削減手法であり、多数の新しいベクトルを提供するため、論理的に正しいと考えました。一方、k-meansはクラスターの数を入力として受け取り、これらのベクトルを指定された数のクラスターに分割します。この手順に欠陥はありますか、これを改善できる方法はありますか?助言がありますか?

2
アンケートの信頼性の評価:次元、問題のある項目、およびalpha、lambda6またはその他のインデックスを使用するかどうか?
実験に参加している参加者のスコアを分析しています。製品に対する参加者の態度を推定することを目的とした6つの項目で構成されるアンケートの信頼性を推定したいと思います。 Cronbachのアルファを計算し、すべてのアイテムを単一のスケールとして扱い(アルファは約0.6)、一度に1つのアイテムを削除しました(最大アルファは約0.72)。アイテムの数と基礎となる構造の次元によっては、アルファが過小評価および過大評価される可能性があることを知っています。それで、PCAも行いました。この分析により、分散の約80%を説明する3つの主成分があることが明らかになりました。だから、私の質問は、今どのように進めることができるかについてのすべてですか? これらの各次元でアルファ計算を実行する必要がありますか? 信頼性に影響するアイテムを削除しましたか? さらに、Webで検索すると、信頼性の別の尺度があることがわかりました。guttmanのlambda6です。 このメジャーとアルファの主な違いは何ですか? ラムダの良い値は何ですか?

3
PCAスコアの解釈
誰かがPCAスコアの解釈に役立つことができますか?私のデータは、クマに対する態度に関するアンケートから得たものです。積載量によると、私は主成分の1つを「熊の恐怖」と解釈しました。その主成分のスコアは、各回答者がその主成分までどのように測定するかに関連していますか?
16 pca 

1
部分最小二乗、縮退ランク回帰、主成分回帰の関係は何ですか?
ランクの低下回帰と主成分回帰は、部分最小二乗の特別な場合にすぎませんか? このチュートリアル(6ページの「目的の比較」)では、XまたはYを投影せずに部分最小二乗(つまり「部分的ではない」)を行うと、ランク回帰または主成分回帰に対応するようになると述べています。 このSASドキュメントページのセクション「ランクの回帰の削減」および「メソッド間の関係」で同様の記述が行われています。 より基本的なフォローアップの質問は、それらが同様の基礎となる確率モデルを持っているかどうかです。

2
RのキャレットパッケージでのPCAおよびk分割交差検証
Courseraの機械学習コースの講義を再視聴しました。教授が教師あり学習アプリケーションでデータを前処理するためのPCAについて説明しているセクションでは、PCAはトレーニングデータに対してのみ実行し、マッピングを使用して相互検証とテストセットを変換します。PCAおよびtrain / test splitも参照してください。 ただし、caretRパッケージでは、train()関数に渡すトレーニングデータは既にPCAによって処理されています。そうする際、アルゴリズムが実行クロスバリデーションをK倍クロスバリデーションセットが既に介してPCAを用いて処理されているpreProcess()とpredict()「フィッティング」と実際にPCAに使用されます。 状況に対する私の理解は正しいですか?つまり、データの前処理がトレーニングセットと同様にクロス検証セットで実行されるため、PCA(または実際には、任意の再スケーリング/センタリング方法)でのクロス検証のキャレットの手順は「間違っています」か?もしそうなら、これは結果にどれほど大きな影響を与えるでしょうか?

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.