ビッグデータ分析プロジェクトの一環として、
クラウドコンピューティングシステムを使用して、一部のデータに対してPCAを実行する必要があります。
私の場合、私は仕事、特にSparkにAmazon EMRを使用しています。
「How to-Perform-PCA-in-Spark」の質問はさておき、クラウドベースのアーキテクチャでPCを計算する場合、舞台裏で物事がどのように機能するかを理解したいと思います。
たとえば、データのPCを決定する手段の1つは、特徴の共分散行列を計算することです。
たとえば、HDFSベースのアーキテクチャを使用している場合、元のデータは複数のノードに分散されており、各ノードがXレコードを受信していると思います。
次に、各ノードに部分的なデータしかない場合、共分散行列はどのように計算されますか?
これは単なる例です。私は、このすべての舞台裏のブードゥー教を説明する紙やドキュメントを探していますが、自分のニーズ(おそらく、Googleのスキルが低い)に対して十分なものを見つけることができませんでした。
だから私は基本的に私の質問を要約することができます\は以下でなければなりません:
1.クラウドアーキテクチャ上の分散型PCAの仕組み
できれば、いくつかの学術論文またはその他の種類の説明も含みます。
2. D-PCAのSpark実装
Sparkはそれをどのように行うのですか?彼らはそれをより効率的にするために彼らのアーキテクチャに「ひねり」を持っていますか、またはRDDオブジェクトの使用はどのように効率の改善に貢献していますか?等
それに関するオンラインレッスンのプレゼンテーションも素晴らしいでしょう。
いくつかの読書資料を提供できる人には、事前に感謝します。
xBar, yBar
が、正確には何の略ですか?また、あなたが使用した式は私には不慣れです(多分私はそれを間違って読んでいます)。ここで説明するように、私は、共分散の計算をよりよく知っている:onlinecourses.science.psu.edu/stat414/node/109