タグ付けされた質問 「reproducible-research」

公開された結果を他の場所で再現できるように、完全な実験的記述、収集されたデータ全体、およびすべてのデータ分析スクリプトを公開する研究実践。

1
なぜ多くの問題があるときにPCAを使用するのですか?
(これは簡単な質問です)最近、主成分分析を学んでいますが、多くの問題があるようです: PCAを適用する前に、データをほぼ同じスケールに変換する必要がありますが、機能スケーリングの実行方法は指定されていません。標準化?ユニット長へのスケーリング?対数変換?Box-Cox変換?私はそれらのすべてが何らかの方法で機能すると信じていますが、それらはさまざまな質問に答えます。そして、問題が与えられたときの変化を理解することは重要です。 PCAを実行するには、固有値と固有ベクトルを計算する必要がありますが、固有ベクトルの符号は不明です。一見すると、SVDは異なる実装間で同じ結果をもたらすため、優れたソリューションである可能性があります。しかし、私が理解しているように、SVDの結果は、任意の、しかし再現可能な固有ベクトルの選択にすぎません。 主成分は変数の線形結合ですが、意味がありますか?つまり、サルの体温は単位が異なるため、尾の長さの10倍にはできません。(単位といえば、どちらの単位系を使うべきかということは、私の最初のポイントの別の側面です) 主成分を解釈しようとするとき、番目の要素上の番目の主成分の負荷(係数)、またはそれらの相関を検査する必要がありますか?レンチャー(1992)は、係数のみを見ることを推奨していますが、私の知る限り、この問題についてコンセンサスはありません。iiiyiyiy_ijjjXjXjX_jcorr(yi,Xj)corr(yi,Xj)\text{corr}(y_i, X_j) 要約すると、PCAはプロセス全体に多数の主観性とバイアスを導入するため、私には非常に未熟に見える統計的(または間違いなく数学的)メソッドです。それにもかかわらず、それは依然として最も広く使用されている多変量分析法の1つです。それはなぜです?私が提起した問題を人々はどのように克服しますか?彼らも気づいていますか? 参照: レンチャー、AC「正準判別関数、正準変量および主成分の解釈」アメリカ統計学者、46(1992)、217–225。
弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.