統計とビッグデータ correspondence-analysis

6

連続データとカテゴリデータの両方を含むデータセットがあります。PCAを使用して分析していますが、分析の一部としてカテゴリ変数を含めることは問題ないでしょうか。私の理解では、PCAは連続変数にのみ適用できるということです。あれは正しいですか？カテゴリデータに使用できない場合、分析にはどのような選択肢がありますか？

147 categorical-data pca correspondence-analysis mixed-type-data

3

PCAはブール（バイナリ）データ型で機能しますか？

高次システムの次元数を減らし、できれば2次元または1次元のフィールドで共分散の大部分をキャプチャしたいと思います。これは主成分分析で行えることを理解しており、多くのシナリオでPCAを使用しています。ただし、ブールデータ型で使用したことがないため、このセットを使用してPCAを実行するのが意味があるかどうか疑問に思っていました。たとえば、定性的または記述的なメトリックを持っているふりをし、そのディメンションに対してそのメトリックが有効な場合は「1」を割り当て、そうでない場合は「0」を割り当てます（バイナリデータ）。たとえば、白雪姫の七人の小人を比較しようとしているふりをします。我々は持っています： Doc、Dopey、Bashful、Grumpy、Sneezy、Sleepy、Happy、そしてあなたはそれらを品質に基づいて整理したいのです。 ⎛⎝⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜D o cD O P E YB a s h fU LG r u m p ySN 、E 、E 、ZySL E E p yHa p p yL a c t o S E I N T O L E R A n t1011011A HO N O R R …

38 pca data-visualization binary-data dimensionality-reduction correspondence-analysis

1

Biplotとの関係におけるPCAおよびコレスポンデンス分析

Biplotは、主成分分析（および関連する手法）の結果を表示するためによく使用されます。コンポーネントの負荷とコンポーネントのスコアを同時に表示するデュアルまたはオーバーレイ散布図です。本日、@ amoebaから、バイプロット座標がどのように生成/スケーリングされるかを尋ねる質問に対する私のコメントから離れた答えを彼が与えたと通知されました。そして彼の答えは、いくつかの方法をある程度詳細に検討しています。@amoebaは、私の経験をbiplotと共有するかどうかを尋ねました。私の経験（理論と実験の両方）は、非常に控えめですが、それほど頻繁に認識されない2つのことを強調しています。（2）PCA、コレスポンデンス分析（およびその他の既知の手法）は、実際にはバイプロットの特定のケースです。または、少なくとも、彼らは双子の双子です。バイプロットを実行できる場合は、他の2つを実行できます。あなたへの私の質問は次のとおりです：彼ら（PCA、CA、Biplot）はあなたのためにどのように接続されていますか？あなたの考えを共有してください。私はそれについて自分のアカウントを投稿しています。さらに回答を追加し、重要な発言をお願いします。

38 pca multivariate-analysis svd correspondence-analysis biplot

1

PCA /コレスポンデンス分析の「馬蹄形効果」および/または「アーチ効果」とは何ですか？

多次元データの探索的データ分析のための生態学的統計には多くの手法があります。これらは「調整」技術と呼ばれます。多くは、統計の他の場所にある一般的な手法と同じか、密接に関連しています。おそらく、プロトタイプの例は主成分分析（PCA）です。エコロジストは、PCAおよび関連する手法を使用して「勾配」を探索する場合があります（勾配とは完全には明確ではありませんが、それについて少し読んでいます）。で、このページの下の最後の項目主成分分析（PCA）は、読み取ります。 PCAには、植生データにとって重大な問題があります。それは、馬蹄形効果です。これは、勾配に沿った種の分布の曲線性によって引き起こされます。種の応答曲線は通常、単峰性（つまり、非常に強い曲線）であるため、馬蹄形効果が一般的です。ページのさらに下の、コレスポンデンス分析または相互平均（RA）の下で、「アーチ効果」を参照します。 RAには問題があります：アーチ効果。また、勾配に沿った分布の非線形性によっても発生します。勾配の両端は入り組んでいないため、アーチはPCAの馬蹄形効果ほど深刻ではありません。誰かがこれを説明できますか？最近、この現象を低次元空間のデータを表すプロットで見ました（つまり、コレスポンデンス分析と因子分析）。「勾配」は、より一般的に（つまり、非生態学的な文脈で）何に対応しますか？これがデータで発生した場合、それは「問題」（「深刻な問題」）ですか？何のために？馬蹄/アーチが現れる出力をどのように解釈する必要がありますか？救済策を適用する必要がありますか？何？元のデータの変換は役立ちますか？データが序数評価の場合はどうなりますか？回答は、そのサイトの他のページに存在する場合があります（PCA、CA、およびDCAなど）。私はそれらを介して作業しようとしています。しかし、議論は十分になじみのない生態学的用語と例にまとめられており、問題を理解することはより困難です。

20 pca eda ecology correspondence-analysis

1

2Dコレスポンデンス分析プロットの解釈

私はインターネットを広く検索してきました... 2Dコレスポンデンス分析プロットを解釈する方法の本当に良い概要をまだ見つけていません。誰かがポイント間の距離を解釈する上でアドバイスを提供できますか？おそらく例が役立つでしょう。ここに、私が見た多くのウェブサイトで見つかった、コレスポンデンス分析についてのプロットがあります。赤い三角形は目の色を表し、黒い点は髪の色を表します。上記のグラフを見て、これらのデータに表示されるものについていくつかのステートメントを作成できますか。三角形とドットの異なる次元と関係についての関心のある点は？行ポイントと列ポイントの説明、および例に特に焦点を当てた「プロファイル」という言葉の使用は、役に立つでしょう。

19 interpretation correspondence-analysis biplot

1

R線形回帰のカテゴリ変数「非表示」の値

これは私が何度か遭遇した例にすぎないため、サンプルデータはありません。Rで線形回帰モデルを実行する： a.lm = lm(Y ~ x1 + x2) x1は連続変数です。x2カテゴリ型で、「低」、「中」、「高」の3つの値があります。ただし、Rによって与えられる出力は次のようになります。 summary(a.lm) Estimate Std. Error t value Pr(>|t|) (Intercept) 0.521 0.20 1.446 0.19 x1 -0.61 0.11 1.451 0.17 x2Low -0.78 0.22 -2.34 0.005 x2Medium -0.56 0.45 -2.34 0.005 私は、Rがそのような要因（要因x2であること）に何らかのダミーコーディングを導入していることを理解しています。私はただ疑問に思っていx2ます。「高」の値をどのように解釈しますか？たとえば、ここで示した例の「High」x2は応答変数にどのような影響を与えますか？これの例を他の場所（例：ここ）で見ましたが、理解できる説明は見つかりませんでした。

10 r regression categorical-data regression-coefficients categorical-encoding machine-learning random-forest anova spss r self-study bootstrap monte-carlo r multiple-regression partitioning neural-networks normalization machine-learning svm kernel-trick self-study survival cox-model repeated-measures survey likert correlation variance sampling meta-analysis anova independence sample assumptions bayesian covariance r regression time-series mathematical-statistics graphical-model machine-learning linear-model kernel-trick linear-algebra self-study moments function correlation spss probability confidence-interval sampling mean population r generalized-linear-model prediction offset data-visualization clustering sas cart binning sas logistic causality regression self-study standard-error r distributions r regression time-series multiple-regression python chi-squared independence sample clustering data-mining rapidminer probability stochastic-processes clustering binary-data dimensionality-reduction svd correspondence-analysis data-visualization excel c# hypothesis-testing econometrics survey rating composite regression least-squares mcmc markov-process kullback-leibler convergence predictive-models r regression anova confidence-interval survival cox-model hazard normal-distribution autoregressive mixed-model r mixed-model sas hypothesis-testing mediation interaction

1

変数を説明変数に分割するために使用する基準と、生態学の順序付け方法の応答は何ですか？

母集団内で相互作用するさまざまな変数があります。基本的に、私はヤスデのインベントリを作成し、次のような地形の他の値を測定しています。収集した標本の種類と量動物がいるさまざまな環境 pH 有機物の割合 P、K、Mg、Ca、Mn、Fe、Zn、Cuの量 Ca + Mg / K関係基本的に、PCAを使用して、サンプルの変動性を駆動し、フォレスト（環境）を異なるものにする変数を決定します。「変数」にはどの変数を使用し、「個人」にはどの変数を使用すればよいですか？

9 pca multivariate-analysis ecology correspondence-analysis

1

主成分分析と対応分析の使用

潮間帯群集に関するデータセットを分析しています。データは、四角形の（海藻、フジツボ、ムール貝などの）カバー率です。種数の観点からのコレスポンデンス分析（CA）と、線形環境（種ではない）傾向に役立つものとして主成分分析（PCA）を考えることに慣れています。PCAまたはCAがカバー率（紙を見つけることができない）に適しているかどうかを判断するのに実際に運がありませんでした。また、100％に制限されているものがどのように分配されるかさえわかりません？最初のトレンド除去対応分析（DCA）軸の長さが2を超える場合、CAを使用する必要があると安全に判断できるという大まかなガイドラインに精通しています。DCA軸1の長さは2.17でしたが、役に立ちませんでした。

9 r pca multivariate-analysis correspondence-analysis

1

離散データとPCAの代替

私は、昆虫の密接に関連するいくつかの種の形態学的翼の特徴を説明する離散（順序、メリット、および名目）変数のデータセットを持っています。私が期待しているのは、形態学的特徴に基づいて、さまざまな種の類似性を視覚的に示すような分析を行うことです。最初に頭に浮かんだのはPCA（これは私が作成しようとしている視覚化の種類です）ですが、それを調べた後（特に、次のような他の質問：主成分分析を連続の混合を含むデータセットに適用できますか？）とカテゴリ変数？）、PCAは離散データには不適切である可能性があります（PCAはこれらのタイプの研究で文献で使用されていますが、常に連続データを使用しています）。このデータが不適切である理由の統計的背景を無視すると、PCAは私の生物学的質問に関して比較的完璧な結果を私に与えます（興味のあるハイブリッドグループは父方のグループの真ん中にあります）。私はまた、統計を緩和するために複数のコレスポンデンス分析を試しました（少なくとも私の理解の限りでは）が、PCAで得られるプロットに似ているプロットを取得できないようです。異なるグループ（生物学的に言えば、異なる種）を示すために、色で区切られています。この分析は、個々の観察ではなく、変数（ここでは、私の形態学的特性）が互いにどのように関連しているかを説明することを目的としているようです。また、グループごとに色分けした観測をプロットすると、個人のセット全体を表す単一の値（おそらく平均）しか得られません。私はRで分析を行ったので、プロットについてのアイデアを機能させるのに十分なほどRに精通していないかもしれません。私のデータでこの種の分析を試すのは正しいですか、それとも私は順調ですか？わからない場合は、私の統計的な専門知識は限られているので、これらの分析の下で行われている方程式はすべて私の頭の中にあります。私はこの分析を完全に記述的に実行しようとしています（これ以上ダウンストリームの数値計算を行う必要はありません）。これが当てはまる場合は、PCAで十分ですが、確実に確認したいと思います。あまりにも多くの統計的仮定に違反しています。

9 pca discrete-data correspondence-analysis mixed-type-data

2

フランスのデータ分析とは？

いくつかの統計的手法-それが主成分分析なのか、そのようなものなのかは覚えていません-時々「フランスのデータ分析」と呼ばれます。正確には何ですか？そして、一部の人々は、この名前は皮肉であると言います、それは本当ですか、そしてなぜですか？

9 multivariate-analysis terminology correspondence-analysis

3

非常に小さいサンプルサイズの次元削減手法

私は21の社会経済的および態度のマクロレベルの変数を持っています（24歳から54歳の母親の就業していない割合、3歳から5歳の子供の保育園の割合など）。私はまた、集中的な保育を提供した祖父母の割合に関するデータも持っています。私が選択したほとんどの社会経済変数は、保育提供と高い相関があります（たとえば、パートタイムで雇用されている母親の割合と祖父母保育の提供の間には負の相関があります）。理想的には、さまざまな国の類型を作成したいと思います。私の希望は、コンポーネントや要素が直感的に理解できるようなある種の次元削減手法を使用することです（たとえば、家族や性別に対する態度、労働市場構造、家族政策）。または、代わりに、21のマクロレベルの指標のうちどれが国全体の保育規定の変動性を最もよく説明するかを評価します。私の主な問題は、ヨーロッパの国が12か国しかないことです。PCAと因子分析は、少数のケースで適切な手法ではないと思います。私は正しいですか？質的比較分析または多重対応分析の使用を試みるように言われましたが、私の理解では、後者の手法はバイナリ（またはカテゴリ）マクロレベルのインジケーターに適しています（マイニングはパーセンテージまたは連続変数です）。

8 pca factor-analysis dimensionality-reduction small-sample correspondence-analysis

タグ付けされた質問 「correspondence-analysis」

タグ付けされた質問「correspondence-analysis」