非常に小さいサンプルサイズの次元削減手法


8

私は21の社会経済的および態度のマクロレベルの変数を持っています(24歳から54歳の母親の就業していない割合、3歳から5歳の子供の保育園の割合など)。私はまた、集中的な保育を提供した祖父母の割合に関するデータも持っています。私が選択したほとんどの社会経済変数は、保育提供と高い相関があります(たとえば、パートタイムで雇用されている母親の割合と祖父母保育の提供の間には負の相関があります)。

理想的には、さまざまな国の類型を作成したいと思います。私の希望は、コンポーネントや要素が直感的に理解できるようなある種の次元削減手法を使用することです(たとえば、家族や性別に対する態度、労働市場構造、家族政策)。または、代わりに、21のマクロレベルの指標のうちどれが国全体の保育規定の変動性を最もよく説明するかを評価します。

私の主な問題は、ヨーロッパの国が12か国しかないことです。PCAと因子分析は、少数のケースで適切な手法ではないと思います。私は正しいですか?質的比較分析または多重対応分析の使用を試みるように言われましたが、私の理解では、後者の手法はバイナリ(またはカテゴリ)マクロレベルのインジケーターに適しています(マイニングはパーセンテージまたは連続変数です)。


2
タイポロジーが必要なため、これは次元削減ではなくクラスター分析の問題のように聞こえます。限られたデータがあれば、それといくつかの基本的なプロットを使用してストーリーを伝えることができますが、ここでは定量的な調査方法ではなく、定性的な調査方法にほとんど取り組んでいます。
Peter Ellis

ありがとう。変数が多すぎてケースが少ないという問題は残っていますが、クラスター分析についても考えました。私はそのとき基本的な計画に固執し、上司にやるべきことはこれ以上エキサイティングなことはないと確信するでしょう(私はいつも密かに疑っていたので)。
ジョルジョ

1
@PeterEllisはあなたがどんなことをしたいのかについて正しいと思います。ただし、小さなデータセットでPCAとFAを実行できます。これらの方法はどちらも相関に依存しており、観測値が12であっても相関は有効です。ただし、相関関係はあまりよく推定されない場合があります。
Peter Flom

回答:


5

Peter Ellisのコメント/回答が示唆するように、次元削減について話しているのであって、データ削減について話しているのではありません。共変量の空間のサイズだけでデータポイントの数を変更しました。ピーターフロムは、PCAおよびFAメソッドを小さなサンプルサイズで試すことができるのは正しいですが、推定が不十分である可能性が高いのは相関関係だけでなく、特徴がより多く表示される可能性があるために低すぎる次元に陥る可能性もあります。より大きなサンプルを使用した場合よりも、相関が高くなります。私はそれをお勧めしません。


1
ありがとう。申し訳ありませんが、私は確かに次元削減を意味しました!また、PCAとFAは12ケースのみで回避するのが最善であることにも同意します。
ジョルジョ

1
=cor( rnorm(3), rnorm(3) )R

@Macroおよびn = 2の場合、+ 1または-1の相関が保証されます。
Michael R. Chernick

5

私は正準分析の暗黙の変形である共慣性分析に行くでしょう。これにより、共慣性が最も高い21個の変数と、育児データの線形結合(または、単一の量的変数の場合は育児)の線形結合が得られます。相関の代わりに共慣性を使用するコツは、観測よりも変数が多い場合でも計算を実行できることです。

残念ながら、CIAはあまり普及していません。それは通常、観察場所よりも多くの変数がある生態学のために開発されました。Dray、Chessel and Thioulouse、Ecology 84(11)、3078-89、2003にいくつかの技術情報があります。

とは言っても、他のコメント/回答は正解です。12は比較的少数であり、あなたはそれと共存しなければならないでしょう...


弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.