国の種類を特定するためのデータ削減手法


11

私は経済地理学の入門コースを教えています。生徒が現代の世界経済に見られる国の種類をよりよく理解し、データ削減手法を理解できるように、さまざまな国の類型を作成する課題を作成したいと思います(たとえば、高所得の高所得国付加価値製造の平均余命、高所得の天然資源輸出、中高寿命、ドイツが最初のタイプの要素、イエメンが2番目のタイプの例です)。これは、一般に入手可能なUNDPデータを使用します(これを正しく思い出せば、200か国未満の社会経済データが含まれています。申し訳ありませんが、地域データはありません)。

この割り当ての前に、これらに同じ変数間の相関関係を調べるように(同じ間隔(主に間隔または比率レベル)を使用して)要求する別の割り当てがあります。

私の希望は、彼らが最初に異なる変数間の種類の関係(たとえば、平均余命と富の[さまざまな指標]の間の正の関係、富と輸出の多様性の間の正の関係)について直感を養うことです。次に、データ削減手法を使用すると、コンポーネントまたは要素は直感的に理解できます(たとえば、要素/コンポーネント1は富の重要性を捉え、要素/コンポーネント2は教育の重要性を捉えます)。

これらは2年目から4年目の学生であり、より一般的に分析的思考への露出が限られていることが多いので、2番目の課題に最も適切な単一のデータ削減手法はどれですか。これらは人口データであるため、推論統計(p-vlauesなど)は実際には必要ありません。

回答:


10

探索的方法として、PCAはこのIMOのような割り当ての最初の選択肢として適しています。彼らがそれに触れるのもいいでしょう。それらの多くは以前に主成分を見たことがないように思えます。

また、データに関しては、世界銀行の指標もご紹介します。これは非常に完全なものです:http : //data.worldbank.org/indicator


5

私はJMSに同意し、各郡の変数間の初期相関と散布図を調べたところ、PCAは良い考えのように思えます。このスレッドには、数学以外の用語でPCAを導入するためのいくつかの役立つ提案があります。

また、小さな複数のマップを利用して、各変数の空間分布を視覚化することをお勧めします(gis.seサイトのこの質問には、いくつかの良い例があります)。比較する面積単位が限られていて、適切な配色を使用している場合(Andrew Gelmanのブログのこの例のように)これらは特にうまくいくと思います。

残念ながら、「世界の国」のデータセットの性質上、データがまばらになり(多くの国が欠けている)、地理的な視覚化が困難になることがよくあります。ただし、このような視覚化手法は、コースの他の状況でも役立つはずです。


+1、素晴らしい参照。変数のマップをPCAスコアのマップと比較することも興味深いかもしれません。
JMS

PCAと因子分析の微妙な違いを感じるのに役立つので、非数学的な用語でのPCAの紹介へのリンクは役に立ちました。変数の空間分布を視覚化することを考えていなかったので、GIS /マッピングの提案も非常に役立ちます。この学生の人口にとって、それは彼らが私のすべての何とか何とか何とか何とか何もかもがそうではない方法で世界経済の根底にある構造を把握するのに役立ちます。
ラビドッター

1
素敵なプロットはしばしば何とか何とか何とか何とか何とかします:)
JMS

4

簡単に追加した注記:上記の手法のどちらを使用する場合でも、最初に変数の分布を確認する必要があります。変数の多くは、最初に対数を使用して変換する必要があるためです。そうすることで、元の変数を使用するよりもはるかに優れた関係の一部が明らかになります。


3
+1通常、このような返信はコメントとして投稿するだけですが、ここでのアドバイスは非常に重要であり、可能な限り強調することでメリットを得られます。特にPCAの結果は、変数が適切に再表現されるまで、情報を提供しない可能性があります。
whuber

2

PCAの代わりにCUR分解を使用できます。CUR分解については、[1]または[2]を参照してください。CUR分解では、Cは選択された列を表し、Rは選択された行を表し、Uはリンク行列です。[1]にあるように、CUR分解の背後にある直観を言い換えます。

uivi

[(1/2)age − (1/ √2)height + (1/2)income]

人々の特徴のデータセットからの重要な無相関の「要因」または「特徴」の1つであることは、特に有益であるか意味がありません。

CURの良い点は、基本列が実際の列(または行)であり、PCA(トランケートされたSVDを使用)とは対照的に解釈するのが良いことです。

[1]で与えられたアルゴリズムは実装が簡単で、エラーしきい値を変更してさまざまな数のベースを取得することで、それを試すことができます。

[1] MW MahoneyとP. Drineas、「データ分析を改善するためのCURマトリックス分解」。106、2009年1月、pp。697-702。

[2] J. Sun、Y。Xie、H。Zhang、およびC. Faloutsos、「Less is more:Compact matrix analysis for large sparse graphs」、Proceedings of the Seventh SIAM International Conference on Data Mining、Citeseer、2007、p 。366。


2

目的に応じて、グループのレジストリの分類は、いくつかのクラスタリング方法によって最もよく達成される場合があります。比較的少数のケースでは、通常、少なくとも探索段階では階層クラスタリングが最適ですが、より洗練されたソリューションでは、K平均法などの反復プロセスを検討する場合があります。使用しているソフトウェアに応じて、SPSSにあるプロセスを使用することもできますが、2段階クラスタリングと呼ばれる他の場所はわかりません。

クラスター分析は、グループ間の分散を最小化しながらグループ間の分散を最大化する分類ソリューションを生成します。また、解釈が容易な結果が得られる可能性があります。



1

別のオプションは、自己組織化マップ(SOM)を使用することです。学生がどのソフトウェアを使用するかについての考えはありますか?たとえば、RにはいくつかのSOM実装があることを知っています。ただし、SOMは「構成要素が直感的に理解できる」テストに失敗する場合があります。(PCAでも必ずしもそうではありません...)


返答が遅れてすみません。学生は、前述の従来のデータ削減手法のいくつかを備えたMinitab 16を使用します。自己組織化マップを調べますが、2年生の学部課程で受ける学生の種類に適しているかどうかは疑問です。
ラビドロッター2013
弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.