数値データをグループ化して「ブラケット」を自然に形成するにはどうすればよいですか?(例、収入)


14

以下は私が達成しようとしていることを説明していますが、代替の問題ステートメントが私の目標を説明する可能性があります。

したい

  1. 次の数値をグループに分割します。各グループ内の数値の分散が大きすぎず、グループの平均の差が小さすぎないようにします

  2. 最終的に得られた分布を「完全な」分布と比較し、それが完全であることと「異なる」ことを確認します。


レイマンの目標の説明

私は所得分布を計算し、各集団の「所得ブラケット」を決定しようとしています。所得ブラケットは、入力データに基づいて自己調整することになっています。

私の目標は、最終的に所得階層間の差を測定または計算することです。多くのブラケットがあると仮定し、各層がどの程度「離れている」かを確認したいと思います。

人口20人、総収入3587のサンプルセットの時間給のサンプルは次のとおりです。

Population= 10                   pop=2   population=5              population =3
10, 11,13,14,14,14,14,14,15,20,  40,50  ,90,91,92,93,94      999,999,900 

数学的概念を使用して、特定の母集団の所得分布のように機能するデータをグループ化、ソート、分析するにはどうすればよいですか?

計算の最後に、段階的な所得分布を決定します。完全な分布は次のようになります(何か)

(each person makes $10 more per hour than the previous; total is 3587)
89, 99, 109, 119, 129, 139, 149, 159, 169, 179, 189, 199, 209, 219, 229, 239, 249, 259, 269, 279

またはこれ:

(evenly distributed groups of people make the same per hour) 
(gaps between income groups is consistent and not "too far")
(income total is 3587)
99 99 99   129 129 129   159 159 159   199 199 199  229 229 229  269 269 269 

質問

人口グループをどのように分析し、上記の最後の2つのモデルセットのようにするためにどれだけ必要かを示す方法でギャップを測定する必要がありますか?


Programmers.SEの代わりにここに投稿する提案をありがとう@svidgen
goodguys_activate

注:この質問をしているときにこのフィードバックを受け取りました: It may seem you are interested in cluster analysis, but the problem with real-life distributions is they are nearly continuous, and hence the straightforward clusterization won't apply.
goodguys_activate

私は必要なものに非常に似た何かを見つけたようです...ビニングデータと呼ばれる:msdn.microsoft.com/en-us/magazine/dn342876.aspx
goodguys_activate

はい、質問を移行してください(そして可能であればコメントからのより良い説明を含めてください)。
goodguys_activate

幸運な場合は、所得分布のギャップを探してください。(ある程度人工的な)ピークを見つけて、それをブラケットとして使用できます。これはおそらく低所得者に対して比較的うまく機能します。
マーククレセン

回答:


18

単一の変数を使用したクラスター分析は、値を配置できるディメンションがある場合に最適です。これは測定スケール時間またはスペースであるかもしれません 。

ある測定スケールで順序付けられたデータが与えられた場合、頻度分布内の相対的な中断を探すことに関心があるかもしれません(ある用語ではアンチモード)。

注意事項:ただし、任意の、または任意のように見えるビンを定義するブレークは、統計科学のいくつかの分野で広く回避されており、等間隔のビニングが広く優先されており、可能であればビニングを完全に回避することが非常に頻繁に行われています。これは、一部は趣味の問題であり、一部は慣習の1つです。データセット全体を保存しやすくなるにつれて、プラクティスは変化しました。

タイムシリーズは何でも、理想的なサブシリーズ内の比較的小さな差異とサブシリーズ間に比較的大きな差がある呪文、エポック、期間、に分けることができます。単一の空間次元(水平または垂直)を再分割する場合は常に、空間に対して同じ問題が発生します。地質学およびその他の科学では、これはゾーニングの見出しの下でしばしば研究されます。

正式なクラスタリングには、常にデータの適切なプロット(たとえば、ドットプロットまたは変位値またはラインプロットを使用)を伴う必要があります。これにより、ブレークが明らかである(正式なクラスタリングは単に装飾的な)か、説得力のあるブレークは存在しません(したがって、正式なクラスタリングは無意味かもしれません)。

大きさの順に並べられた値のおもちゃの例を考えてみましょう。

    14 15 16 23 24 25 56 57 58 

3グループクラスタリングが明らかである場合

    14 15 16 | 23 24 25 | 56 57 58 

knk1k1=2n1n1k1k2n1n

この問題は、特定の数のグループに対して、マーカーを最小化することにより、正確にすることができます(Fisher 1958; Hartigan 1975)。

グループ中心周辺の変動性グループの合計

グループ平均からの二乗偏差の合計は、最も明白な可能性として思い浮かぶでしょう。グループの中央値からの絶対偏差の合計、およびその他の指標は、十分に楽しまれる可能性があります。

Hartigan(1975)は、動的プログラミングアプローチがそのような計算を簡単にする方法を示し、Fortranコードを提示しました。Stata実装(Cox 2007)はgroup1dSSCからインストールされます。

コックス、ニュージャージー州2007。GROUP1D:1つの次元でグループ化またはクラスタリングするためのStataモジュール。http://ideas.repec.org/c/boc/bocode/s456844.html

Fisher、WD1958。最大の均質性のためのグループ化について。Journal、American Statistical Association 53:789-98。

Hartigan、JA1975。クラスタリングアルゴリズム。 ニューヨーク:ジョン・ワイリー。Ch.6。

追記このアプローチは、特定の質問の最初の部分と一致するようです。定式化が一般的な関心事であると思うので、そして、Cox 2007のドキュメントの一部をリサイクルするのが簡単だったので、私はそれを一般的に売り込みました。しかし、特定の目標が収入分布を参照均一分布と比較することである場合、ビニングにはまったく役に立たないことがわかりません。これはローレンツ曲線と不平等尺度が出発点となる経済学の標準的な問題です。基本的に、変位値を変位値と比較したり、パーセントポイントとパーセントポイントを比較したりできます。


1

Jenks Natural Breakをご覧ください。

https://en.wikipedia.org/wiki/Jenks_natural_breaks_optimization

私はそれがあなたが必要とするものだと思います、そして多くの言語で実装があります。


5
すぐには明らかにならないかもしれませんが、これはまさに「グループ平均からの偏差の二乗の合計が最も明白な可能性として思い浮かぶだろう」というニック・コックスの提案です。彼は部分的にそれよりも一般的でした(私は疑います)収入のためにこれは貧しい解決策になるでしょう:1つは通常ログ収入の観点から計算を実行する方が良いでしょう。
whuber
弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.