以下は私が達成しようとしていることを説明していますが、代替の問題ステートメントが私の目標を説明する可能性があります。
したい
次の数値をグループに分割します。各グループ内の数値の分散が大きすぎず、グループの平均の差が小さすぎないようにします
最終的に得られた分布を「完全な」分布と比較し、それが完全であることと「異なる」ことを確認します。
レイマンの目標の説明
私は所得分布を計算し、各集団の「所得ブラケット」を決定しようとしています。所得ブラケットは、入力データに基づいて自己調整することになっています。
私の目標は、最終的に所得階層間の差を測定または計算することです。多くのブラケットがあると仮定し、各層がどの程度「離れている」かを確認したいと思います。
人口20人、総収入3587のサンプルセットの時間給のサンプルは次のとおりです。
Population= 10 pop=2 population=5 population =3
10, 11,13,14,14,14,14,14,15,20, 40,50 ,90,91,92,93,94 999,999,900
数学的概念を使用して、特定の母集団の所得分布のように機能するデータをグループ化、ソート、分析するにはどうすればよいですか?
計算の最後に、段階的な所得分布を決定します。完全な分布は次のようになります(何か)
(each person makes $10 more per hour than the previous; total is 3587)
89, 99, 109, 119, 129, 139, 149, 159, 169, 179, 189, 199, 209, 219, 229, 239, 249, 259, 269, 279
またはこれ:
(evenly distributed groups of people make the same per hour)
(gaps between income groups is consistent and not "too far")
(income total is 3587)
99 99 99 129 129 129 159 159 159 199 199 199 229 229 229 269 269 269
質問
人口グループをどのように分析し、上記の最後の2つのモデルセットのようにするためにどれだけ必要かを示す方法でギャップを測定する必要がありますか?
It may seem you are interested in cluster analysis, but the problem with real-life distributions is they are nearly continuous, and hence the straightforward clusterization won't apply.