American Community Surveyの多様性データの再重み付けは、その誤差範囲にどのように影響しますか?


10

背景:私の組織は現在、労働力の多様性の統計(例:障害者%、女性%、退役軍人)を、American Community Survey(米国国勢調査局による調査プロジェクト)に基づいて、これらのグループの労働力の合計と比較しています。全体として労働力とは異なる人口統計を持つ非常に特定の一連の仕事があるため、これは不正確なベンチマークです。たとえば、私の組織のほとんどがエンジニアであるとします。私の州では、エンジニアリングは女性の約20%にすぎません。全体の労働力のベンチマークと比較すると、50%の女性のように、「20%の女性しかいない、これは災害です!」というパニックに陥ります。実際のところ、20%は私たちが期待するべきものです。なぜなら、それが労働力の状況がどのようなものかということです。

私の目標:私がやりたいのは、アメリカンコミュニティサーベイの職業データ(多様性カテゴリ別)を取得し、自分のビジネスの仕事の構成に基づいて再重み付けすることです。社会福祉サービスワーカーのサンプルデータセットを次に示します。これらのジョブコードをまとめて追加したいので(私たちの横断歩道は特定のジョブコードではなくジョブグループにあるため)、そのカテゴリにいる人の数に基づいてベンチマークに重みを付けたいと思います(例:3,000のソーシャルおよびコミュニティサービスワーカー)、次に、他のすべてのジョブグループにも同じことを行い、それらの数を合計して、ワーカーの総数で割ります。これにより、新しい重み付けされた多様性測定値が得られます(たとえば、6%の障害者から2%の障害者へ)。

私の質問:この最終的なロールアップベンチマークにエラーのマージンをどのように合わせるのですか?私は(明らかに)生の国勢調査データセットを持っていませんが、表の上部にある[Estimate]フィールドを[Margin of Error]に切り替えることで、提供したリンクで各数値のエラーマージンを表示できます。このデータを使用している他の同僚は、エラーのマージンを完全に無視するつもりですが、統計的に意味のないベンチマークを自分で作成しているのではないかと心配しています。このデータは、上記の操作の後でもまだ使用できますか?


3
ACSを再重み付けしないでください。ACSは繊細で高度に洗練された製品であり、すべての敬意を払って、あなたが統計局ほど集合的に統計学者として優れているとは思いません。ACSまたはCPSでのタスクと一致するジョブの定義を全国比較のために取得できる場合、リンゴ間の比較は、ビジネスに適した多様性として機能するように、ACSに基づく「多様性」カテゴリの予想数を計算することになりますターゲット。
StasK 2014年

2
スタス、私はあなたに同意しますが、以下に示すように、これは実際にはACSの再重み付けではありません。
スティーブサミュエルズ

調査統計では、「再重み付け」は元の調査の重みの変換を意味します。この例としては、層別化、サンプルレーキ、またはキャリブレーションなどがあり、重み付けされたサンプルの特定の周辺分布が、たとえば国勢調査やACSから外部的に知られている分布と一致します。ダニカが言及する手順は、ACSの重みには触れません。
スティーブサミュエルズ2014年

役立つ可能性があるのは、知りたい有限の母集団数を書き留めることです。また、ACSにはウェイトの複製がありますか?これらは、分散の推定に役立ちます。
確率論的

回答:


8

アップデート2014-01-15

無効にされた間接的に調整された比率のエラーマージンがACSの同じレートのエラーマージンより大きいか小さいかについてのダニカの元の質問に答えなかったことに気づきました。答えは次のとおりです。会社のカテゴリの比率が州のACSの比率と大幅に異ならない場合、以下に示す誤差範囲はACSの誤差範囲よりも小さくなります。理由:間接レートは、組織の職種の個人数(または相対比率)を固定数として扱います。無効になっている割合のACSの見積もりには、事実上、それらの割合の見積もりが必要であり、これを反映して誤差範囲が増加します。

例として、無効レートを次のように記述します。

P^adj=ninpi^

p^ii

一方、ACSの推定レートは、実際には次のとおりです。

P^acs=(NiN)^pi^

NiNNi/Ni

Ni/Npi

SE(P^adj)>SE(P^acs)N1/N=0.7345N2/N=0.2655SE(P^acs)=0.0677

n1/nn2/nSE(P^adj)=0.0375n1/n=0.15n2/n=0.85SE(P^adj)=0.0678SE(P^acs)n1/n=0.001n2/n=0.999SE(P^adj)=0.079

アップデート2014-01-14

短い答え

私の意見では、CIまたはエラーのマージン(CIの長さの半分)なしでそのような統計を提示することは無責任だと思います。これらを計算するには、ACS Public Use Microdata Sample(PUMS)(http://www.census.gov/acs/www/data_documentation/public_use_microdata_sample/)をダウンロードして分析する必要があります

長い答え

これは、実際にはACSの再重み付けではありません。これは、間接標準化のバージョンであり、疫学の標準的な手順です(グーグルまたはエピテキ​​ストを参照)。この場合、州のACSジョブ(カテゴリ)障害率は、組織のジョブカテゴリの従業員数によって重み付けされます。これにより、組織内の予想される障害者の数が計算さEれ、観察された数と比較することができますO。比較のための通常のメトリックは、標準化された比率R= (O/E)です。(通常の用語は「標準化された死亡率」の「SMR」ですが、ここでは「結果」は障害です。)Rまた、観察された障害率(O/n)と間接的に標準化された率の比でもあります。(E/n)ここnで、は組織の従業員数です。

この場合、必要なのはCIのみ、EまたはE/n必要となるため、それから始めます。

もし

 n_i = the organization employee count in job category i

 p_i = disability rate for job category i in the ACS

その後

 E = sum (n_i p_i)

の分散Eは次のとおりです。

 var(E) = nn' V nn

ここnnで、は組織カテゴリ数の列ベクトルでVあり、ACSカテゴリの障害率の推定分散共分散行列です。

また、ささいに、 se(E) = sqrt(var(E))そしてse(E/n) = se(E)/n

Eの90%CIは

  E ± 1.645 SE(E)

で分割しnて、のCIを取得しE/nます。

推定var(E)するには、ACS Public Use Microdata Sample(PUMS)データ(http://www.census.gov/acs/www/data_documentation/public_use_microdata_sample/)をダウンロードして分析する必要があります

var(E)スタタでのコンピューティングのプロセスについてのみ話すことができます。利用できるかどうかはわかりませんので、詳細は延期させていただきます。ただし、Rまたは(場合によっては)SASの調査機能に詳しい人は、上記の方程式からコードを提供することもできます。

比率の信頼区間 R

の信頼区間Rは通常、のポアソン仮定に基づいてOいますが、この仮定は正しくない場合があります。

我々は考えることができますOし、Eそう、独立しているように

 log R = log(O) - log(E) ->

 var(log R) = var(log O) + var(log(E))

var(log(E))の計算後、さらに1つのStataステップとして計算できますvar(E)

ポアソン独立性の仮定の下で:

 var(log O) ~ 1/E(O).

スタタのようなプログラムは、たとえば、負の二項モデルまたは一般化線形モデルに適合し、より正確な分散項を与えることができます。

のおよそ90%のCI log R

 log R ± 1.645 sqrt(var(log R))

また、エンドポイントを累乗して、のCIを取得できますR


log(R)R

これは、塗抹が適切な場合には思えませんでしたが、私は間違っている可能性があります。何を提案しますか?
スティーブサミュエルズ2014年

CVで言及されているいくつかの方法には、CI、デルタ法のブーストラッピング、および尤度関数のプロファイリングが含まれます。
whuber

ご回答有難うございます。RでPUMSデータをプルすることは可能ですか?SASを持っていません。国勢調査から提供されたDataFerretツールを使用する前にPUMSデータをプルしましたが、Excelで便利に操作できるものがあるかどうかはわかりません。もちろん、Rをインストールできますが、Rの経験はありません。
DanicaE 2014年

1
どういたしまして、ダニカ。この回答が役に立った場合は、チェックマークをクリックして正式に承認してください。回答を更新したことに注意してください。ACSのエラーマージンを適切なものの控えめな代用として提示することをお勧めします。
Steve Samuels、2014年

4

FWIW ACSとPUMSにアクセスするための優れたリソースがここにあります(http://www.asdfree.com/2012/12/analyze-american-community-survey-acs.html)。

また、CRANでACSデータを処理するためのパッケージ(当然、ACSと呼ばれます)もあります。これは、ACSデータで非定型のことを行うのに非常に役立ちます。これはパッケージの段階的な手順です(残念ながら、ドキュメントは直感的ではありません)-http://dusp.mit.edu/sites/all/files/attachments/publication/working_with_acs_R.pdf


3

@ pricele2の回答のhttp://asdfree.comリンクに追加します。この問題をフリーソフトウェアで解決するには、次の手順に従うことをお勧めします。

(1)(2時間のハードワーク)r言語に慣れる。最初の50本の動画を各2分で見る

http://twotorials.com/

(2)(1時間の簡単な指示に従う)monetdbをコンピューターにインストールする

http://www.asdfree.com/2013/03/column-store-r-or-how-i-learned-to-stop.html

(3)(30分の指示に従う+一晩のダウンロード)acs pumsをコンピューターにダウンロードします。必要な年だけを取得します。

https://github.com/ajdamico/usgsd/blob/master/American%20Community%20Survey/download%20all%20microdata.R

(4)(4時間の学習とプログラミングおよび作業の確認)必要な仕様に応じて、再コーディングする必要がある変数を再コーディングします。

https://github.com/ajdamico/usgsd/blob/master/American%20Community%20Survey/2011%20single-year%20-%20variable%20recode%20example.R

(5)(2時間の実際の分析)探している正確なコマンドを実行し、標準誤差を取得して、信頼区間を計算します。

https://github.com/ajdamico/usgsd/blob/master/American%20Community%20Survey/2011%20single-year%20-%20analysis%20examples.R

(6)(4時間のプログラミング)比率推定器が必要な場合は、比率推定の例(正しく調整された標準誤差を使用)をここで実行します。

https://github.com/ajdamico/usgsd/blob/master/Censo%20Demografico/variable%20recode%20example.R#L552


ありがとう、それらは優れたリソースです。他の誰かがこの情報を探してここに来た場合、私が使用してきたRチュートリアルはdatacamp.comcoursera.org/course/rprogです。Data Campは素晴らしいインタラクティブなチュートリアルです。Courseraコースは、物事の理論/構造/名前に重点を置いています。
DanicaE 2014年
弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.