統計とビッグデータ diversity

5

Stack Exchangeは、ご存知のように、さまざまなトピックを持つQ＆Aサイトの集まりです。各サイトが互いに独立していると仮定すると、ユーザーが持っている統計を考慮して、次の人と比較して彼の「丸み」を計算する方法は？使用すべき統計ツールは何ですか？正直なところ、「ウェルラウンドネス」を数学的に定義する方法はよくわかりませんが、次の特性が必要です。すべてが同じであるほど、ユーザーの担当者が多いほど、ユーザーはよりバランスのとれたものになりますすべてが同じであれば、ユーザーが参加するサイトの数が増えるほど、ユーザーはよりバランスの取れたものになります。回答または質問がウェルネスに影響しないかどうか

12 ranking diversity

2

偏ったブートストラップ：観測された統計を中心にCIを中心にしても大丈夫ですか？

これはブートストラップに似ています：推定は信頼区間外です母集団の遺伝子型の数を表すデータがいくつかあります。Shannonのインデックスを使用して遺伝的多様性を推定し、ブートストラップを使用して信頼区間も生成したいと考えています。ただし、ブートストラップによる推定は非常に偏りがちであり、信頼区間が私の観察した統計の範囲外にあることに気づきました。以下に例を示します。 # Shannon's index H <- function(x){ x <- x/sum(x) x <- -x * log(x, exp(1)) return(sum(x, na.rm = TRUE)) } # The version for bootstrapping H.boot <- function(x, i){ H(tabulate(x[i])) } データ生成 set.seed(5000) X <- rmultinom(1, 100, prob = rep(1, 50))[, 1] 計算 H(X) ## [1] 3.67948 …

11 r confidence-interval bootstrap bias diversity

3

American Community Surveyの多様性データの再重み付けは、その誤差範囲にどのように影響しますか？

背景：私の組織は現在、労働力の多様性の統計（例：障害者％、女性％、退役軍人）を、American Community Survey（米国国勢調査局による調査プロジェクト）に基づいて、これらのグループの労働力の合計と比較しています。全体として労働力とは異なる人口統計を持つ非常に特定の一連の仕事があるため、これは不正確なベンチマークです。たとえば、私の組織のほとんどがエンジニアであるとします。私の州では、エンジニアリングは女性の約20％にすぎません。全体の労働力のベンチマークと比較すると、50％の女性のように、「20％の女性しかいない、これは災害です！」というパニックに陥ります。実際のところ、20％は私たちが期待するべきものです。なぜなら、それが労働力の状況がどのようなものかということです。私の目標：私がやりたいのは、アメリカンコミュニティサーベイの職業データ（多様性カテゴリ別）を取得し、自分のビジネスの仕事の構成に基づいて再重み付けすることです。社会福祉サービスワーカーのサンプルデータセットを次に示します。これらのジョブコードをまとめて追加したいので（私たちの横断歩道は特定のジョブコードではなくジョブグループにあるため）、そのカテゴリにいる人の数に基づいてベンチマークに重みを付けたいと思います（例：3,000のソーシャルおよびコミュニティサービスワーカー）、次に、他のすべてのジョブグループにも同じことを行い、それらの数を合計して、ワーカーの総数で割ります。これにより、新しい重み付けされた多様性測定値が得られます（たとえば、6％の障害者から2％の障害者へ）。私の質問：この最終的なロールアップベンチマークにエラーのマージンをどのように合わせるのですか？私は（明らかに）生の国勢調査データセットを持っていませんが、表の上部にある[Estimate]フィールドを[Margin of Error]に切り替えることで、提供したリンクで各数値のエラーマージンを表示できます。このデータを使用している他の同僚は、エラーのマージンを完全に無視するつもりですが、統計的に意味のないベンチマークを自分で作成しているのではないかと心配しています。このデータは、上記の操作の後でもまだ使用できますか？

10 confidence-interval sampling data-transformation diversity

タグ付けされた質問 「diversity」

タグ付けされた質問「diversity」