調査:大規模なユーザーベースの25%が代表者ですか?


13

私の雇用主は現在、オフィス、つまりセンチメントに対する態度について全社的な調査を実施しています。過去に、彼らは事業のすべての分野(10の非常に異なる部門を想定)とその中のすべての従業員(会社全体で合計1000人の従業員を想定)に調査を開きました。各部門の従業員数は等しくなく、特定の部門は、おそらく組織の総人口の50%です。

今年、調査は全従業員ベースの25%にのみ開かれており、選択は「ランダム」です。

したがって、2つのクエリがあります。

  • 従業員ベース全体の真にランダムな選択である場合、それらすべての従業員が応答すると仮定した統計的に有効なサンプルはどのようになりますか?

  • 部門ごとのレベルでランダムな場合、たとえば各部門の25%の場合、1つの部門を考慮した有効なサンプルが総人口の50%を超えていることはどうですか。

会社の過半数の感情を判断するには、真の読書感情を提供するために、各部門の従業員ベースの少なくとも50%が必要だと思います。

更新:調査は実施されません。選択した25%からの応答率が100%であるという保証はありません。調査が記入されているかされていない場合、インセンティブまたは懲罰的な手段はありません。


2
調査を必要なだけ(質問の数/種類)小さくし、従業員/管理者が大きな時間を費やすと文句を言わないように、必要な数だけ調査を行うことをお勧めします。人々が自己選択する場合、それは何らかの形の体系的なバイアスを保証します。
ニックT

測定している場合、正規分布している変数の平均値は、約20回の応答後、+ /-間隔のサイズがおよその割合で増加し1/sqrt(# responses)ます。たとえば、20個の応答がある場合は、になります+/- .468 * sigma。100件の回答があります+/- .198 * sigma。応答が1000の場合はになります+/- .062 * sigma
ペース

回答:


22

米国の一般的な人口の調査について考えてください。多数意見を決定するために人口の50%が必要な場合、約1億6,000万のサンプルが必要になります。1%のサンプルでさえ極端(約320万)であり、めったに行われません。米国の重要な調査である一般社会調査のサンプルサイズは1,500〜3,000程度です。したがって、25%のサンプル自体は問題ありません。

調査は選挙でも国民投票でもないことを忘れないでください。後者が正当であるためには、資格のあるすべての人が発言する機会を持たなければなりません。調査の目的は、平均的な意見の適切な推定値を取得することであり、ランダムなサンプルでそれを取得できます。そのため、会社は調査の目的を決定する必要があります。従業員が意見を述べて会社に参加する方法ですか、それともマネージャーが情報を取得する方法ですか。

両方のサンプリング設計により、従業員の25%が質問されることが保証されます。後者は、より小さな部門が調査に参加することを保証します。標準エラーに関心がある場合は、サンプリングのネストされた性質を考慮する必要がありますが、この場合、それが大した問題になるとは思いません。


2
+1ですが、「平均的な意見」に興味がなければ、もっと大きなサンプルが必要になる可能性があることを強調する価値があります。
ティム

1
答えてくれてありがとう。しかし、それは私の省略であり、調査の実施はありません。尋ねられるのは25%だけですが、返信する義務はありません。
コリン

2
それも正常です。私が調査を実施する場合、人々に強制的に回答させることは難しいでしょう。私は回答者を「説得」するために悪党を雇うこともできますが、それは倫理的および法的結果をもたらします...それにもかかわらず、非回答は問題ですが、ほとんどの調査で対処しなければならない問題です。
マールテンブイス

7

語源別「調査」(sur-「上から」や-vey「ビュー」などの「スーパー」から)は、概要を取得することを意味しますではなく、。

25%が本当にランダムで、自己選択(オプトイン)でない限り、用語の定義を完全に満たします。調査がオプションの場合、回答は回答が必要だと感じる人のみを代表します。たとえば、食事後にフィードバックカードに記入できるレストランを想像してください。たとえ多くのダイナーが満足していても、幸せな顧客にはフィードバックを提供する理由がほとんどないため、ほとんどのフィードバックは否定的です。


1
「自己選択」の効果を拡大していただけますか?この調査は強制されておらず、完全にオプションであり、記入または記入しなかった場合のインセンティブまたは懲罰的な手段はありません。最初の質問を更新します。
コリン

6
@Colin:調査がオプションの場合、回答は回答の必要性を感じている人のみを代表します。たとえば、食事後にフィードバックカードに記入できるレストランを想像してください。たとえ多くのダイナーが満足していても、幸せな顧客にはフィードバックを提供する理由がほとんどないため、ほとんどのフィードバックは否定的です。
-dotancohen

1
@dotancohenこのコメントが含まれていると、答えは多くの利益になると思います。
ペール

@Pere:ありがとう、答えにコメントを入れると語源のポイントから気を散らすのではないかと心配でした。しかし、あなたは正しいです、そして私はそれを追加しています。
dotancohen

4

別の観点は、実験計画の理論から来ています。

統計的検出力は、効果が実在する場合にその効果を見つける確率です(ソース

4つの要因が電力に影響します。

  1. エフェクトのサイズ
  2. 特性の標準偏差
  3. より大きなサンプルサイズ
  4. 望ましい有意水準

これらの要素に基づいて、検出力、サンプルサイズ、効果サイズ、標準偏差、有意水準(ソース)に関連する正式な数学方程式を書くことができます。

一連の仮定の下で、調査を実験として特徴付け、実験フレームワークの設計を活用することができます(ここにいくつかの例があります)。多くの経験に基づいた推測が必要です。ただし、モデルがまったくない場合よりも不完全なモデルの方が優れている場合があります。


3

2つの質問を感じます。1つはサンプルサイズに関するもの(25%、過半数ではない)ともう1つはサンプリング手法に関するものです(真にランダムなのは、会社全体でランダムに25%をサンプリングする、各部門でランダムに25%をサンプリングする、またはその他の分布を使用する)。

1)サンプルサイズは多数である必要はありません。必要なサンプルサイズは、指定された信頼度または尤度比に必要な精度に応じて、0〜100%の任意のサイズにすることができます。

100%の確実性は決して得られません(50%以上のサブセットでも得られません)。このような高い精度を達成することも、サンプリングと推定のポイントではありません。

サンプルサイズの詳細:https : //en.wikipedia.org/wiki/Sample_size_determination

多数の法則を取得する場合、直感的なアイデアもあります。

サブセットのサイズが大きくなると、可能なすべてのサブセットの平均の分布(およびサンプルはそれらの1つになります)が小さくなり、元の分布の平均に近くなります。1人を選択した場合、例外を見つける可能性はある程度ありますが、同じ方向で同じ例外を2回見つけることはほとんどありません。など、サンプリングされたサブセットのサイズが大きいほど、例外的なサブセットの可能性は小さくなります。

最終的に、可能なすべてのサブセットの平均の分布は、元のセットの分散を除算した分散に等しい分散を持ちます。nサブセットのサイズでます。

重要な注意点!推定値は、サンプリング元の母集団のサイズではなく、その母集団の分布に依存します。

500サイズの部門の場合。ランダムなサブセット(サイズ125)の平均の偏差は、元の偏差よりも11倍小さくなります。測定の誤差(ランダムに選択されたサブセットの平均の偏差)は、部門の規模に依存しないことに注意してください。500、5000、または50000の場合があります。すべての場合、同じ分布を持っている限り、推定値は影響を受けません(現在、小さな部門には奇妙な分布があるかもしれませんが、大きなグループでは消え始めます)。

2)サンプリングは完全にランダムである必要はありません。人口統計を考慮することができます。

最終的には、この種の分析で各部門を個別に扱い、部門間のばらつきと、サイズの異なる部門でのサンプリング方法を修正します。

この修正には、2つの重要な違いがあります。グループ間の分布は、ランダム変数であるかどうかを仮定するかもしれません。ランダム変数として扱う場合、分析はより強力になります(モデル内のある程度の自由度を取り出します)が、異なるグループが特定の効果のないランダムなエンティティとして交換できない場合、それは間違った仮定になる可能性がありますあなたの場合、私は部門が異なる機能を持ち、部門との関係でランダムではない広く異なる感情を持っているかもしれないと思います)。


1
答えてくれてありがとう。しかし、それは私の省略であり、調査の実施はありません。尋ねられるのは25%だけですが、返信する義務はありません。
コリン

1
次に、サンプリング手法とデータの収集方法に関する3番目の質問があります。そのような問題、データの無応答およびその他の品質の側面に対処する方法については、単一の答えはありません。いずれの場合においても(いずれか、50%または25%を要求して)応答で大きな問題があるならば、任意の統計学的分析についての議論は、二次的に重要です。 サンプリング増やしても(たとえば、50%を超える)この調査はあまり改善されず、適切なサンプリングに集中することを勧めします。
セクストゥスエンピリカス

2

あなたの質問は、有限母集団のサンプルサイズについてです。ただし、最初に必要なのは、無限母集団に必要なサンプルサイズです。これを使用して、有限母集団のサンプルサイズを計算できます。

n=z2pq/d2
n
z2
p
q=1p
d2

1.96×0.5×0.5/0.032=1068

m=n/1+n1/N
m
n
N

N=10001068/1+10681/1000=517、または人口の51.7%。

母集団の25%を使用した場合、エラーレベルは5.4%になります。このエラーレベルは、以前の調査に基づいて問題ない場合があります。調査では、許容できるエラーのレベルと調査を実施するコストとの間には常にトレードオフがあります。

応答率にこの要因はありません(単純なランダムサンプルを使用する場合)。連絡する必要がある人の数を調べるには、サンプルサイズを予想される回答率で割ります。たとえば、以前の回答率が65%だった場合、調査手段を517/0.65=796 人。

部門ごとに人口を分割する場合(層別化と呼ばれる)、事態はさらに複雑になります。基本的に、データを各部門に対して正確にしたい場合、各部門を個別の有限母集団として扱う必要がありますが、これは実用的ではありません。ただし、サンプルの50%が人口の50%の部門からランダムに選択され、適切な割合が他の部門からランダムにサンプリングされる単純なランダムサンプルの代わりに層別ランダムサンプルを実行できます。すべての小数点以下を切り上げる必要があるため、サンプルサイズがわずかに増加することを意味します(0.1人を調査することはできません)。ただし、正確には各部門から十分な回答がないため、結果は部門レベルではなく人口(会社)レベルで調査する必要があります。


1

有効なサンプルについて話している間、基本的な概念は通常、表現の1つです。サンプルは母集団を適切に「表している」か?代表的なサンプルを取得するには、サンプルサイズが適切であること(推定値の分散を減らすため)を確認する必要があります。また、サンプルには、さまざまなタイプの行動を示す母集団のサブセットに属するメンバーが含まれている必要があります検討中の。

第一に、調査のために選択されたユーザーの割合は、選択されたユーザーの絶対数に比べて重要ではありません。必要なサンプルサイズは、与えられた回答の精度または信頼区間の要件によって異なります。あなたは読むことができ、この詳細についての記事を。

会社は複数の部門で構成されているとおっしゃいました。調査に対する回答が部門によって異なる可能性はありますか?もしそうなら(あるいはあなたは確かに知らないかもしれませんが)、部署全体でサンプルを「層別化」することをお勧めします。最も単純な形式では、これはすべての部門から等しい割合の人々を選ぶことを意味します。例:会社のサイズは1000で、選択したサンプルサイズは100です。次に、サイズ500の部門から50、サイズ100の部門から10などを選択します。これは、特定の部門の過小表現を避けるため特定の「ランダム」サンプル。

また、誰もが調査に回答できるわけではないことにも言及しています。約半数の人が回答することがわかっている場合、100人の回答を得るには、調査を200人に送信する必要があります。そのような応答が偏っている可能性を考慮する必要があります。特定の応答を持つ人々は、多かれ少なかれ、答える傾向があります。


1

それが従業員ベース全体の真にランダムな選択である場合、それらの従業員全員が応答すると仮定した統計的に有効なサンプルはどのようになりますか?

記述対象の母集団から抽出されている限り、有効なサンプルです。つまり、上司のみをサンプリングする場合、他の従業員については何も言えません。それはあなたが説明した設定では起こりません。ただし、応答がないために発生する可能性があります(詳細は以下を参照)。

部門ごとのレベルでランダムな場合、たとえば各部門の25%の場合、1つの部門を考慮した有効なサンプルが総人口の50%を超えていることはどうですか。

これはもはやサンプルの有効性の問題ではなく、サンプリングエラーの問題です。明らかに、最も正確な推定値は、層化されたランダムな抽選から取得され、層は少なくとも部門レベルを包含します。このような設定では、各部門の有効なサンプルがありますが、小規模部門の推定値は大規模部門の推定値よりも一般に精度が低くなります。後者の絶対サンプルサイズが大きいためです。組織全体にとって、より大きな部門のより高いサンプル表現は、単に組織の現実を反映したものであり、サンプルの妥当性を低下させることはありません。

調査は実施されません。選択した25%からの応答率が100%であるという保証はありません。調査が記入されているかされていない場合、インセンティブまたは懲罰的な手段はありません。

誰にも良い回答を強制することはできませんが、応答リマインダー計画の実装は最小限です。さらに、調査の結果、従業員が組織に及ぼす影響について調査の関連性を説明する必要があります。たとえば、結果はいつ公開されますか。調査に基づいて組織が行う潜在的な行動は何ですか?なぜそれぞれの答えが重要なのですか?

データが収集されると、非応答は対処すべき問題です。それに対処するということは、潜在的なパターンを検出するために、最初に非応答動作を分析する必要があることを意味します。上司は応答していませんか?特定の部門がまったく応答していませんか?次に、必要な戦略(ポストストラフィフィケーション、リウェイト、インピュテーションなど)を採用します。


1

私は@ICannotFixThisの回答を、関連する4つの要因がどのように重要であるかについての例を使って拡大しています。

  1. エフェクトのサイズ
  2. 特性の標準偏差
  3. より大きなサンプルサイズ
  4. 望ましい有意水準

これらの要因が結果にどのように影響するかは、使用している統計によって異なります。たとえば、ある変数の平均を推測したい場合は、スチューデントのT検定を使用できます。

この調査で従業員の平均身長を把握したいとします。会社の全従業員の身長の標準偏差は実際にはわかりません(全員を測定することはありません)が、3インチで調査して推測することができます(これはおおよそ米国の男性の身長の標準偏差です)。

5人だけを調査した場合、調査で観察する時間の95%は、真の平均身長から3.72インチ以内になります。

さて、私たちの要因はこれにどのように影響しますか:

  1. 平均高さを非常に正確に知る必要がある場合(たとえば、エフェクトサイズが非常に小さい場合)、多数のサンプルが必要になります。たとえば、2.66インチ以内の真の平均身長を知るには、100人を調査する必要があります。

  2. 標準偏差が大きい場合、取得できる精度が制限されます。標準偏差が3インチではなく6インチで、まだ5つの応答がある場合、真の平均高さは3.72インチではなく7.44インチ以内であることがわかります。

  3. 議論全体の焦点であるため、この点をスキップします。

  4. あなたが本当にあなたが正しい答えを持っていることを確かめる必要があるなら、あなたはより多くの人々を調査する必要があるでしょう。この例では、5つの応答により、95%の時間で3.72インチ以内に収まることがわかりました。答えが99%の正しい範囲にあることを確認したい場合、範囲は3.72インチではなく6.17インチになります。

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.