カテゴリデータを要約する方法は?


13

私は次の問題に苦労してきましたが、できれば統計学者にとっては簡単なことです(私は統計にある程度触れているプログラマーです)。

調査への回答を要約する必要があります(管理者向け)。調査には、さまざまなエリアにグループ化された100以上の質問があります(エリアごとに約5〜10の質問があります)。すべての回答はカテゴリーです(通常の尺度では、「まったくない」、「まれに」、「毎日またはより頻繁に」のようなものです)。

経営陣は各分野の概要を入手したいと思っていますが、これが私の問題です。関連する質問内でカテゴリ別の回答を集計する方法。質問は多すぎて、グラフを作成したり、各エリアの格子プロットを作成したりすることはできません。たとえば、数字のあるテーブルと比較して、可能な場合は視覚的なアプローチを好みます(alas、それらは読みません)。

私が思いつくことができる唯一のことは、各領域の答えの数を数えて、ヒストグラムをプロットすることです。

カテゴリデータに利用できるものは他にありますか?

私はRを使用していますが、それが関連するかどうかはわかりませんが、これはより一般的な統計の質問だと感じています。


PCA / FAはどうですか?あなたは...そこから要因と仕事に相関する変数を縮小するだろう
ローマLuštrik

経営者が「どのようにして集計された数値を取得したのか」と尋ねた場合、これは多すぎるかもしれません。彼らはそれを理解する(感じる)ことができるように、よりシンプルなテクニックが必要になります。悲しいかな、現実の世界:-(ありがとう。
wishihadabettername

回答:


10

回答しようとしている質問が何であるか、または管理者が最も関心のある質問を把握する必要があります。その後、問題に最も関連性のある調査質問を選択できます。

あなたの問題やデータセットについて何も知らないで、ここにいくつかの一般的な解決策があります:

  • 回答をクラスターとして視覚的に表現します。私のお気に入りは、樹形図を使用するか、xy軸にプロットするだけです(Googleの「クラスター分析r」で、statmethods.netで最初の結果に移動します)。
  • 質問を「毎日またはより頻繁に」回答の多い順に並べます。これはあなたのために正確に動作しないかもしれない例ですが、おそらくそれはあなたに刺激を与えるでしょうhttp://www.programmingr.com/content/building-scoring-and-ranking-systems-r
  • クロス集計:たとえば、「仕事に遅刻する頻度は?」という質問がある場合 「Facebookをどのくらいの頻度で使用しますか?」という2つの質問をクロス集計することで、両方ともめったに行わない人、または両方を毎日行う人の割合を調べることができます(Googleの「r frequency crosstabs」または前述のstatmethods.netにアクセスしてください) )
  • コレログラム。これらの経験はありませんが、statmethods.net Webサイトでも見ました。基本的に、どの質問の相関が最も高いかを見つけて、テーブルを作成します。少し「忙しい」ように見えますが、これは便利かもしれません。

これを答えとしてマークします。いくつかの良い提案があるので、それらを適用する方法を考えます。
wishihadabettername


8

標準オプションは次のとおりです。

  • スケール内のアイテムの平均を取得します(たとえば、スケールが1〜5の場合、平均は1〜5になります)
  • 各アイテムをバイナリメジャーに変換し(たとえば、アイテム> = 3の場合は1、その他の場合は0)、このバイナリ応答の平均を取得します

組織内のアイテムと多数の人々のサンプルを集約していることを考えると、上記の両方のオプション(つまり、1から5の平均または1ポイントを超えるパーセンテージの平均)は組織レベルで信頼できます(ここを参照してください)さらなる議論)。したがって、上記のオプションのいずれかは基本的に同じ情報を伝えています。

一般的に、アイテムがカテゴリに分類されるという事実を心配することはありません。アイテムを集計してスケールを作成し、回答者のサンプルを集計するまでに、スケールは連続スケールに近い近似値になります。

管理者は、1つのメトリックを解釈しやすくする場合があります。Quality of Teachingスコア(つまり、100人の学生の平均学生満足度スコア)を取得すると、1〜5のスケールでの平均であり、それで問題ありません。年々自分のスコアを見て、大学の基準を見た後、私はさまざまな値が何を意味するかについての参照の枠組みを開発しました。ただし、経営陣は、声明を支持する割合や、ある意味では平均的な割合であっても肯定的な回答の割合について考えることを好む場合があります。

主な課題は、スコアの具体的な参照フレームを提供することです。経営者は数字が実際に意味するものを知りがるでしょう。たとえば、スケールの平均応答が4.2の場合、それはどういう意味ですか?いいですか?悪いですか?大丈夫ですか?

調査を複数年にわたって、または異なる組織で使用している場合は、いくつかの規範の作成を開始できます。規範へのアクセスは、組織が外部の調査プロバイダーを利用したり、標準的な調査を使用したりする理由の1つです。

スケールへのアイテムの割り当てが経験的に正当であることを検証するために、因子分析を実行することもできます。

視覚的アプローチの観点から、x軸にスケールタイプ、y軸にスコアを持つ単純な線グラフまたは棒グラフを作成できます。規範的なデータがある場合は、それも追加できます。


1

はい。クラスタリングは、理解と管理の両方のプレゼンテーションのために調査データを削減するためのデータ削減への非常に効果的なアプローチであると思います。

潜在クラス分析(応答スケールを序数として扱う)またはk-平均(連続として扱う)は、両方とも情報圧縮の形式として見ることができます。回答者を最も可能性の高いセグメントに分類すると、一般に、回答の観点からプロファイリングされたときに直感的な説明を持つカテゴリ変数が生成されます。

次に、セグメントに名前を付け、それらの変数をサマリーレベルの分析と表示に使用できます。

関連アイテムのグループ(たとえば、以下)のクラスターに適合させるか、場合によってはすべてを合わせます。

Q14cluser <-  Q14(a..m):  Which of the following... Check all that apply
QEcluster <-  QE1..QE30:  Rate your agreement with .. Scale of 1-5

私はよくLatentGoldを使用しますが、SASのFASTCLUSが適切な手段であることがわかりました。

そうする前に、スケールを使用するために各個人の応答を調整することを検討する必要があります(物議を醸すが、実用的です)。一部の人々は、スケールの一方の端に傾いて、ネガティブまたはポジティブを避けています。通常、生の応答をクラスタリングすると、その動作によって人が分割される傾向があります。

各回答者の回答を自分の平均に対して標準化し、その上でクラスタリングすると、非常に興味深い方法で一緒に移動する変数が公開されることがよくあります。

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.