カテゴリ変数または定性変数で使用するサマリー統計は何ですか?


18

私が要約統計を意味するとき、明確にするために、平均、四分位範囲中央値、分散、標準偏差を参照します。

名義順序の両方のケースを考慮して、カテゴリまたは定性の単変量を要約するとき、その平均、中央値、四分位範囲、分散、および標準偏差を見つけることは理にかなっていますか?

もしそうなら、それはあなたが連続変数を要約していた場合とは異なりますか?


2
用語の1つを除いて、カテゴリ変数と質的変数の違いはほとんどありません。とにかく、名目上の変数(髪の色など)の平均やSDなどを計算するのは非常に困難です。たぶん、あなたは順序付けられたレベルを持つカテゴリー変数を考えていますか?
chl

いいえ、カテゴリデータに順序またはランク付けされたレベルがある場合、このウェブサイトによると[ 順序]と言われます:[ stats.gla.ac.uk/steps/glossary/presenting_data.html#orddat]、「カウントできます」および順序ではありますが、測定ではない順序データ」
-chutsu

しかし、私は間違っていますか?
chutsu

回答:


8

一般的に、答えはノーです。ただし、順序データの中央値を取得できると主張することもできますが、もちろん、数値ではなく中央値としてカテゴリがあります。中央値はデータを均等に分割します:上半分、下半分。順序データは順序のみに依存します。

さらに、でいくつかの場合、規則性は、粗い間隔レベルデータとすることができます。これは、順序データがグループ化されている場合に当てはまります(たとえば、収入についての質問はこの方法でよく聞かれます)。この場合、正確な中央値を見つけることができ、特に下限と上限が指定されている場合は、他の値を近似できる場合があります。各カテゴリ内で何らかの分布(均一)を仮定できます。間隔にすることができる順序データの別のケースは、レベルに同等の数値が与えられている場合です。例:なし(0%)、時には(10-30%)、約半分の時間(50%)など。

(もう一度)David Coxを引用するには:

日常的な統計的質問はなく、疑わしい統計的ルーチンのみ


1
あなたは良い関連情報を提供しますが、chlの質問に答えて、OPは彼が序数ではないカテゴリデータについて話していることを明確にしたと思います。ですから、あなたの反応は本当に答えではありませんが、私は下票を与える人ではありません。しかし、コメントに変更する必要があると思います。
マイケルR.チャーニック

1
いいえ、それは私の限られた理解にいくらかの価値を加えたと思うので、私はその答えを支持しません。説明で、序数と公称の両方の要約統計量を検討していることを明確にしておく必要があったので、障害は私のものです。
chutsu

5

前述のように、平均データ、SD、およびヒンジポイントは、カテゴリデータでは意味がありません。ヒンジポイント(中央値や四分位数など)は、順序データにとって意味がある場合があります。タイトルには、カテゴリデータを説明するために使用する要約統計量も尋ねられます。カテゴリデータをカウントとパーセンテージで特徴付けることが標準です。(パーセンテージの周りに95%の信頼区間を含めることもできます。)たとえば、データが次の場合:

"Hispanic"         "Hispanic"        "White"             "White"            
"White"            "White"           "African American"  "Hispanic"        
"White"            "White"           "White"             "other" 
"White"            "White"           "White"             "African American"
"Asian"

次のように要約できます。

White             10 (59%)
African American   2 (12%)
Hispanic           3 (18%)
Asian              1 ( 6%)
other              1 ( 6%)

3

名義変数がある場合、順序付けまたは距離関数はありません。それでは、言及した要約統計をどのように定義できますか?できるとは思わない。四分位と範囲には少なくとも順序付けが必要で、平均と分散には数値データが必要です。棒グラフと円グラフは、順序ではない定性的変数を要約する適切な方法の典型的な例だと思います。


3
@PeterFlom私のポイントは、定性データを要約するためのすべてのpossiblrグラフィカルプロシージャをリストすることではありませんでした。比較できるのは実際にプロポーションであり、カテゴリ間でプロポーションがどのように配分されているかを強調したいと思います。割合の違いを視覚的に認識するために、棒グラフは円グラフよりも視覚化が簡単だと思いますが、カテゴリデータを要約する2つの一般的な方法にすぎません。私は利用可能なすべての方法に精通していないので、それらが最高だとは言いたくありません。
マイケルR.チャーニック

7
彼らは確かに人気があります!しかし、私はそれが円グラフを作るために、この分野の専門家として、私たちの責任の一部だと思うあまり人気。
ピーターフロム-モニカの復職

3
クリーブランドは、最初に、人々は直線距離よりも角度測定の認識が悪いことを示しました。第二に、円グラフの色を変更すると、スライスのサイズに対する人々の認識が変わります。第三に、円グラフを回転させると、スライスのサイズに対する人々の認識が変わりました。4番目に、サイズが大きく異なる場合を除き、スライスを最大から最小に並べるのに苦労したこと。クリーブランドのドットプロットは、これらすべてを回避します。
ピーターフロム-モニカの復職

6
@Michael「ほとんどの場合、テーブルはダムパイチャートよりも優れています。パイチャートよりも悪いデザインはそれらのいくつかだけです。パイチャートは決して使用すべきではありません。」-Tufte。「円グラフで表示できるデータは常にドットグラフで表示できます。...1920年代には、円グラフと分割棒グラフの相対的なメリットについて、JASAのページで激しい戦いが繰り広げられました。他のグラフは、分割された棒グラフや円グラフよりもはるかに優れたパフォーマンスを発揮します。」-クリーブランド。ご存じのように、クリーブランドは規範的ではありません。これは、彼が何でも得るほど強力です。
whuber

6
ところで、@ Michael、私はあなたとこのスレッドであなたが作っている議論に納得します(説得力があり、十分に提示されています)。あなたは採用しています。サイトのエチケットに従ってください:件名に固執し、他の人を攻撃しないでください。冗談でさえ、攻撃のように聞こえるかもしれないものを書かないでください。もちろん、すべての人に同じ警告が当てはまります。
whuber

2

モードは引き続き機能します!それは重要な要約統計量ではありませんか?(最も一般的なカテゴリは何ですか?)中央値の提案には統計としての価値はほとんどないか、まったくないと思いますが、モードにはあります。

また、個別のカウントも価値があります。(カテゴリはいくつありますか?)

(最も一般的なカテゴリ)/(最も一般的なカテゴリ)または(#1最も一般的なカテゴリ)/(#2最も一般的なカテゴリ)のような比率を作成できます。また、(最も一般的なカテゴリ)/(他のすべてのカテゴリ)、80/20ルールなど。

また、カテゴリに番号を割り当てて、すべての通常の統計情報に夢中になることもできます。AA = 1、Hisp = 2など。これで、平均、中央値、モード、SDなどを計算できます。


0

私は他の答えに感謝しますが、いくつかのトポロジー的背景が応答に非常に必要な構造を与えると思われます。

定義

ドメインの定義を確立することから始めましょう:

  • カテゴリ変数は、ドメインに要素が含まれる変数ですが、それらの間に既知の関係はありません(したがって、カテゴリのみがあります)。例はコンテキストに依存しますが、一般的な場合、曜日を比較することは難しいと思います。月曜日は日曜日の前ですが、そうであれば、次の月曜日はどうですか?簡単かもしれませんが、あまり使用されていない例は服です。注文の意味を理解できるコンテキストを提供しないと、ズボンがジャンパーの前に来るか、その逆かを言うのは困難です。

  • 順序変数は、ドメイン全体で定義された合計順序を持つ変数です。つまり、ドメインの2つの要素ごとに、それらが同一であるか、一方が他方よりも大きいことがわかります。A リッカートスケールは、順序変数の定義の良い例です。「ある程度同意する」は、「同意しない」よりも「強く同意する」に間違いなく近い。

  • interval変数は1で、そのドメインは要素間の距離(metric)を定義するため、間隔を定義できます。

ドメインの例

私たちが使用する最も一般的なセットとして、自然実数には標準の合計順序とメトリックがあります。これが、カテゴリに番号を割り当てるときに注意する必要がある理由です。順序と距離を無視しない場合、実際にはカテゴリデータを間隔データに変換します。仕組みがわからないまま機械学習アルゴリズムを使用すると、そのような仮定を不本意に行い、結果として自分の結果を無効にする可能性があります。たとえば、最も一般的なディープラーニングアルゴリズムは、間隔と連続プロパティを利用して実数で動作します。別の例として、5ポイントのリッカートスケールを考え、それらに適用する分析では、強く同意するもの同意するものとの間の距離がは同じで。そのような関係を主張するのは難しい。同意ず、同意も同意もしない

よく使用する別のセットは文字列です。多くの文字列類似性メトリックがあります際に便利ながます。ただし、これらは常に役立つとは限りません。たとえば、住所の場合、John Smith StreetとJohn Smith Roadは文字列の類似性の点では非常に近いですが、明らかに離れている2つの異なるエンティティを表します。

要約統計

では、いくつかの要約統計がこれにどのように適合するかを見てみましょう。統計は数値で機能するため、その機能は間隔を置いて適切に定義されます。しかし、それらをカテゴリデータまたは順序データに一般化できるかどうか/どのようにできるかの例を見てみましょう。

  • モード -カテゴリデータと順序データの両方で、どの要素が最も頻繁に使用されているかを確認できます。これがあります。次に、@ Maddenkerが回答にリストする他のすべてのメジャーを導出することもできます。@gungの信頼区間も役立ちます。
  • 中央値 -@ peter-flomが言うように、注文がある限り中央値を導き出すことができます。
  • 平均、標準偏差、パーセンタイルなど。距離メトリックが必要なため、これらは間隔データでのみ取得できます。

データのコンテキストの例

最後に、データで定義する順序とメトリックが非常にコンテキストに依存していることを再度強調します。これは今では明らかなはずですが、最後の例を挙げましょう。地理的な場所で作業する場合、さまざまな方法でアプローチできます。

  • それらの間の距離に興味がある場合、それらのジオロケーションを操作できます。これにより、基本的に2次元の数値空間、つまり間隔が得られます。
  • 関係のそれらの部分に興味がある場合、全体の順序を定義できます(たとえば、通りは都市の一部であり、2つの都市は等しく、大陸には国が含まれます)
  • 2つの文字列が同じアドレスを表しているかどうかに関心がある場合は、スペルミスや単語の位置の入れ替えを許容する文字列距離で作業できますが、異なる用語と名前を区別してください。これは簡単なことではありませんが、単にケースを作るためです。
  • 他にも多くのユースケースがあり、私たち全員が毎日遭遇しますが、これは意味がありません。それらのいくつかでは、アドレスを単なる異なるカテゴリとして扱う以外に何もすることがありません。他の場合では、非常にスマートなデータモデリングと前処理になります。
弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.