私が要約統計を意味するとき、明確にするために、平均、四分位範囲中央値、分散、標準偏差を参照します。
名義と順序の両方のケースを考慮して、カテゴリまたは定性の単変量を要約するとき、その平均、中央値、四分位範囲、分散、および標準偏差を見つけることは理にかなっていますか?
もしそうなら、それはあなたが連続変数を要約していた場合とは異なりますか?
私が要約統計を意味するとき、明確にするために、平均、四分位範囲中央値、分散、標準偏差を参照します。
名義と順序の両方のケースを考慮して、カテゴリまたは定性の単変量を要約するとき、その平均、中央値、四分位範囲、分散、および標準偏差を見つけることは理にかなっていますか?
もしそうなら、それはあなたが連続変数を要約していた場合とは異なりますか?
回答:
一般的に、答えはノーです。ただし、順序データの中央値を取得できると主張することもできますが、もちろん、数値ではなく中央値としてカテゴリがあります。中央値はデータを均等に分割します:上半分、下半分。順序データは順序のみに依存します。
さらに、でいくつかの場合、規則性は、粗い間隔レベルデータとすることができます。これは、順序データがグループ化されている場合に当てはまります(たとえば、収入についての質問はこの方法でよく聞かれます)。この場合、正確な中央値を見つけることができ、特に下限と上限が指定されている場合は、他の値を近似できる場合があります。各カテゴリ内で何らかの分布(均一)を仮定できます。間隔にすることができる順序データの別のケースは、レベルに同等の数値が与えられている場合です。例:なし(0%)、時には(10-30%)、約半分の時間(50%)など。
(もう一度)David Coxを引用するには:
日常的な統計的質問はなく、疑わしい統計的ルーチンのみ
前述のように、平均データ、SD、およびヒンジポイントは、カテゴリデータでは意味がありません。ヒンジポイント(中央値や四分位数など)は、順序データにとって意味がある場合があります。タイトルには、カテゴリデータを説明するために使用する要約統計量も尋ねられます。カテゴリデータをカウントとパーセンテージで特徴付けることが標準です。(パーセンテージの周りに95%の信頼区間を含めることもできます。)たとえば、データが次の場合:
"Hispanic" "Hispanic" "White" "White"
"White" "White" "African American" "Hispanic"
"White" "White" "White" "other"
"White" "White" "White" "African American"
"Asian"
次のように要約できます。
White 10 (59%)
African American 2 (12%)
Hispanic 3 (18%)
Asian 1 ( 6%)
other 1 ( 6%)
名義変数がある場合、順序付けまたは距離関数はありません。それでは、言及した要約統計をどのように定義できますか?できるとは思わない。四分位と範囲には少なくとも順序付けが必要で、平均と分散には数値データが必要です。棒グラフと円グラフは、順序ではない定性的変数を要約する適切な方法の典型的な例だと思います。
モードは引き続き機能します!それは重要な要約統計量ではありませんか?(最も一般的なカテゴリは何ですか?)中央値の提案には統計としての価値はほとんどないか、まったくないと思いますが、モードにはあります。
また、個別のカウントも価値があります。(カテゴリはいくつありますか?)
(最も一般的なカテゴリ)/(最も一般的なカテゴリ)または(#1最も一般的なカテゴリ)/(#2最も一般的なカテゴリ)のような比率を作成できます。また、(最も一般的なカテゴリ)/(他のすべてのカテゴリ)、80/20ルールなど。
また、カテゴリに番号を割り当てて、すべての通常の統計情報に夢中になることもできます。AA = 1、Hisp = 2など。これで、平均、中央値、モード、SDなどを計算できます。
私は他の答えに感謝しますが、いくつかのトポロジー的背景が応答に非常に必要な構造を与えると思われます。
ドメインの定義を確立することから始めましょう:
カテゴリ変数は、ドメインに要素が含まれる変数ですが、それらの間に既知の関係はありません(したがって、カテゴリのみがあります)。例はコンテキストに依存しますが、一般的な場合、曜日を比較することは難しいと思います。月曜日は日曜日の前ですが、そうであれば、次の月曜日はどうですか?簡単かもしれませんが、あまり使用されていない例は服です。注文の意味を理解できるコンテキストを提供しないと、ズボンがジャンパーの前に来るか、その逆かを言うのは困難です。
順序変数は、ドメイン全体で定義された合計順序を持つ変数です。つまり、ドメインの2つの要素ごとに、それらが同一であるか、一方が他方よりも大きいことがわかります。A リッカートスケールは、順序変数の定義の良い例です。「ある程度同意する」は、「同意しない」よりも「強く同意する」に間違いなく近い。
interval変数は1で、そのドメインは要素間の距離(metric)を定義するため、間隔を定義できます。
私たちが使用する最も一般的なセットとして、自然数と実数には標準の合計順序とメトリックがあります。これが、カテゴリに番号を割り当てるときに注意する必要がある理由です。順序と距離を無視しない場合、実際にはカテゴリデータを間隔データに変換します。仕組みがわからないまま機械学習アルゴリズムを使用すると、そのような仮定を不本意に行い、結果として自分の結果を無効にする可能性があります。たとえば、最も一般的なディープラーニングアルゴリズムは、間隔と連続プロパティを利用して実数で動作します。別の例として、5ポイントのリッカートスケールを考え、それらに適用する分析では、強く同意するものと同意するものとの間の距離がは同じで。そのような関係を主張するのは難しい。同意せず、同意も同意もしない
よく使用する別のセットは文字列です。多くの文字列類似性メトリックがあります際に便利ながます。ただし、これらは常に役立つとは限りません。たとえば、住所の場合、John Smith StreetとJohn Smith Roadは文字列の類似性の点では非常に近いですが、明らかに離れている2つの異なるエンティティを表します。
では、いくつかの要約統計がこれにどのように適合するかを見てみましょう。統計は数値で機能するため、その機能は間隔を置いて適切に定義されます。しかし、それらをカテゴリデータまたは順序データに一般化できるかどうか/どのようにできるかの例を見てみましょう。
最後に、データで定義する順序とメトリックが非常にコンテキストに依存していることを再度強調します。これは今では明らかなはずですが、最後の例を挙げましょう。地理的な場所で作業する場合、さまざまな方法でアプローチできます。