回答:
カテゴリー変数には、有限の離散値のセットがあります。例には、性別(男性/女性)、国、惑星などが含まれます。これを、無数の異なる値をとることができる連続変数と比較してください。例としては、重量、経度、距離などがあります。
同様の情報が時々カテゴリ的かつ継続的な方法で表現できることに注意してください。たとえば、planet = earth
と表現できますdistance to sun = 1 astronomical unit ≈ 150 million kilometers
。しかし、惑星が存在しないため、太陽から2億キロを惑星で表す方法は実際にはありません(火星は太陽から2億2800万キロです)。2億100万km、202などについても同じです。これらの距離を惑星で表すと言えるのはplanet = none
、あなたが言うことができなかったplanet = 4/3×earth
か、.88×Mars
惑星や他のカテゴリ変数を乗算する意味のある方法はありませんので、。惑星に関しては、これらの距離は区別がつかないでしょうが、もちろん、連続変数として表現される場合、太陽からの明確な距離として意味があります。
連続変数を任意の精度で表現することもできます(たとえば、1つの天文単位は149,597,871 kmであり、1億5000万kmではありません)。逆に、planet = earth
より正確に表現する方法はありません。地球はまさに地球であり、それ以上でもそれ以下でもありません。さらに、planet
名目変数である場合、他の惑星が地球より「多い」または「少ない」と言っても意味がありません。ただし、順序付き(順序)変数としてコード化することもできます。惑星は、太陽までの距離、体積、月数などの順序で並べられています。これらの数値はすべて、独自の用語(または少なくともカウント)で連続しています。しかし、カテゴリーではありません)、しかし惑星に関してではありません。例えば、惑星は太陽からの距離によって、または衛星の数が発注されている場合は、mars > earth > venus
。惑星が体積順に並べられている場合、earth > venus > mars
。カテゴリー変数を順序付ける必要はありません。順序付けできないものもあるかもしれませんが、順序を追加してもカテゴリー変数は少なくなりません。
ウィキペディアが言うように、カテゴリー分布はベルヌーイ分布を2つ以上の可能な値に一般化したものです(ベルヌーイ分布は厳密にバイナリです)。ベルヌーイ分布も二項分布の特殊なケースですが、二項分布をカテゴリカルとは呼びません(離散ですが、カウント変数なので、値間の距離が定義されています)。多項分布はカテゴリカル分布と混同される可能性がありますが、ウィキペディアはこれに対して警告しています。