回答:
カテゴリカルデータは正規分布からのものではありません。
正規分布は、少なくとも間隔データを処理している場合にのみ意味があり、正規分布は連続的で実線全体に存在します。これらのいずれかが当てはまらない場合は、データの分布を調べて、正規性と一致しないと結論付ける必要はありません。
[間隔ではない場合、平均値の計算でさえ間隔スケールがあることを意味するため、分布形状の仮定に関連する問題よりも大きな問題があることに注意してください。「高」+「非常に低い」=「中」+「低」および「非常に高い」+「中」=「高」+「高」(つまり、開始するために保持する必要があるものとまったく同じ)そもそも値を追加する場合)、その時点で間隔スケールを想定する必要があります。]
比率データは一般に負ではなく、通常は多少ゆがんでいるため、実際の比率データで正常に見えるサンプルを合理的に近似することも多少まれです。
メジャーがカテゴリカルである場合、それを行うことは一般的に意味をなさないので、それを「チェック」することはできません。正規分布のサンプルではないことはすでにわかっています。実際、名義的なデータの場合は、カテゴリに順序さえないので、試してみても意味がありません。[次数の任意の再配置に対して不変な唯一の分布は、離散ユニフォームです。]
データがカテゴリー順に並べられている場合、間隔は任意であり、繰り返しになりますが、実際にはあまり実行できないという概念が残ります。対称性のようなさらに単純な概念は、間隔の任意の変更の下では実際には成り立ちません。
おおよその正規性さえも検討し始めるためには、少なくともカテゴリーが区間であると仮定する/固定された既知の「スコア」があると想定する必要があります。
しかし、いずれにせよ、「それは正常ですか?」とにかく、本当に便利な質問ではありません。実際のデータが正規分布から本当にサンプリングされるのはいつからですか。
[順序付けされたカテゴリに、(たとえば)正規分布の基になる(潜在的な)変数があるかどうかを検討することが重要な場合もありますが、それはまったく異なる種類の検討事項です。]
より便利な質問がGeorge Boxによって提案されています:
すべてのモデルが間違っていることに注意してください。実用的な問題は、彼らが役に立たないためにはどれほど間違っている必要があるかということです。
(私はそれが彼のよりよく知られている格言とともに、BoxとDraperにあると信じています。)
少なくとも間隔があり、かなりの数のカテゴリがある個別のデータがある場合、たとえば、それほど歪んでいないことを確認することは理にかなっているかもしれませんが、実際にそれが通常の母集団から引き出されているとは思わないでしょう。 -それはできません。
一部の推論手順では、実際の正規性は、特に大きなサンプルサイズでは特に重要ではない場合があります。