2つのグループにグループ化された、1から1690の範囲の46840のdouble値を含むデータセットの一部を調べています。これらのグループ間の違いを分析するために、適切な検定を選択するために値の分布を調べることから始めました。
正規性のテストに関するガイドに従って、qqplot、ヒストグラム、ボックスプロットを行いました。
これは正規分布ではないようです。ガイドでは、純粋にグラフィカルな検査では不十分であるといくらか正しく述べているため、分布の正規性もテストしたいと思います。
データセットのサイズとRでのshapiro-wilksテストの制限を考慮して、与えられた分布の正規性をどのようにテストし、データセットのサイズを考慮すれば、これも信頼できますか?(この質問に対する承認された回答を参照してください)
編集:
私が言及しているShapiro-Wilkテストの制限は、テストされるデータセットが5000ポイントに制限されていることです。このトピックに関する別の良い答えを引用するには:
Shapiro-Wilkのテストのもう1つの問題は、より多くのデータをフィードすると、帰無仮説が拒否される可能性が大きくなることです。したがって、大量のデータの場合、正規性からのごくわずかな逸脱でも検出できるため、実用的な目的では、帰無仮説イベントハフが拒否され、データは通常よりも十分に多くなります。
[...]幸いにも、shapiro.testは、データサイズを5000に制限することにより、上記の影響からユーザーを保護します。
そもそもなぜ正規分布をテストしているのか:
一部の仮説検定は、データの正規分布を前提としています。これらのテストを使用できるかどうかを知りたい。