歪んだ非通常のデータでZスコアを使用できますか?[閉まっている]


12

私はいくつかのプロセスサイクルタイムデータを処理し、フルサイクルタイムの各部分を比較するために、標準のZスコアを使用してスケーリングしています。

データが非常に右に歪んでいる/非正常であるため、他の変換を使用する必要がありますか?(「外れ値」は決して負の時間をとることができず、「平均」よりもはるかに長くかかることがよくあります)

Zスコアを使用しても「機能する」ようです...

###############
# R code    
###############
mydata <- rweibull(1000,1,1.5)
hist(mydata)
hist(scale(mydata))

5
zz

回答:


5

Xが大きく歪んでいる場合、Z統計は正規分布しません(または標準偏差を推定する必要がある場合はtです。したがって、Zのパーセンタイルは標準正規ではありません。その意味では機能しません。


私の理解では、Xが大きく歪んでいるということは、サンプルサイズが十分に大きくなかったことを意味します(中心極限定理)。ただし、Z統計が機能するためには、母集団自体が正常である必要があるかどうかはわかりません。そうですか?
アンジェイGIS

1
OPは、平均の分布ではなく、人口分布について話している。したがって、サンプルサイズと中心極限定理は適用されません。
マイケルR.チャーニック

2

Rコードは機能しますが、Zスコアは「ブドウは万年筆に軽く電話をかけています」という文とほぼ同じくらい意味があります。有効な文ですが、意味のあることは何も伝えていません。

Rコードから判断すると、データがワイブル分布していると思われるようです。その場合、絶対に必要な場合を除き、Weibull統計を使用するだけで、何もスケーリングしません。Zスコアはすべてのイントロ統計クラスで教えられますが、常に使用する必要があるわけではなく、特に対称データがない場合はそうではありません。


1

人口が正規分布していない場合。その場合、bar(X){sample mean}の分布は、中心極限定理に従って正規分布に近づきます。サンプルサイズが大きい場合。理論的にはスチューデントのtを使用していますが、nの値が大きい場合(サンプルサイズまたは自由度)、t分布とZ分布はほぼ等しくなります。


-4

あなたのデータは、Z-テストのために正常である必要はありません。(TOWNEND、2002)しかし、変動はほぼ等しいはずです。2つのデータセットでFテストを実行していることを確認し、分散がほぼ等しい場合は、Zテストの結果が役立ちます。そうでない場合は、データを変換します。


9
問題はテストではなく変数の変換に関するものなので、あなたの答えが当てはまるとは思いません。また、名前-年参照だけでなく完全な参照を与え、SHOUTINGに反対する人もいると、おそらくより有益です。
マールテンビュス

@MaartenBuisには同意しますが、彼とは異なり、これに反対票を投じます。
エリック
弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.