正の値と負の値を持つデータを使用する場合、変動係数が無効になるのはなぜですか?


10

私の質問に対する決定的な答えを見つけることができないようです。

私のデータは、測定された平均が0.27から0.57まで変化するいくつかのプロットで構成されています。私の場合、すべてのデータ値は正ですが、測定自体は、-1から+1の範囲の反射率値の比率に基づいています。プロットは、植生の「生産性」のリモートで導出された指標であるNDVIの値を表します。

私の意図は、各プロットで値の変動性を比較することでしたが、各プロットには異なる平均があるため、CVを使用して、プロットごとのNDVI値の相対分散を測定することにしました。

私が理解していることから、これらのプロットのCVを取ることは、各プロットが正と負の両方の値を持つことができるので、ユダヤではありません。そのような場合にCVを使用することが適切ではないのはなぜですか?いくつかの実行可能な代替手段は何でしょうか(つまり、相対的分散、データ変換などの同様のテスト)。


1
変動性を比較する目的は何ですか?CV(ここでは意味がありません)のような相対的な測定ではなく、SD、MAD、範囲などの実際の変動性の測定を比較してみませんか?
whuber

プロット間の平均の違いを説明するためにCVを使用しています。すべてのプロットで値の範囲が-1から+1であるため、意味がありませんか?つまり、「実際の変動性」は、プロット間の違いをより示しますか?
Prophet60091 2013

2
CVは、定義により、変動の相対的な尺度です。負の平均に対して無意味な結果が得られます(分散または拡散の負の量を解釈することはできません)。正の平均の場合、平均が小さい場合、特定のスプレッドの量がはるかに大きく見えます。これが必要な場合、実行していることは、対数スケールでデータを比較することと実質的に同等です。これは、データのいずれかがゼロまたは負になる可能性がある場合には意味がありません。変動性を適切に比較するには、データに何らかの再表現が必要になる場合があります。生成方法によって異なります。
whuber

説明のための+1。私のプロットの平均はすべて正ですが、各プロット内に負の値が存在する可能性があります。上記と以下のピーターの答えに基づいて、CVを使用して表示されるとは限りません。値を再スケーリングする可能性や、実際の変動性の尺度を使用する方法を検討します。
Prophet60091 2013

1
定数を追加してデータを適切に再スケーリングできる場合は、CVが適切でないこと意味します。これは、定数を追加するとCVは変更されますが、変動は変更されないためです。
ピーターフロム-モニカの回復

回答:


11

CVが何であるかを考えてみてください:平均に対する標準偏差の比率。しかし、変数が正の値と負の値を持つことができる場合、平均は0に非常に近い可能性があります。したがって、CVは、本来実行すべきことを実行しなくなります。つまり、平均と比較してsdがどれほど大きいかを示します。

編集:コメントで、私はあなたが変数に定数を賢く追加できたら、CVは良くなかったと述べました。次に例を示します。

set.seed(239920)
x <- rnorm(100, 10, 2)
min(x)#To check that none are negative
(CVX <- sd(x)/mean(x))
x2 <- x + 10
(CVX2 <- sd(x2)/mean(x2))

x2は単にx + 10です。これらが等しく可変であることは直感的に明らかだと思います。CVは異なります。

これの実際の例は、xがCの温度で、x2がKの温度である場合です(ただし、Kは0が定義されているため、Kが適切なスケールであると主張できます)。


どうも!したがって、懸念事項は、平均がゼロに近いことであり、必ずしもデータに正の値と負の値があるとは限りません。もしそうなら、ゼロの平均にどのくらい近いと「非常に近い」と見なされますか?私の場合、自分の手段をゼロに近づけるにはほど遠いのです。これを決定する決定的な方法はありますか?
Prophet60091 2013

いいえ、問題は、負の値が1つしかない場合でも、CVが本来実行すべきことを実行しないことです。負の値がある場合は、CVを使用しないでください。また、値が任意のスケールである場合は、CVを使用しないでください。
ピーターフロム-モニカの回復

完全を期すために、任意のスケールを使用するとCVの使用が無効になる理由についてもう少し説明してもらえますか?どうも!
Prophet60091 2013

公平に言えば、@ whuberは変換されたデータと変換されていないデータの比較を推奨していなかったと思いますが、あなたの要点はそのままです。おもちゃのRコードの+1!
Prophet60091 2013

このスレッドでの@whuberのコメントについては、私は議論をしていません。
ピーターフロム-モニカの回復

0

私はこれらを異なるバリエーションのモデルと考えています。CVが一定である統計モデルがあります。それらが機能する場合、CVを報告できます。標準偏差が平均のべき関数であるモデルがあります。標準偏差が一定のモデルがあります。原則として、比率スケール変数の場合、定数CVモデルは、定数SDモデルよりも初期推定が優れています。おそらくそれが真である理由を推測できます。おそらく、加法的相互作用ではなく乗法的相互作用の普及に基づいています。

定数CVモデリングは、しばしば対数変換に関連付けられています。(重要な例外は時々ゼロである非負の応答です。)それを見るにはいくつかの方法があります。まず、CVが一定の場合、ログは従来の分散安定化変換です。または、エラーモデルが対数スケールのSD定数で対数正規である場合、CVはそのSDの単純な変換です。両方が小さい場合、CVは対数スケールSDにほぼ等しくなります。

標準偏差のような統計情報101の方法を適用する2つの方法は、データを取得する方法、または(特に比率スケールの場合)ログに記録する方法です。あなたは、自然がかなり複雑になる可能性があり、さらなる研究が必要である可能性があることを知っていることができる最善の最初の推測を行います。人々があなたの種類のデータで以前に生産的であるとわかったものを考慮に入れてください。

これが重要なケースです。化学物質濃度はCVで要約されるか、対数スケールでモデル化されることがあります。ただし、pHは対数濃度です。


3
あなたの貢献をありがとう、そして私たちのサイトへようこそ!負の値を持つ可能性のあるデータを特徴付けるためにCVを使用することの妥当性に関する質問に回答がどのように対処するかを明確にできますか?そのような状況はあなたの発言でカバーされていないようです。
whuber
弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.