変動係数-IQR /中央値、または代替のような堅牢な(ノンパラメトリック)尺度?


12

特定のデータセットについて、スプレッドは多くの場合、標準偏差またはIQR(四分位範囲)として計算されます。

a standard deviationは正規化されているため(zスコアなど)、2つの異なる母集団からの広がりを比較するために使用できますが、2つの異なる母集団からのサンプルは2つのまったく異なるスケールで値を持つことができるため、これはIQRには当てはまりません

 e.g. 
 Pop A:  100, 67, 89, 75, 120, ...
 Pop B:  19, 22, 43, 8, 12, ...

私が求めているのは、異なる母集団内の変動を比較するために使用できる堅牢な(ノンパラメトリック)尺度です。

選択肢1: IQR / Median-これは、変動係数、つまりσμ

選択肢2: Range / IQR

質問:母集団間の変動を比較するためのより意味のある尺度はどれですか?また、選択肢1の場合、選択肢2は何か/意味のあるものに役立ちますか、それとも根本的に欠陥のある尺度ですか?


非常に有益な議論をありがとう。いくつかの有用なフォローアップ-四分位数の異なる定義、したがってIQR(John)、実際には標準化されていない標準偏差(Harvey)、および2つの分布を比較するツールとしてのQQプロット(Peter)(3つすべての回答に+1!)
アサドエブラヒム

回答:


13

この質問は、標準偏差(SD)が何らかの形で正規化されているため、2つの異なる母集団の変動を比較するために使用できることを意味します。そうではありません。PeterとJohnが言ったように、この正規化はSD / Meanに等しい変動係数(CV)計算するときのように行われます。SDは元のデータと同じ単位です。対照的に、CVは単位のない比率です。

選択1(IQR /中央値)はCVに類似しています。CVと同様に、データが比率データである場合にのみ意味があります。これは、ゼロが実際にゼロであることを意味します。ゼロの重みは重みなしです。長さがゼロの場合、長さはありません。反例として、温度0度(CまたはF)は温度がないことを意味しないため、CまたはFの温度には意味がありません。CスケールとFスケールの使用を切り替えるだけで、CVまたはIQR / Medianの比率に異なる値が与えられ、これらの比率は両方とも意味がなくなります。

PeterとJohnは、2番目のアイデア(Range / IQR)が外れ値に対してあまりロバストではないため、おそらく有用ではないことに同意します。


2
Harvey-ありがとう、そうです、SDはまったく正規化されていません...私はz-scoresこの問題で、値を標準化し、分布内の位置を正規化するという概念を混乱させていました。製品のグループを可変性の順にランク付けできることです。ピーターとジョンはどちらも非常に役に立ちましたが、概念的な混乱について私に注意を促したので、正しい答えとしてあなたの答えを選択しました。選択肢1が中央値0付近での使用が制限されていることの良い点。幸いなことに、私の問題では、これについて心配する必要はありません。
アサドエブラヒム

これを論文で使いたい。それが参照される良い場所はありますか(本/どこかで査読済み)?
ベンボルカー

15

最小値と最大値は使用するのにあまり良い統計ではないことを認識することが重要です(つまり、それらはサンプルごとに大きく変動する可能性があり、たとえば中央限界定理による平均などの正規分布に従わない) 。その結果、この正確なサンプルの範囲を示す以外の範囲では、範囲が適切な選択となることはめったにありません。変動性を表す単純なノンパラメトリック統計の場合、四分位範囲ははるかに優れています。ただし、IQR /中央値と変動係数の類似性は見られますが、これが最良の選択肢になるとは思いません。

MADM=median(|ximedian(x)|

1
の興味深い選択はMADM/median、本質的に中間値との中間の差です。これを選択肢3と呼びましょう。選択肢1の評価に同意してください。「より良い」と提案した場合、選択肢2と選択肢3を比較してどちらが優れているかを確認するためにどの属性を使用できますか?
アサドエブラヒム

1
使用する属性は、メトリックの目標によって異なります。ただし、CoVのより良い類推であることを意味しているだけです。注:3番目の四分位数は中央値を超えるデータの中央値であり、1番目のqは以下のものの中央値であるため、長期的にはIQR / 2はMADMと等しくなります(nb、等しいことは保証されません)特定のサンプルで)。IQRは、ポップでの真の値から、平均してさらに変化しますが、もしあれば、どのような影響があり、スタンドになるかはわかりません。エラー IQR / 2のMADMのSEと同じである必要があります。
GUNG -復活モニカ

わかりました、わかりました。Q3およびQ1の解釈の中央値についての良い点。MADM/median一緒に試してみますIQR/median。並べて比較すると面白いかもしれません。(興味深い提案に対して+1)
アサド・エブラヒム

6

「選択肢1」は、外れ値の影響を減らすという一般的な目的でノンパラメトリックを使用する場合に必要なものです。スキューのために使用している場合でも、テールに通常は極端な値があるという副作用がありますが、それは外れ値である可能性があります。「選択2」は、外れ値または極端な値によって劇的に影響を受ける可能性がありますが、最初の方程式のコンポーネントはそれらに対して比較的堅牢です。

[これは、どの種類のIQRを選択するかに少し依存します(分位点に関するRヘルプを参照)。


そうです、私は「これは変動係数の定義に類似しています...(この質問で修正済みです!)
アサドエブラヒム

コメントのおかげで、あなたが選択する種類IQRのものに依存しては... -私は四分位数/分位のために非常に多くのpossibile定義があった実現していませんでした!Excelの組み込みquartile( )関数を使用して、を取得していIQR := Q3 - Q1ます。私の数字は、1年間の週単位の時系列データに基づいています。測定値は、工業用の性能測定値であり、連続的な分布からのものです。異なる集団は異なる製品グループです。この状況では、異なる定義が実際に大きく異なるとは思いませんか?
アサドエブラヒム

6

私はほとんど常にランダム変数の任意の起源を持っているので、CVのようなメジャーを計算することを好みません。堅牢な分散測定の選択に関しては、2つの観測値間の差のすべての可能な絶対値の平均であるGiniの平均差を打つことは困難です。効率的な計算については、たとえばR rmsパッケージGiniMd関数を参照してください。通常、Giniの平均差は、分散を推定するためのSDと同じ0.98です。


3

@Johnのように、変動係数の定義について聞いたことがない。私はそれを使用した場合、それは人々を混乱させるとは呼びません。

「どれが最も便利ですか?」何に使用するかによって異なります。確かに選択1は、外れ値に対してより堅牢です。しかし、2つの分布を比較する目的は何ですか?あなたは何をしようとしているのですか?

1つの代替方法は、両方のメジャーを標準化してから要約を確認することです。

もう1つはQQプロットです。

他にもたくさんあります。


良い点- 変動係数に類似していると言っていたはずです(私は修正しました)。
アサドエブラヒム

私の数字は、1年間にわたる週単位の時系列から得られます。測定値は、工業用の性能測定値であり、連続的な分布からのものです。異なる母集団は異なる製品グループであり、約50の製品グループがあります。私がやろうとしているのは、異なる製品グループ間の固有の変動を比較できるようにすることです。特に、変動の大きい順に製品グループをランク付けできるようにしたいと考えています。
アサドエブラヒム

「両方の測定値を標準化してから要約を見る」とはどういう意味ですか?選択肢1がそれらを標準化していると思いました...!
アサドエブラヒム

2

このホワイトペーパーでは、変動係数の2つの優れた堅牢な代替案を紹介します。1つは四分位範囲です中央値で割ったもの、つまり:

IQR /中央値=(Q3-Q1)/中央値

もう1つは、絶対偏差中央値です。の中央値を中央値で除算したものです。

MAD /中央値

彼らはそれらを比較し、一般的に言えば、2番目の変数は変数が少し少なく、おそらくほとんどのアプリケーションでより良いと結論付けています。

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.