データのウィンザライズとトリミングの相対的なメリットは何ですか?


31

データのウィンソライズとは、データセットの極値を各端から特定のパーセンタイル値に置き換えることを意味し、トリミングまたは切り捨てにはこれらの極値の削除が含まれます。

平均または標準偏差などの統計を計算する際に、外れ値の影響を軽減するための実行可能なオプションとして、両方の方法について説明していますが一方を選択する理由はわかりません。

WinsorizingまたはTrimmingを使用することに相対的な利点または欠点はありますか?1つの方法が望ましい特定の状況はありますか?実際にはもっと頻繁に使用されていますか、それとも基本的に交換可能ですか?


2
ここでの用語は誤解を招くものです。トリミングとは、極端な値を無視することを意味します。特に、他の分析に値を含める可能性があり、通常はそうする必要があるため、末尾の値の削除または削除を意味するものではありません。切り捨てという用語は、他の意味に最も適しています。例:en.wikipedia.org/wiki/Truncation_(statistics)
ニックコックス14年

回答:


11

私が偶然見つけたトリミングに関する別の、しかし関連する質問で、ある答えには、ウィンザー化またはトリミングのいずれかを使用する理由について次の有益な洞察がありました。

トリミングされた分布をとる場合、明示的に次のように述べます。分布の外れ値/テールには興味がありません。「外れ値」が本当に外れ値である(つまり、分布に属さないが「別の種類」である)と思われる場合は、トリミングを行います。それらがディストリビューションに属していると思うが、より偏りの少ないディストリビューションにしたい場合は、ウィンザー化について考えることができます。

もっと決定的なアプローチがあるかどうか興味がありますが、上記の論理は妥当に聞こえます。


4

すべての分野で非常に頻繁に直面する良い質問です!どちらの場合も、データセットから技術的に削除します。

切り捨ての形式を使用してグラフで傾向を見つけようとするとき、それが一般的な慣行であることを知っています。

'winsorizing'の問題は、追加する部分が自己完結していることです。つまり、それらはデータセット自体に由来するため、それをサポートするだけです。トレーニングとテストデータセットの使用方法を決定するときに、機械学習で相互検証/分類作業を見ると、同様の問題があります。

いずれにせよ、標準化されたアプローチに出会ったことはありません-それは常にデータ固有です。データのどのパーセンタイル(外れ値)がボラティリティ/ stの特定の割合を引き起こしているかを調べることができます。そして、そのボラティリティを減らすことと、可能な限り多くのデータを保持することの間のバランスを見つけます。


6
As in my comment above, "removing them from the data set" is too strong here. Trimming or Winsorizing just means what it does, ignoring or replacing as may be, for a certain calculation. You are not obliged to remove the tail values from the dataset, as if you were throwing out rotten fruit. For example, faced with possible outliers, you might do an analysis of the data as they come and an analysis based on trimming and see what difference it makes.
Nick Cox

-1

これは良い質問であり、私が直面しているものです。大きなデータセットまたはより正確に大きく変化するデータセットがあり、少数のデータ値が広いスケールで変化する場合(ただし、表示する必要があります)で、データセットの大部分が狭い帯域内にある場合、データをそのままプロットすると、データの大半が存在する詳細が失われ、正規化または標準化が適切に区別されないことが(少なくとも視覚的に)示されないか、代わりに生データが必要になり、その後切り捨てまたはウィンソライズされます極端なデータ値は、データの視覚化に役立ちます。


It's a good question, but you don't answer it. You just say that truncating or Winsorizing can help visualization.
Nick Cox

-2

One advantage of Winsorizing is that the calculation may be more efficient. In order to calculate a true truncated mean, you need to sort all of the data elements, and that is typically O(nlogn). However there are efficient ways of figuring out just the 25% and 75% percentiles using a the quick select algorithm, which is typically O(n). If you know these end points, you can quickly loop over the data again, and replace values less than 25% with the 25% value and more than 75% with 75% and average. This is identical to the Winsor mean. But looping over the data and only averaging data between the 25% value and 75% value is NOT identical to the truncated mean, because the 25% or 75% values may not be a unique value. Consider the data sequence (1,2,3,4,4). The Winsor mean is (2+2+3+4+4)/5. The correct truncated mean should be (2+3+4)/3. The "quick-select" optimized truncated mean will be (2+3+4+4)/4.


1
It is not the case that you need to sort all the data to compute a median (as true a median as you like), nor is it true that it's an O(nlogn) calculation to find it. There are algorithms for finding the median that are O(n) (worst case). [Further, if quick select could find the 25th and 75th percentiles in O(n) as you say, why would quick select be unable to find the 50th percentile in the same order?]
Glen_b -Reinstate Monica

You are correct. I mistyped my original post. Sometimes the typing fingers and brain are not in sync. I meant to say to correctly calculate a true truncated mean, you need to sort all of the data elements. I believe this is still true. I've updated by answer.
Mark Lakata

2
This seems to imply that Winsorizing means Winsorizing 25% in each tail. You can Winsorize as much or as little as seems appropriate.
Nick Cox
弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.