外れ値を平均で置き換える


31

この質問は、インターネットに精通していない友人によって尋ねられました。私は統計のバックグラウンドがなく、この質問をインターネットで検索しています。

問題は、外れ値を平均値で置き換えることは可能ですか?可能であれば、この声明をバックアップするための書籍の参照/ジャーナルはありますか?


25
これを行うことは確かに可能ですが、そうすることが理にかなっている状況を想像することは困難です。
ピーターフロム-モニカの復職

2
すでにいくつかの長い回答がありますが、@ Peter Flomの1つの文の要約が要約として一致する可能性は低いです。
ニックコックス

4
部屋のゾウについてはまだ答えがありません。「外れ値」を平均で置き換えると、データセットの平均が保持されますが、他のほとんどの統計は変わります。さらに、平均の標準誤差の推定値を変更します。したがって、@ Peter Flomのコメントをサポートして、結果のデータセットは、信頼性のある形式の推論には役立ちません。(おそらく、それはそれ自体ではなく、反復手順の中間ステップで使用して外れ値を特定し、そのような手順が最初に存在する理由を説明できると考えられます。)
whuber

1
@whuber明らかに重要なポイント。このスレッドをすばやく読み過ぎた人が見逃さないように、別の答えにします。このデバイスに誘惑された人々は、(a)良いアイデアではないこと、(b)悪いアイデアであることを認識する必要があるようです。
ニックコックス

1
@ user2357112意味は、使用される平均が他の値の平均であることです。信頼できないとみなされる外れ値は、計算に含めないでください。
ニックコックス

回答:


41

明らかにそれは可能ですが、それが良いアイデアになる可能性があるかどうかは明らかではありません。

これが限定的または不十分な解決策であるいくつかの方法を説明しましょう。

  • 実際、あなたは唯一の可能な推測が値が平均であるべきであるという程度まで、外れ値が完全に信頼できないと言っています。それがあなたが考えるものであるならば、明らかにあなたがより良い推測をするのに十分な情報を持っていないので、問題の観察を省略するだけの方がより正直である可能性が高い。

  • 何も言わずに、最初に外れ値を識別するための1つまたは複数の基準が必要です(@Frank Harrellが暗示しているように)。さもなければ、これは判断の問題として弁護されたとしても、これはarbitrary意的で主観的な手順です。いくつかの基準では、この方法で外れ値を削除すると、副作用としてさらに多くの外れ値が作成される可能性があります。例としては、外れ値が平均から非常に多くの標準偏差を超えている場合があります。外れ値を削除すると標準偏差が変更され、新しいデータポイントが対象となる場合があります。

  • おそらく、ここでの平均とは、他のすべての値の平均、つまり@David Marxによって明示されたポイントを意味します。この規定がなければアイデアはあいまいです。

  • 平均値を使用することは安全または保守的な手順のように思えますが、値を平均値に変更すると、レベル、スケール、形状、および不確実性の指標を含む他のほとんどすべての統計が変更されます。

  • 平均は実行可能な値ではない場合もあります。単純な例は、値が整数である場合ですが、通常は平均は整数ではありません。

  • 要約測定値を使用することは慎重であるという考えがありますが、中央値または他の測定値ではなく平均値を使用するには、何らかの正当化が必要です。

  • 他の変数がある場合は常に、他の変数を参照せずに1つの変数の値を変更すると、データポイントが他の意味で異常になる可能性があります。

外れ値をどうするかは、オープンで非常に難しい質問です。大まかに言って、さまざまなソリューションと戦略にはさまざまな魅力があります。以下は、可能性の一部のリストです。順序は任意であり、適用性、重要性、またはその他の基準に関して順序を伝えることを意図したものではありません。これらのアプローチは相互に排他的でもありません。

  • 1つの(私の考えでは)良い定義は、「[o] utliersはサンプルの大部分に関して驚きを引き起こすサンプル値です」(WN VenablesおよびBD Ripley。2002. S. New Yorkの最新の応用統計:Springer、 p.119)。しかし、驚きは見る人の心にあり、データの暗黙的または明示的なモデルに依存しています。異常値がまったく驚くべきものではない別のモデルが存在する可能性があるため、データは実際には(たとえば)通常ではなく対数正規またはガンマです。つまり、モデルを(再)検討する準備をしてください。

  • 実験室またはフィールドに移動して、再度測定を行います。多くの場合、これは実用的ではありませんが、いくつかの科学では標準的なようです。

  • 外れ値が本物かどうかをテストします。ほとんどのテストは私にはかなり不自然に見えますが、あなたは自分の状況に合っていると信じられるものを見つけるかもしれません。テストが適切であるという不合理な信仰は、テストを適用するために常に必要です。

  • 判断の問題としてそれらを捨てます。

  • 多かれ少なかれ自動化された(通常は「客観的」ではない)ルールを使用してそれらを捨てます。

  • それらを部分的または完全に無視します。これは正式なもの(トリミングなど)である場合もあれば、データセットに残しておくだけの問題である場合もありますが、それらを分析するには熱すぎて処理できません。

  • Winsorizingなど、何らかの調整を使用してそれらを引き出します。

  • 他の堅牢な推定方法を使用して、それらを軽視します。

  • 変換されたスケールで作業して、それらを軽視します。

  • 非IDリンク機能を使用してそれらを軽視します。

  • 予測子なしまたは予測子を使用して、適切なファット、ロング、またはヘビーテール分布を適合させることにより、それらに対応します。

  • モデルの追加の予測子としてインジケーターまたはダミー変数を使用して調整します。

  • いくつかのノンパラメトリック(ランクベースなど)の手順を使用して、問題を回避します。

  • ブートストラップ、ジャックナイフ、または順列ベースの手順を使用して、暗黙の不確実性を把握します。

  • 決定論的論理に基づいて、外れ値をより可能性の高い値に置き換えるように編集します。「18歳の祖母がいる可能性は低いが、問題の人物は1932年に生まれたので、おそらく81歳だろう。」

  • 編集して、現在受け入れ可能な非常に白い魔法である何らかの代入法を使用して、不可能または信じられない外れ値を置き換えます。

  • 統計的に、科学的に、または実際に、異常値が存在する場合としない場合を分析し、外れ値がどれほどの違いをもたらすかを確認します。

  • 何かベイジアン。事前に詳細を説明することを禁じているものをまったく知らない。

編集この第2版は、他の回答とコメントの恩恵を受けます。私はインスピレーションの源にフラグを立てようとしました。


1
(+1)いい答え。ベイジアン側では、多くのことを行うことができますが、実際には、そのような値を持つようになったモデル(外れ値につながるプロセス)を構築しようとしています。たとえば、「各データ値は、データの大部分よりもはるかにワイルドな分布に由来する小さな未知の確率をいくつか持っている」などの単純なもので、その確率に事前分布を設定し、そのワイルドの選択を形式化するパラメータの分布と事前分布。その効果は、モデルに適合しないポイントの影響を小さくすることです。
-Glen_b

16

質問には、いくつかの問題が含まれています。

  1. 「外れ値」とは何ですか?
  2. 「外れ値」を置き換える必要がありますか?
  3. 他の推定値とは対照的に、平均について特別なことは何ですか?
  4. 分散が小さすぎる単一の値に置き換えると、見かけの分散が増加するようにどのように補正しますか?
  5. 外れ値に強い堅牢な推定器を使用してみませんか?
  6. これは独立変数ですか、従属変数ですか?

1〜5のどれにも明らかな答えはありません。これらの「外れ値」が間違っていると感じており、堅牢な統計手法を使用したくない場合は、それらを欠落させ、複数の代入を1つの可能な解決策として使用できます。変数が従属変数の場合、堅牢な選択肢の1つは順序回帰です。


1
+1、良い点。OLRの提案に興味があります。テューキーのバイスクエアなどのロバストな損失関数を使用することを好む理由はありますか?
GUNG -復活モニカ

2
YY

9

この提案には多くの欠陥があります。これがおそらく最大のものです。

データを収集していて、次の値が表示されているとします:

231

6/3=2

その後、外れ値が発生します。

2311000

だからあなたはそれを平均に置き換えます:

2312

次の数字は良いです:

23127

今、平均は3です。ちょっと待って、平均は3になりましたが、4番目の値として発生したからといって、1000を平均2に置き換えました。サンプルの順序を変更するとどうなりますか?

23171000

2+3+1+7/4=13/4

問題は、1000の代わりに使用している偽のデータが他のデータに依存していることです。サンプルが独立した測定値を表すことになっている場合、それは認識論的な問題です。

nnnnn

基本的に、適合しない結果を削除することは1つのことです(実験者の気分変動の変化ではなく、アルゴリズムに従って一貫して行われる場合は正当化できます)。

哲学的、認識論的、倫理的な理由で、完全に偽造された結果は好ましくありません。

結果がどのように使用されるかに関係する、やっかいな状況があるかもしれません。たとえば、現在の平均値によるこの外れ値の置換は、組み込みコンピューターのアルゴリズムの一部であり、閉ループ制御システムを実装できるとしましょう。(いくつかのシステム出力をサンプリングしてから、制御を実現するために入力を調整します。)すべてがリアルタイムであるため、データが欠落している場所に一定期間、何かを提供する必要があります。この混乱がグリッチを克服し、スムーズな動作を保証するのに役立つ場合、すべてが良好です。

デジタルテレフォニーの別の例を次に示します。PLC(パケット損失隠蔽)。クラップが発生し、パケットが失われますが、通信はリアルタイムです。PLCは、正しく受信したパケットからの最近のピッチ情報に基づいて、偽の音声を合成します。そのため、発言者が母音「aaa」と言ってからパケットが失われた場合、PLCはフレーム期間(5または10ミリ秒など)の「aaa」を外挿することで、欠落したパケットをパディングできます。「aaa」は、話者の声に似ています。これは、「平均」を使用して、不良と見なされる値を置き換えることに似ています。それはいいことです; 音をカットしたりカットしたりするよりも優れており、明瞭度に役立ちます。

データの混乱が、失敗した作業を隠そうと人々に嘘をつくプログラムの一部である場合、それは別のことです。

したがって、アプリケーションとは独立して考えることはできません。統計はどのように使用されていますか?代替は無効な結論につながりますか?倫理的な意味合いはありますか?


電話の話は非常に興味深いものですが、欠損値を置き換えるための防御可能な補間の問題のようです。純粋にローカルな操作のみが必要であり、ローカルな変更はデータセット全体の「分析」の二次的なものであるため、異常値置換との接続は希薄です。
ニックコックス

2
ここにたくさんの興味深いアイデアがあります(+1)。ただし、交換手順は必ずしも連続的ではないことに注意してください。すべての「外れ値」を一度に識別、それらすべてを残りの平均値で置き換えることができます。これは、Winsorizingとは異なり、一貫した手順です。
whuber

6

CousineauとChartierによるこの記事では、外れ値を平均値に置き換えることについて説明しています。

http://www.redalyc.org/pdf/2990/299023509004.pdf

あの人たちは書く:

Tabachnick and Fidell(2007)は、欠損データを対応するセルの残りのデータの平均に置き換えることを提案しました。ただし、この手順は、母集団の広がりを減らし、観測された分布をよりレプトクトリックにし、タイプIエラーの可能性を高める傾向があります。より複雑な手法である複数の代入は、外れ値(または欠損データ)を可能な値に置き換えることを伴います(Elliott&Stettler、2007; Serfling&Dang、2009)。

また、外れ値を平均で置き換える機能を持つRパッケージ「外れ値」もあります。また、Googleの検索で、SPSSにもそのような機能があることを示唆するヒットが多数見られましたが、そのプログラムには詳しくありません。おそらく、スレッドをたどると、実践の技術的基盤を見つけることができます。

参照資料

  • Cousineau、D.、&Chartier、S.(2010)。外れ値の検出と処理:レビュー。International Journal of Psychological Research、3(1)、58-67。

「平均」という単語のすべての出現について参照を検索しましたが、外れ値を平均に置き換えることを議論する場所は見つかりませんでした。私が何かを見逃した場合、この議論がどこで発生するかをより正確に示すことができますか?
whuber

1
リンクを変更したのは、それを機能させることができなかったからです。文書の9ページで、著者は「明らかに偽のアクティビティの結果である外れ値を削除する必要があります。ただし、多変量設計では、そうすると分析が実行できなくなるほど多くの参加者が削除される可能性があります」 。Tabachnick and Fidell(2007)は、欠損データを対応するセルの残りのデータの平均に置き換えることを提案しました。」
トーマス

2
ありがとう:私は今それを見る。ただし、これを長所と短所のバランスがとれる可能性があることを示唆する「議論」として説明することは、誤解を招く可能性があります。なぜなら、この節では、(a)多変量アプリケーションのみ、(b)のみその欠陥を指摘するために、代わりに複数の代入を検討する提案をまとめました。(興味深いことに、この手順に関するこの論文の参考文献は、その参考文献にも表示されていません。)
whuber

5
はい、引用文献がよだれかけにないのは奇妙です。「ANOVAを使用した実験デザイン」という本のようです。元の要求に応答し、外れ値の平均を置き換える方法の参考資料を提供しようとしていました。簡単な検索で見つけることができたのはその論文だけであり、OPがより完全な答えを見つけることができるように、リードを提供できることを望みました。
トーマス

4

外れ値に対処するときに留意すべき主なことは、外れ値が有用な情報を提供しているかどうかです。それらが定期的に発生することが予想される場合、データからそれらを除去すると、モデルがそれらを予測しないことが保証されます。もちろん、それはあなたがモデルに何をして欲しいかによって異なりますが、必ずしもそれらを落とすべきではないことを心に留めておく価値があります。それらに重要な情報が含まれている場合、それらを説明できるモデルを検討することができます。それを行う1つの簡単な方法は、変数のログを取得することです。あるいは、エラーのファットテール分布でそれらを説明するモデルを使用できます。

それらを切り取りたい場合、通常の方法はそれらをドロップするか、Winsoriseで極端な値を削除することです。手元に教科書はありませんが、さらに読みたい場合は、そこのWikiリンクがいくつかを参照しています。適用される統計に関するほとんどのテキストには、外れ値に関するセクションが必要です。


3

私は統計における2つの関連する同様のアプローチを知っています。

  • 1
  • Winsorization:トリム平均と同様に、極端な観測値のみを変更します。ただし、それらを削除するのではなく、最大/最小の非極端な観測値に置き換えます。多くの場合、これはトリミングよりもわずかに優れています。

より詳細な例については、Wikipediaを参照してください。

https://en.wikipedia.org/wiki/Trimmed_estimator

https://en.wikipedia.org/wiki/Winsorising

これは、平均を計算するときなど、一部の統計に適しています。トリミングされた/ウィンソライズされた平均は、多くの場合、人工平均よりも真の平均のより良い推定値です。それ以外の場合、統計が台無しになる可能性があります。たとえば、分散を計算する場合、トリミングは常に実際の分散を過小評価します。ウィンザー化は、実際には極端な観測のいくつかに欠陥があると仮定すると、少し良くなります(おそらく過小評価されますが、それほどではありません)。

ここで極値を平均値に置き換えるとどうなるかわかりません。

ただし、関連する別のプラクティスがあります欠損値の代入です。外れ値に欠陥があり、価値のないデータであると仮定して、それを削除します。次に代入を実行すると、一般的な代替値は平均値またはモードになります。

https://en.wikipedia.org/wiki/Imputation_%28statistics%29


1
非対称トリミングは、既知の防御可能な戦術です。
ニックコックス

2

外れ値を処理するための従来のアプローチは、単純にそれらを削除して、モデルが「良い」データのみでトレーニングされるようにすることです。

平均値は、これらの外れ値の存在によって影響を受けることに注意してください。外れ値をデータセットから削除した後に計算された平均値で外れ値を置き換えても、(単純な線形回帰からの)回帰線がトレーニングデータの平均を通過するため、違いはありません(これにより、しかし、推定値は、外れ値があることがわかっているため、おそらくあなたが望むものの反対です)。

アプローチがモデルに与える影響は、外れ値の影響(レバレッジ)に依存します。ポイントを完全に削除する代わりに、あなたが提案するアプローチに反対することをお勧めします。


4
データの削除は、削除の手順が客観的であり、その同じ手順が予測が得られる将来のすべてのデータに適用されない限り、バイアスを引き起こします。
フランクハレル

0

はい、外れ値は複数の形式で置き換えることができます。たとえば、人間の身長のサイズのデータ​​セットを取りましょう。500cmや400 cmのような外れ値があるとします。データの記録中に発生したエラーのためにデータセット。そのため、試すことができるオプションは1です。これをデータの色全体の中央値に置き換えます(外れ値になりやすいため、平均ではありません)。2.列の最も頻繁に発生するデータポイントに置き換えます。3.カテゴリ値の場合は、応答コーディングを試すことができます。(単語の確率または単語の総数によって発生する値を記録します)

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.