この質問は、インターネットに精通していない友人によって尋ねられました。私は統計のバックグラウンドがなく、この質問をインターネットで検索しています。
問題は、外れ値を平均値で置き換えることは可能ですか?可能であれば、この声明をバックアップするための書籍の参照/ジャーナルはありますか?
この質問は、インターネットに精通していない友人によって尋ねられました。私は統計のバックグラウンドがなく、この質問をインターネットで検索しています。
問題は、外れ値を平均値で置き換えることは可能ですか?可能であれば、この声明をバックアップするための書籍の参照/ジャーナルはありますか?
回答:
明らかにそれは可能ですが、それが良いアイデアになる可能性があるかどうかは明らかではありません。
これが限定的または不十分な解決策であるいくつかの方法を説明しましょう。
実際、あなたは唯一の可能な推測が値が平均であるべきであるという程度まで、外れ値が完全に信頼できないと言っています。それがあなたが考えるものであるならば、明らかにあなたがより良い推測をするのに十分な情報を持っていないので、問題の観察を省略するだけの方がより正直である可能性が高い。
何も言わずに、最初に外れ値を識別するための1つまたは複数の基準が必要です(@Frank Harrellが暗示しているように)。さもなければ、これは判断の問題として弁護されたとしても、これはarbitrary意的で主観的な手順です。いくつかの基準では、この方法で外れ値を削除すると、副作用としてさらに多くの外れ値が作成される可能性があります。例としては、外れ値が平均から非常に多くの標準偏差を超えている場合があります。外れ値を削除すると標準偏差が変更され、新しいデータポイントが対象となる場合があります。
おそらく、ここでの平均とは、他のすべての値の平均、つまり@David Marxによって明示されたポイントを意味します。この規定がなければアイデアはあいまいです。
平均値を使用することは安全または保守的な手順のように思えますが、値を平均値に変更すると、レベル、スケール、形状、および不確実性の指標を含む他のほとんどすべての統計が変更されます。
平均は実行可能な値ではない場合もあります。単純な例は、値が整数である場合ですが、通常は平均は整数ではありません。
要約測定値を使用することは慎重であるという考えがありますが、中央値または他の測定値ではなく平均値を使用するには、何らかの正当化が必要です。
他の変数がある場合は常に、他の変数を参照せずに1つの変数の値を変更すると、データポイントが他の意味で異常になる可能性があります。
外れ値をどうするかは、オープンで非常に難しい質問です。大まかに言って、さまざまなソリューションと戦略にはさまざまな魅力があります。以下は、可能性の一部のリストです。順序は任意であり、適用性、重要性、またはその他の基準に関して順序を伝えることを意図したものではありません。これらのアプローチは相互に排他的でもありません。
1つの(私の考えでは)良い定義は、「[o] utliersはサンプルの大部分に関して驚きを引き起こすサンプル値です」(WN VenablesおよびBD Ripley。2002. S. New Yorkの最新の応用統計:Springer、 p.119)。しかし、驚きは見る人の心にあり、データの暗黙的または明示的なモデルに依存しています。異常値がまったく驚くべきものではない別のモデルが存在する可能性があるため、データは実際には(たとえば)通常ではなく対数正規またはガンマです。つまり、モデルを(再)検討する準備をしてください。
実験室またはフィールドに移動して、再度測定を行います。多くの場合、これは実用的ではありませんが、いくつかの科学では標準的なようです。
外れ値が本物かどうかをテストします。ほとんどのテストは私にはかなり不自然に見えますが、あなたは自分の状況に合っていると信じられるものを見つけるかもしれません。テストが適切であるという不合理な信仰は、テストを適用するために常に必要です。
判断の問題としてそれらを捨てます。
多かれ少なかれ自動化された(通常は「客観的」ではない)ルールを使用してそれらを捨てます。
それらを部分的または完全に無視します。これは正式なもの(トリミングなど)である場合もあれば、データセットに残しておくだけの問題である場合もありますが、それらを分析するには熱すぎて処理できません。
Winsorizingなど、何らかの調整を使用してそれらを引き出します。
他の堅牢な推定方法を使用して、それらを軽視します。
変換されたスケールで作業して、それらを軽視します。
非IDリンク機能を使用してそれらを軽視します。
予測子なしまたは予測子を使用して、適切なファット、ロング、またはヘビーテール分布を適合させることにより、それらに対応します。
モデルの追加の予測子としてインジケーターまたはダミー変数を使用して調整します。
いくつかのノンパラメトリック(ランクベースなど)の手順を使用して、問題を回避します。
ブートストラップ、ジャックナイフ、または順列ベースの手順を使用して、暗黙の不確実性を把握します。
決定論的論理に基づいて、外れ値をより可能性の高い値に置き換えるように編集します。「18歳の祖母がいる可能性は低いが、問題の人物は1932年に生まれたので、おそらく81歳だろう。」
編集して、現在受け入れ可能な非常に白い魔法である何らかの代入法を使用して、不可能または信じられない外れ値を置き換えます。
統計的に、科学的に、または実際に、異常値が存在する場合としない場合を分析し、外れ値がどれほどの違いをもたらすかを確認します。
何かベイジアン。事前に詳細を説明することを禁じているものをまったく知らない。
編集この第2版は、他の回答とコメントの恩恵を受けます。私はインスピレーションの源にフラグを立てようとしました。
質問には、いくつかの問題が含まれています。
1〜5のどれにも明らかな答えはありません。これらの「外れ値」が間違っていると感じており、堅牢な統計手法を使用したくない場合は、それらを欠落させ、複数の代入を1つの可能な解決策として使用できます。変数が従属変数の場合、堅牢な選択肢の1つは順序回帰です。
この提案には多くの欠陥があります。これがおそらく最大のものです。
データを収集していて、次の値が表示されているとします:
その後、外れ値が発生します。
だからあなたはそれを平均に置き換えます:
次の数字は良いです:
今、平均は3です。ちょっと待って、平均は3になりましたが、4番目の値として発生したからといって、1000を平均2に置き換えました。サンプルの順序を変更するとどうなりますか?
問題は、1000の代わりに使用している偽のデータが他のデータに依存していることです。サンプルが独立した測定値を表すことになっている場合、それは認識論的な問題です。
基本的に、適合しない結果を削除することは1つのことです(実験者の気分変動の変化ではなく、アルゴリズムに従って一貫して行われる場合は正当化できます)。
哲学的、認識論的、倫理的な理由で、完全に偽造された結果は好ましくありません。
結果がどのように使用されるかに関係する、やっかいな状況があるかもしれません。たとえば、現在の平均値によるこの外れ値の置換は、組み込みコンピューターのアルゴリズムの一部であり、閉ループ制御システムを実装できるとしましょう。(いくつかのシステム出力をサンプリングしてから、制御を実現するために入力を調整します。)すべてがリアルタイムであるため、データが欠落している場所に一定期間、何かを提供する必要があります。この混乱がグリッチを克服し、スムーズな動作を保証するのに役立つ場合、すべてが良好です。
デジタルテレフォニーの別の例を次に示します。PLC(パケット損失隠蔽)。クラップが発生し、パケットが失われますが、通信はリアルタイムです。PLCは、正しく受信したパケットからの最近のピッチ情報に基づいて、偽の音声を合成します。そのため、発言者が母音「aaa」と言ってからパケットが失われた場合、PLCはフレーム期間(5または10ミリ秒など)の「aaa」を外挿することで、欠落したパケットをパディングできます。「aaa」は、話者の声に似ています。これは、「平均」を使用して、不良と見なされる値を置き換えることに似ています。それはいいことです; 音をカットしたりカットしたりするよりも優れており、明瞭度に役立ちます。
データの混乱が、失敗した作業を隠そうと人々に嘘をつくプログラムの一部である場合、それは別のことです。
したがって、アプリケーションとは独立して考えることはできません。統計はどのように使用されていますか?代替は無効な結論につながりますか?倫理的な意味合いはありますか?
CousineauとChartierによるこの記事では、外れ値を平均値に置き換えることについて説明しています。
http://www.redalyc.org/pdf/2990/299023509004.pdf
あの人たちは書く:
Tabachnick and Fidell(2007)は、欠損データを対応するセルの残りのデータの平均に置き換えることを提案しました。ただし、この手順は、母集団の広がりを減らし、観測された分布をよりレプトクトリックにし、タイプIエラーの可能性を高める傾向があります。より複雑な手法である複数の代入は、外れ値(または欠損データ)を可能な値に置き換えることを伴います(Elliott&Stettler、2007; Serfling&Dang、2009)。
また、外れ値を平均で置き換える機能を持つRパッケージ「外れ値」もあります。また、Googleの検索で、SPSSにもそのような機能があることを示唆するヒットが多数見られましたが、そのプログラムには詳しくありません。おそらく、スレッドをたどると、実践の技術的基盤を見つけることができます。
外れ値に対処するときに留意すべき主なことは、外れ値が有用な情報を提供しているかどうかです。それらが定期的に発生することが予想される場合、データからそれらを除去すると、モデルがそれらを予測しないことが保証されます。もちろん、それはあなたがモデルに何をして欲しいかによって異なりますが、必ずしもそれらを落とすべきではないことを心に留めておく価値があります。それらに重要な情報が含まれている場合、それらを説明できるモデルを検討することができます。それを行う1つの簡単な方法は、変数のログを取得することです。あるいは、エラーのファットテール分布でそれらを説明するモデルを使用できます。
それらを切り取りたい場合、通常の方法はそれらをドロップするか、Winsoriseで極端な値を削除することです。手元に教科書はありませんが、さらに読みたい場合は、そこのWikiリンクがいくつかを参照しています。適用される統計に関するほとんどのテキストには、外れ値に関するセクションが必要です。
私は統計における2つの関連する同様のアプローチを知っています。
より詳細な例については、Wikipediaを参照してください。
https://en.wikipedia.org/wiki/Trimmed_estimator
https://en.wikipedia.org/wiki/Winsorising
これは、平均を計算するときなど、一部の統計に適しています。トリミングされた/ウィンソライズされた平均は、多くの場合、人工平均よりも真の平均のより良い推定値です。それ以外の場合、統計が台無しになる可能性があります。たとえば、分散を計算する場合、トリミングは常に実際の分散を過小評価します。ウィンザー化は、実際には極端な観測のいくつかに欠陥があると仮定すると、少し良くなります(おそらく過小評価されますが、それほどではありません)。
ここで極値を平均値に置き換えるとどうなるかわかりません。
ただし、関連する別のプラクティスがあります。欠損値の代入です。外れ値に欠陥があり、価値のないデータであると仮定して、それを削除します。次に代入を実行すると、一般的な代替値は平均値またはモードになります。
外れ値を処理するための従来のアプローチは、単純にそれらを削除して、モデルが「良い」データのみでトレーニングされるようにすることです。
平均値は、これらの外れ値の存在によって影響を受けることに注意してください。外れ値をデータセットから削除した後に計算された平均値で外れ値を置き換えても、(単純な線形回帰からの)回帰線がトレーニングデータの平均を通過するため、違いはありません(これにより、しかし、推定値は、外れ値があることがわかっているため、おそらくあなたが望むものの反対です)。
アプローチがモデルに与える影響は、外れ値の影響(レバレッジ)に依存します。ポイントを完全に削除する代わりに、あなたが提案するアプローチに反対することをお勧めします。