回帰モデルを改善するために平均絶対誤差の箱ひげ図に基づいて外れ値を削除するのはごまかしですか

15

下の箱ひげ図に示すように、4つの方法でテストされた予測モデルがあります。モデルが予測する属性の範囲は0〜8です。

すべてのメソッドで、1つの上限外れ値と3つの下限外れ値が示されていることに気付くかもしれません。これらのインスタンスをデータから削除することが適切かどうか疑問に思いますか？または、これは予測モデルを改善するための一種の不正行為ですか？

— レナクレ
ソース

1

（1）3つではなく4つの方法の結果が表示されます。（2）予測機能の証拠を削除することで、方法を改善できる可能性がある方法はありますか？

— whuber

@whuber（1）は修正されました。（2）については、あなたは非常に不正確に、予測されている（これは私が何を意味し、全体でより良い予測性能につながらないインスタンス取り除く意味ので「モデルを向上させる」？

— renakre

7

何らかの理由で観測値を削除すること（4つの最も適切でない点など）自体がモデル選択です。この 2番目のモデル選択の予測パフォーマンスも評価する必要があります。重要な点は、全体的な予測方法のパフォーマンスを評価するために使用される最終テストセットの整合性を維持することです。ひどく予測されたデータを削除した後、モデル（Lassoなど）を再構成する計画があるかどうかは、質問から明らかではありません。

— user603

2

補足として、外れ値には大きな価値が隠されている可能性があり、それらを注意深く見る価値があると付け加えます。

— ドクターアタリア

@DrorAtariah Dror、ありがとう。極端なケースは貴重です。

— レナクレ

22

ほとんど常に観測を除去するための不正行為向上させるために回帰モデルを。これらが実際には外れ値であると本当に考えている場合にのみ、観測を削除する必要があります。

たとえば、スマートウォッチに接続された心拍数モニターからの時系列があります。シリーズを見ると、300bpsのような読み取り値で誤った観測があることが簡単にわかります。これらは削除する必要がありますが、モデルを改善したいという理由ではありません（それが何であれ）。それらはあなたの心拍数とは何の関係もない読書のエラーです。

ただし、注意する必要があるのは、エラーとデータの相関関係です。私の例では、ジャンプやランニングなどの運動中に心拍数モニターがずれるとエラーが発生したと主張できます。これにより、これらのエラーはハートレートと相関します。この場合、これらの外れ値とエラーはランダムではないため、これらの外れ値とエラーの削除には注意が必要です。

外れ値を削除しない場合の構成例を示します。ばね上の重りの動きを測定しているとしましょう。重量がある場合は強度に比べて小さい重量の、あなたがいることに気づくでしょう、フックの法則は非常にうまく機能：どこ力であり、 -張力係数と重みの位置であります。

F = - k Δ x,

$F=-k\Delta x,$

F

$F$

k

$k$

Δ x

$\Delta x$

あなたはあまりにも多くの重量を非常に重いウェイトを置くか、変位場合さて、あなたは偏差を見てから始めましょう：十分な大きさの変位で動きが線形モデルから外れるように見えます。したがって、線形モデルを改善するために外れ値を削除したくなるかもしれません。フックの法則はおおよそ正しいため、モデルはあまりうまく機能しないため、これは良い考えではありません。 $\Delta x$

更新あなたの場合、これらのデータポイントを引き出して、それらをより詳しく見ることをお勧めします。ラボ機器の故障でしょうか？外部干渉？サンプルの欠陥？等

次に、これらの外れ値の存在が、私が示した例のように測定するものと相関する可能性があるかどうかを特定します。相関がある場合、それを実行する簡単な方法はありません。相関がない場合は、外れ値を削除できます

— アクサカル
ソース

2

It is always a cheating to remove outliers to improve a regression model. スプライン回帰は不正行為だと思いますか？FWIWは、それはありません〜[ローカル]回帰モデルを改善するために、ダウン量観測を

— user603

1

「外れ値を削除して回帰モデルを改善することは常に不正行為です。」回帰診断を行うための多くのツールがあり、その目的は異常値を検出して「削除」し、モデルを再適合させることです。

— ハイタオデュ

6

@ hxd1011 Grubbsなどのツールは、外れ値を自動的に削除しません。外れ値が存在する可能性があることを示すだけで、実際に外れ値かどうかを判断します。外れ値を自動的に削除して適合診断を改善することは非常に危険なアプローチです。それらをケースバイケースで分析する必要があります。

— アクサカル

2

わかったよ。私の元の言語は硬すぎました。最初の文を編集しました。コメント者へのフィードバックをありがとう

— Aksakal

1

@renakre、これらが外れ値だと思わない場合は、観測値を削除しないでください。ただし、考慮する必要があるのは、二乗誤差以外の予測の良さの尺度です。たとえば、これらのインスタンスがそれほど重要ではない場合は、平方で重み付けする必要はなく、代わりに絶対偏差などを使用する必要があります。メジャーは、各予測エラーのドル損失などの予測エラーの重要性を反映する必要があります。また、これらはカウントをしているという事実は、自動的にカウントクリックが失敗する可能性という楽器のエラー、Webページのプラグインをありませんという意味ではありません

— Aksakal

4

もともとこれを別の回答へのコメントとして投稿したかったのですが、長すぎて収まりませんでした。

モデルを見ると、必ずしも1つの大きなグループといくつかの外れ値が含まれているとは限りません。私の意見では、1つの中規模グループ（1〜-1）が含まれ、次に6つの小さなグループが含まれ、それぞれが2つの整数の間にあります。整数に達すると、それらの頻度で観測値が少なくなることがはっきりとわかります。唯一の特別なポイントは0であり、ここでは実際に観測可能な低下がありません。

私の意見では、この分布がなぜこのように広がっているのかを説明する価値があります。

なぜ分布では、これらの観測カウントが整数で減少するのですか？
この観測カウントの低下が0で発生しないのはなぜですか？
これらの外れ値について特別なものは何ですか？

個別の人間の行動を測定する場合、常に外れ値が発生します。これらの外れ値がモデルに適合しない理由と、モデルの将来の反復を改善するためにそれらをどのように使用できるかを見るのは興味深い場合があります。

— ンザール
ソース

+1。整数のギャップは必ずしも整数で正しいとは限らないため、存在しないパターンを見る方が多いかもしれませんが、データ収集、コーディング、または離散化のアーティファクトである可能性がありますデータ全体として。多数の重なり合った、おそらくジッターされたドットによって隠されている0のギャップさえあるかもしれません。データが私たちが考えているものかどうかを確認するために、起源に戻って追求することは間違いなく価値があります。

— ウェイン

2

異常値を削除して「通常のパターン」のみのモデルを作成することには、長所と短所があります。

長所：モデルのパフォーマンスが向上します。直感では、1つのモデルを使用して「通常のパターン」と「外れ値のパターン」の両方をキャプチャすることは非常に困難です。したがって、外れ値を削除して、「通常のパターン」のモデルのみを作成します。
短所：外れ値を予測することはできません。言い換えると、モデルを実稼働環境に置いた場合、モデルから予測が欠落することになります。

外れ値を削除してモデルを構築し、可能であれば、外れ値専用の別のモデルを構築することをお勧めします。

「チート」という言葉については、論文を書いているときに、外れ値をどのように定義および削除するかを明示的にリストし、パフォーマンスの改善がクリーンデータのみに言及している場合。不正行為ではありません。

— ハイタオドゥ
ソース

3

ダウン投票されても構いませんが、誰かが理由を教えてもらえますか？

— ハイタオデュ

私は賛成しました:)また、外れ値を削除してから、予測モデルをさらにテストするためにデータをリサンプリングすることも良い考えだと思いますか？

— レナクレ

1

@renakre実稼働環境で何をすべきかを考えることをお勧めします。外れ値がわずか1％であることがわかった場合、実稼働環境で出力を生成しないとしましょう。次に、それらを削除します。外れ値が30％であることがわかった場合、実稼働環境で予測をスキップしても問題ありません。次に、そのための別のモデルを用意してください。

— ハイタオデュ

ほとんどの場合、結果変数を予測できるかどうかを確認するためにテストを行っています。DOESはif it is fine to produce no output in production同じことを意味しますか？したがって、実際のアプリケーションでモデルを使用して結果変数をテストし、アプリケーションで予測スコアを使用し始めた場合、外れ値を削除することは大丈夫ではありません（特に、それらが多くの言及されている場合）？これはあなたが意味したものですか？

— レナクレ

1

@renakreあなたは死んでいます！AITOBOXで最近行ったのは、予測限界がpsiの重みだけでなく、再サンプリングされたエラーに外れ値が含まれていることに基づいています。これは、ARIMAモデルだけでなく、予測変数の不確実性も同様に組み込まれている因果モデルに対して行われます。

— IrishStat

2

外れ値を削除するのは、それを行うための確かな定性的理由がある場合にのみ合理的だと思います。これにより、モデルにはない別の変数が異常値の観測に影響を与えているという情報を持っていることを意味します。次に、外れ値を削除するか、変数を追加するかを選択できます。

データセット内に異常値の観測がある場合、異常値が存在する理由を調べるために調査することで、データおよび考慮すべき他のモデルについてさらに学習します。

— user151162
ソース

1

stats.SEへようこそ！ツアーをご覧ください。質問をより完全に回答するように回答を拡大すると役立ちます（箱ひげ図に基づく異常値の判定、この方法が予測モデルに与える影響など）。

— タヴロック

2

私は、彼らが「外れ値」であるとさえ確信していません。通常の確率プロットを作成したい場合があります。それらはモデルのあてはめによるデータまたは残差ですか？

— エミル・M・フリードマン
ソース

それらは予測値と実際の値の差です。

— レナクレ