下の箱ひげ図に示すように、4つの方法でテストされた予測モデルがあります。モデルが予測する属性の範囲は0〜8です。
すべてのメソッドで、1つの上限外れ値と3つの下限外れ値が示されていることに気付くかもしれません。これらのインスタンスをデータから削除することが適切かどうか疑問に思いますか?または、これは予測モデルを改善するための一種の不正行為ですか?
下の箱ひげ図に示すように、4つの方法でテストされた予測モデルがあります。モデルが予測する属性の範囲は0〜8です。
すべてのメソッドで、1つの上限外れ値と3つの下限外れ値が示されていることに気付くかもしれません。これらのインスタンスをデータから削除することが適切かどうか疑問に思いますか?または、これは予測モデルを改善するための一種の不正行為ですか?
回答:
ほとんど常に観測を除去するための不正行為向上させるために回帰モデルを。これらが実際には外れ値であると本当に考えている場合にのみ、観測を削除する必要があります。
たとえば、スマートウォッチに接続された心拍数モニターからの時系列があります。シリーズを見ると、300bpsのような読み取り値で誤った観測があることが簡単にわかります。これらは削除する必要がありますが、モデルを改善したいという理由ではありません(それが何であれ)。それらはあなたの心拍数とは何の関係もない読書のエラーです。
ただし、注意する必要があるのは、エラーとデータの相関関係です。私の例では、ジャンプやランニングなどの運動中に心拍数モニターがずれるとエラーが発生したと主張できます。これにより、これらのエラーはハートレートと相関します。この場合、これらの外れ値とエラーはランダムではないため、これらの外れ値とエラーの削除には注意が必要です。
外れ値を削除しない場合の構成例を示します。ばね上の重りの動きを測定しているとしましょう。重量がある場合は強度に比べて小さい重量の、あなたがいることに気づくでしょう、フックの法則は非常にうまく機能:どこFは力であり、K -張力係数とΔ xは重みの位置であります。
あなたはあまりにも多くの重量を非常に重いウェイトを置くか、変位場合さて、あなたは偏差を見てから始めましょう:十分な大きさの変位で動きが線形モデルから外れるように見えます。したがって、線形モデルを改善するために外れ値を削除したくなるかもしれません。フックの法則はおおよそ正しいため、モデルはあまりうまく機能しないため、これは良い考えではありません。
更新あなたの場合、これらのデータポイントを引き出して、それらをより詳しく見ることをお勧めします。ラボ機器の故障でしょうか?外部干渉?サンプルの欠陥?等
次に、これらの外れ値の存在が、私が示した例のように測定するものと相関する可能性があるかどうかを特定します。相関がある場合、それを実行する簡単な方法はありません。相関がない場合は、外れ値を削除できます
It is always a cheating to remove outliers to improve a regression model.
スプライン回帰は不正行為だと思いますか?FWIWは、それはありません〜[ローカル]回帰モデルを改善するために、ダウン量観測を
もともとこれを別の回答へのコメントとして投稿したかったのですが、長すぎて収まりませんでした。
モデルを見ると、必ずしも1つの大きなグループといくつかの外れ値が含まれているとは限りません。私の意見では、1つの中規模グループ(1〜-1)が含まれ、次に6つの小さなグループが含まれ、それぞれが2つの整数の間にあります。整数に達すると、それらの頻度で観測値が少なくなることがはっきりとわかります。唯一の特別なポイントは0であり、ここでは実際に観測可能な低下がありません。
私の意見では、この分布がなぜこのように広がっているのかを説明する価値があります。
個別の人間の行動を測定する場合、常に外れ値が発生します。これらの外れ値がモデルに適合しない理由と、モデルの将来の反復を改善するためにそれらをどのように使用できるかを見るのは興味深い場合があります。
異常値を削除して「通常のパターン」のみのモデルを作成することには、長所と短所があります。
長所:モデルのパフォーマンスが向上します。直感では、1つのモデルを使用して「通常のパターン」と「外れ値のパターン」の両方をキャプチャすることは非常に困難です。したがって、外れ値を削除して、「通常のパターン」のモデルのみを作成します。
短所:外れ値を予測することはできません。言い換えると、モデルを実稼働環境に置いた場合、モデルから予測が欠落することになります。
外れ値を削除してモデルを構築し、可能であれば、外れ値専用の別のモデルを構築することをお勧めします。
「チート」という言葉については、論文を書いているときに、外れ値をどのように定義および削除するかを明示的にリストし、パフォーマンスの改善がクリーンデータのみに言及している場合。不正行為ではありません。
if it is fine to produce no output in production
同じことを意味しますか?したがって、実際のアプリケーションでモデルを使用して結果変数をテストし、アプリケーションで予測スコアを使用し始めた場合、外れ値を削除することは大丈夫ではありません(特に、それらが多くの言及されている場合)?これはあなたが意味したものですか?
外れ値を削除するのは、それを行うための確かな定性的理由がある場合にのみ合理的だと思います。これにより、モデルにはない別の変数が異常値の観測に影響を与えているという情報を持っていることを意味します。次に、外れ値を削除するか、変数を追加するかを選択できます。
データセット内に異常値の観測がある場合、異常値が存在する理由を調べるために調査することで、データおよび考慮すべき他のモデルについてさらに学習します。
私は、彼らが「外れ値」であるとさえ確信していません。通常の確率プロットを作成したい場合があります。それらはモデルのあてはめによるデータまたは残差ですか?