「RMSEの2.5倍」に基づく外れ値の削除


13

カーネマンとDeaton(2010)、著者は次のように記述します。

この回帰により、分散の37%が説明され、二乗平均平方根誤差(RMSE)は0.67852です。外れ値と妥当でない収入レポートを排除するために、ログ収入とその予測の差の絶対値がRMSEの2.5倍を超える観測値を削除しました。

これは一般的な慣習ですか?そうすることの背後にある直感は何ですか?そもそも明確に指定されていない可能性のあるモデルに基づいて外れ値を定義することは、やや奇妙に思えます。外れ値の決定は、モデルが実際の値をどれだけうまく予測するのではなく、もっともらしい値を構成するもののいくつかの理論的根拠に基づいてはいけませんか?


:Daniel Kahneman、Angus Deaton(2010):高収入は人生の評価を改善しますが、感情的な幸福は改善しません。全米科学アカデミーの論文集2010年9月、107(38)16489-16493; DOI:10.1073 / pnas.1011492107


1
論文から引用する場合は、常にページ番号を含む参照を提供してください
モニカを

7
これが「一般的な慣行」であるかどうかは言えませんが、そうではないと思います。「外れ値」の自動削除は基本的に悪い考えです。あなたのモデルや除去基準は良くないかもしれませんが、無視すべきではない何か新しいことが起こっているかもしれません(低迷の始まり、新鮮な可能性の目覚め)。//疑わしい値をデータ入力エラーや機器の故障まで追跡できる場合、または値が単純にオフザチャートのばかげた(16'2 "背の高い男性、先週火曜日、請求可能時間61分、飛行時間25分)の場合SFO-ORD)ではなく、それがモデルに適合しないので、私はそのように破った行きましたスタートアップを知っている。。。
BruceET

7
このアプローチの統計的妥当性は、RMSEについて報告する不合理な小数に反映されています。
フランスロデンブルク

私は数ヶ月前に尋ねた質問に、粗/英雄的な仮定のソリューションのようなこの感触:stats.stackexchange.com/questions/390051/...
エイドリアン

回答:


30

このデータを削除する理由は、引用ですぐに述べられています。つまり、「外れ値と信じがたい収入報告を排除する」ためです。これらの両方を併せて参照するという事実は、少なくとも一部の外れ値は信じられない値ではないことを認めていることを意味し、いずれにしても、高い残差を持つ値が「信じられない」と見なされるべき理由についての議論を与えません「収入値。これを行うことで、残差が回帰モデルで予想されるものよりも高いため、データポイントを効果的に削除しています。ここで別の答え述べたように、これは現実をモデルの前提に適合させること、およびそれらの前提に準拠していない現実の部分を無視することに相当します。

これが一般的な習慣であるかどうかにかかわらず、それはひどい習慣です。これは、周辺のデータポイントを扱うのが難しく、アナリストがそれらを適切にモデル化することを望まないために発生します(たとえば、エラー用語でより尖度の高いモデルを使用することにより)。統計モデリングを行う能力に適合します。この方法は統計的に望ましくなく、エラー用語の分散と尖度を体系的に過小評価する推論につながります。この論文の著者は、これらの外れ値の削除により、データの3.22%を落としたと報告しています(p。16490)。これらのデータポイントのほとんどは非常に高い収入だったので、これは彼らの論文の目標である高収入の効果について堅固な結論を下す能力に大きな疑問を投げかけています。


ダニエルカーネマンをあえて批判することはできません。冗談はさておき、これらは非常に良いポイント+1です。
ティム

11
カーネマンは非常に立派な心理学者であり、その本は私が一般的に楽しんで有用だと感じました。彼らはそれぞれ50のノーベル賞を受賞することができます---「外れ値」の大量除去がひどい統計的手法であるという事実は変わりません。
モニカの復活

3
当然あなたに同意します。言う必要はないと思いました。
ニックコックス

1
@NickCoxいわゆる「ノーベル記念賞」という意味です。ノーベルが設立したものではなく、彼とは何の関係もないことはご存知でしょう。正式名称は、明らかに「アルフレッド・ノーベルを記念する経済科学のスベリゲス・リクスバンク賞」です。
アメーバは、モニカを復活させる

1
あなたは私がそれを知っていると確信しており、あなたは確かに正しいです。常に権威あるEJMRがかつて私について「いいえ、彼はノーベルに勝つことはない」、つまりその賞を意味するこの投稿を行っていました。
ニックコックス
弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.