でカーネマンとDeaton(2010)†、著者は次のように記述します。
この回帰により、分散の37%が説明され、二乗平均平方根誤差(RMSE)は0.67852です。外れ値と妥当でない収入レポートを排除するために、ログ収入とその予測の差の絶対値がRMSEの2.5倍を超える観測値を削除しました。
これは一般的な慣習ですか?そうすることの背後にある直感は何ですか?そもそも明確に指定されていない可能性のあるモデルに基づいて外れ値を定義することは、やや奇妙に思えます。外れ値の決定は、モデルが実際の値をどれだけうまく予測するのではなく、もっともらしい値を構成するもののいくつかの理論的根拠に基づいてはいけませんか?
:Daniel Kahneman、Angus Deaton(2010):高収入は人生の評価を改善しますが、感情的な幸福は改善しません。全米科学アカデミーの論文集2010年9月、107(38)16489-16493; DOI:10.1073 / pnas.1011492107