特に1978年から1980年にかけてオークリッジでエネルギーデータの検証に取り組んだとき、私は異常値に関する多くの研究を行ってきました。多変量の外れ値と時系列のテストがあります。「統計データの外れ値」に関するバーネットとルイスの本は、外れ値に関する聖書であり、ほぼすべてをカバーしています。
オークリッジでデータ検証に取り組んでいたとき、大規模な多変量データセットがありました。単変量の外れ値の場合、極値の方向があります(平均値を大きく上回り、平均値を大きく下回る)。しかし、多変量の外れ値の場合、外れ値を探す方向はたくさんあります。私たちの哲学は、データの使用目的を検討することでした。2変量相関や回帰係数などの特定のパラメーターを推定しようとしている場合は、目的のパラメーターに最大の効果をもたらす方向に注目します。当時、私は影響関数に関するマローズの未発表の論文を読みました。影響関数を使用して外れ値を検出する方法は、Gnanadesikanの多変量解析ブックで説明されています。もちろん、バーネットとルイスでも見つけることができます。
パラメーターの影響関数は、観測値の多変量空間内のポイントで定義され、データポイントが含まれている場合と除外されている場合との比較で、パラメーター推定値の差を測定します。各サンプルポイントでそのような推定を行うことができますが、通常は、洞察とより高速な計算を提供する影響関数の素晴らしい関数形式を導出できます。
たとえば、1982年のアメリカ数理と管理科学の論文「影響関数とそのデータ検証への応用」の論文で、2変量相関の影響関数の分析式と、一定の影響の輪郭が双曲線であることを示しています。したがって、等高線は、影響関数が最も速く増加する平面内の方向を示します。
私の論文では、エネルギーの生成と消費に関するFPC Form 4データとの二変量相関に影響関数を適用する方法を示します。2つの間に明確な高い正の相関があり、相関の推定に大きな影響を与えるいくつかの外れ値が見つかりました。さらなる調査の結果、少なくとも1つのポイントにエラーがあり、修正することができました。
しかし、外れ値について議論する際に私が常に言及する重要なポイントは、自動拒否は間違っているということです。外れ値は必ずしもエラーではなく、データに関する重要な情報を提供する場合もあります。有効なデータは、現実の理論に準拠していないという理由だけで削除されるべきではありません。困難かどうかにかかわらず、異常値が発生した理由を常に調査する必要があります。
このサイトで多変量の外れ値が議論されたのはこれが初めてではないことを言及する必要があります。外れ値の検索は、多変量の外れ値が議論されているいくつかの質問にたぶんつながるでしょう。以前に自分の論文とこれらの本を参照し、それらへのリンクを示したことを知っています。
また、外れ値の拒否が議論されたとき、このサイトの私たちの多くは、特に統計的検定のみに基づいて行われた場合、それに対して推奨しています。ピーターフーバーは、外れ値拒否の代替手段として、ロバストな推定にしばしば言及します。堅牢な手順により、外れ値の重みが小さくなり、それらを拒否して非堅牢な推定器を使用するという手間のかかるステップを行わずに、推定に対する影響を減らすことができます。
影響関数は実際には、1970年代初期(1974年と思われます)に博士論文でFrank Hampelによって開発されました。彼のアイデアは、実際には影響関数を使用して、外れ値に対してロバストではない推定量を特定し、ロバストな推定量の開発を支援することでした。
これは、このトピックに関する以前の議論へのリンクです。ここでは、影響関数を使用して時系列で外れ値を検出することに関する私の仕事をいくつか言及しました。