既知のプロパティを持つ既知の分布からデータが得られる限り、観察されたプロセスによって生成された可能性が低すぎるイベントとして外れ値を厳密に定義できます仮説検定はすべて)です。
ただし、このアプローチには2つのレベルで問題があります。データが既知のプロパティを持つ既知の分布からのものであると想定し、いくつかの魔法の妖精によってデータセットに密輸されたデータポイントとして外れ値が見られるリスクをもたらします。
魔法のデータフェアリーが存在しない場合、すべてのデータは実験から取得されるため、実際には外れ値を持つことはできず、奇妙な結果になります。これらは、記録エラー(たとえば、4ドルの寝室400,000ドル)、体系的な測定の問題(オブジェクトが境界に近すぎる場合、画像分析アルゴリズムが巨大な領域を報告する)実験の問題(時々、結晶が溶液から沈殿する、非常に高い信号を与える)、またはシステムの機能(セルは2つではなく3つに分割される場合があります)が、それらはまれであり研究を行っているため誰も考えたことのないメカニズムの結果である可能性がありますつまり、あなたがすることのいくつかは、単にまだ知られていないということです。
理想的には、すべての異常値を調査するために時間をかけ、モデルに適合しない理由を理解してからデータセットからそれを削除するだけです。理由は実験に大きく依存するという点で時間がかかり、主観的ですが、代替策はさらに悪いです:外れ値がどこから来たのかわからない場合は、外れ値に結果を「混乱」させるか、または、「数学的に厳密な」アプローチを定義して、理解不足を隠します。言い換えれば、「数学的な厳密さ」を追求することにより、あなたは重要な効果を得ないか天国に入らないかを選択します。
編集
すべてのデータがインライアーである分布を常に想定できるため、持っているのがそれらがどこから来たかを知らない数字のリストだけである場合、データポイントが外れ値であるかどうかを判断する方法はありません。