多くの場合、統計アナリストにセットのデータセットが渡され、線形回帰などの手法を使用してモデルに適合するように求められます。データセットには、「そうそう、これらのデータポイントのいくつかを収集するのがめちゃくちゃになった-できることをする」というような免責条項が付いていることが非常に多い。
この状況は、データの誤りである可能性のある外れ値の存在によって大きな影響を受ける回帰適合につながります。次の場合:
科学的にも道徳的にも、「フィット感が悪く見える」以外の理由でデータを捨てることは危険です。
実際には、データを収集した人は、「このデータセットを生成するとき、どの点を正確に台無しにしましたか」などの質問に答えることができません。
線形回帰分析で外れ値を除外するための基礎として使用できる統計的テストまたは経験則は何ですか?
多重線形回帰に関する特別な考慮事項はありますか?