回答:
実際には研究の目的に依存します。私の意見では、いくつかの可能性があります:
したがって、主な目標が2のようなものである場合、データをクリアすると、将来の予測に関する誤った結論、つまり不正確な予測パフォーマンスが発生します。また、2番目のケースが必ずしもより良い予測を提供するわけではありませんが、少なくとも流行期間の確率とその長さについて結論を出すことができます。これは保険数理士にとって非常に重要です。
個人的には、これを「データクリーニング」とは呼びません。データ編集の意味で、データクリーニングをもっと考えます-データセットの不整合をクリーンアップします(たとえば、レコードが1000歳の年齢を報告している、または4歳の人がひとり親であるなど)。
データに実際の効果が存在しても、それが「乱雑」になるわけではありません(逆に、実際の効果が存在すると豊かになります)。予測を取得する唯一の実行可能な方法である場合、この方法でデータを「クリーン」にすることをお勧めします。情報を捨てない実行可能な方法がある場合は、それを使用します。
この効果は定期的に発生すると言うことを考えると、ある種の循環分析の恩恵を受けるように思えます(「ビジネスサイクル」のようなものです)。
私の観点から、もしあなたが何かを予測しようとしているなら、そのソースから本物の効果を取り除くことはあなたの予測を悪化させるだけです。これは、予測したいまさにその情報を効果的に「捨てる」からです!
もう1つのポイントは、一連の死亡のうちどれだけが流行によるものであり、どの程度が通常の変動によって引き起こされたのかを判断することが難しい場合があるということです。
統計用語では、流行はそのように聞こえます、あなたの観点から、それはあなたが実際に分析したいものへの「迷惑」です。したがって、特に興味はありませんが、分析では何らかの形で説明する必要があります。回帰設定でこれを行う「迅速で汚い」方法の1つは、流行年/期間のインジケータを回帰変数として含めることです。これにより、流行の影響の平均推定値が得られます(そして、各流行の影響が同じであると暗黙的に仮定します)。ただし、予測では回帰変数が不明であるため、このアプローチは効果を説明するためにのみ機能します(将来どの期間が流行期間になるかはわかりません)。
流行を説明するもう1つの方法は、2つのコンポーネントの混合モデルを使用することです。1つは流行部分用、もう1つは「通常」部分用です。その後、モデルは2つのステップで進行します。1)期間を流行または正常として分類し、2)分類されたモデルを適用します。
あなたの質問への一般的な答えを与えるために、私の古いゼネラルマネージャーの1人をパラパラさせてみましょう。研究の機会は、あなたがフィッティングしているモデルの外れ値にあります。
この状況は、電子の電荷を決定する際にロバートミリカンが行った実験に似ています。彼の実験でノーベル賞を受賞して数十年後、彼のメモが調べられ、彼が探していた結果に同意しなかったために、彼は大量のデータポイントを捨てたことがわかりました。それは悪い科学ですか?
いくつかの異常値を見つけた場合、それらは「統計的異常」によるものである可能性があります。ただし、いくつかの異常値を見つけた場合は、データをさらに詳しく調べる必要があります。削減の原因を特定できない場合、プロセスを理解できず、統計モデルでは問題を解決できません。モデルの目的はプロセスを要約することであり、モデルは実験者が理解していないプロセスを魔法のように要約することはありません。
「データクレンジング」の役割は、「私たちの法律(モデル)が機能しない」場合を識別することです。外れ値または異常なデータポイントを調整することで、現在のモデルの面白いパラメーターの「堅牢な推定値」を取得できます。これらの「外れ値」は、「仮定されたモデルに従って動作していない」推定が「これらのデータポイントを説明するために駆動される」ため、モデルパラメータの不要な歪みを許容します。言い換えれば、「悪役」に焦点を当てることによって、説明された平方和の観点から多くの見返りがあります。クレンジングを必要とする経験的に特定された点は、現在のモデルにはない原因因子を潜在的に開発/示唆するために、注意深く調査する必要があります。
年間死亡率を使用して、ある州と別の州での介入の効果を評価する方法は?
科学を行うとは、繰り返されるパターンを検索することです。
異常を検出することは、繰り返されるパターンに従わない値を識別することです。ポイントがそのモデルに違反したことを他にどのように知っていますか?実際、外れ値の成長、理解、発見、検査のプロセスは反復的でなければなりません。これは新しい考えではありません。
約400年前にNovum Organumで執筆しているフランシス・ベーコンirは、次のように述べています。自然の方法を知っている人なら誰でも、彼女の逸脱に簡単に気付くでしょう。一方、彼女の逸脱を知っている人は誰でも彼女のやり方をより正確に説明するでしょう。」
現在のルールがいつ失敗するかを観察して、ルールを変更します。
実際に識別された外れ値がすべてパルスであり、同様の効果(サイズ)を持っている場合、以下を提案します(別のポスターから引用)
回帰設定でこれを行う「迅速で汚い」方法の1つは、回帰年変数として流行年/期間のインジケータを含めることです。これにより、流行の影響の平均推定値が得られますただし、このアプローチは予測では回帰変数が不明であるため、効果を説明するためにのみ機能します(将来のどの期間が流行期間になるかはわかりません)。
これは、コースで個々の異常(パルス年)に同様の効果があることを必要とする場合です。それらが異なる場合、上記のportmanteau変数は正しくありません。
遡及データに流行を見つけるための最も一般的に使用される方法の一つである外れ値を探すために、実際に-多くのインフルエンザの研究者が、例えば、主にここで「一日の場所を確認するために、彼らのフィットのモデルではなく、モデル自身の残差に焦点を当てますイン、デイアウト」モデルの予測は失敗します-モデルが失敗する可能性のある方法の1つは、流行の出現です。
ただし、結果の外れ値を探し出すこと(おそらくこれまでで最高のアイデアではない)と、ほとんどの人が「データクリーニング」と呼ぶものを区別することが不可欠です。ここでは、統計上の問題ではなく、データ品質の問題を引き起こすため、外れ値を探しています。
たとえば、私が持っているデータセットには、病気の発症の変数があります。ある主題については、この日付は1929年11月です。これは正しいと思いますか?いいえ。これは、修正が必要なデータ品質の問題を示しています。この場合、対象に関する他の情報に基づいて日付を修正しています。このタイプのデータクリーニングは、統計結果の品質を積極的に改善します。