データクリーニングは統計分析の結果を悪化させることがありますか？

17

ウイルスの循環（2002年の米国の西ナイルウイルスなど）または人々の抵抗の減少、食物や水の汚染の減少、または感染者蚊。これらの流行は、1〜5年ごとに発生する可能性のある外れ値として現れます。これらの外れ値を削除することにより、予測と病気の理解の重要な部分を形成する流行の証拠を削除しています。

流行によって引き起こされた外れ値に対処する際にデータクリーニングが必要ですか？

結果を改善するか、統計分析の結果を悪化させるか？

— DrWho
ソース

12

実際には研究の目的に依存します。私の意見では、いくつかの可能性があります：

症例と死亡を引き起こし、流行期と流行を引き起こす要因に影響されない典型的な要因は何かを理解したい（したがって、典型的な大きな強制力ではないことに興味がある）-この場合、明らかに流行を取り除く必要があるデータからの期間。これは、あなたが結論したいものの外れ値を調査する目的によるものです。
流行期間の発生確率（およびその期間も）を知りたいので、流行の変化をモデルに含めることができます（たとえば、レジーム切り替えモデル、コミュニティからの良いリンクやモデルの提案はここで歓迎します）。安定性をテストし、予測するために -この場合は、流行期間を除外せずに、ハンマーツールまたは類似のものを探すのではなく、より複雑なモデルを検索します $OLS$
あなたの主な目標は、流行期間を検出し、それらをリアルタイムで監視することです。これは、私の同僚の多くがビリニュス大学で取り組んでいる計量経済学の特別な分野です（間違いなく、対処するために多くの流行観察が必要です））

したがって、主な目標が2のようなものである場合、データをクリアすると、将来の予測に関する誤った結論、つまり不正確な予測パフォーマンスが発生します。また、2番目のケースが必ずしもより良い予測を提供するわけではありませんが、少なくとも流行期間の確率とその長さについて結論を出すことができます。これは保険数理士にとって非常に重要です。

— ドミトリー・チェロフ
ソース

素晴らしくシンプルな答え。あなたは若い年齢でかなりの知識を持っています。

— DrWho

15

個人的には、これを「データクリーニング」とは呼びません。データ編集の意味で、データクリーニングをもっと考えます-データセットの不整合をクリーンアップします（たとえば、レコードが1000歳の年齢を報告している、または4歳の人がひとり親であるなど）。

データに実際の効果が存在しても、それが「乱雑」になるわけではありません（逆に、実際の効果が存在すると豊かになります）。予測を取得する唯一の実行可能な方法である場合、この方法でデータを「クリーン」にすることをお勧めします。情報を捨てない実行可能な方法がある場合は、それを使用します。

この効果は定期的に発生すると言うことを考えると、ある種の循環分析の恩恵を受けるように思えます（「ビジネスサイクル」のようなものです）。

私の観点から、もしあなたが何かを予測しようとしているなら、そのソースから本物の効果を取り除くことはあなたの予測を悪化させるだけです。これは、予測したいまさにその情報を効果的に「捨てる」からです！

もう1つのポイントは、一連の死亡のうちどれだけが流行によるものであり、どの程度が通常の変動によって引き起こされたのかを判断することが難しい場合があるということです。

統計用語では、流行はそのように聞こえます、あなたの観点から、それはあなたが実際に分析したいものへの「迷惑」です。したがって、特に興味はありませんが、分析では何らかの形で説明する必要があります。回帰設定でこれを行う「迅速で汚い」方法の1つは、流行年/期間のインジケータを回帰変数として含めることです。これにより、流行の影響の平均推定値が得られます（そして、各流行の影響が同じであると暗黙的に仮定します）。ただし、予測では回帰変数が不明であるため、このアプローチは効果を説明するためにのみ機能します（将来どの期間が流行期間になるかはわかりません）。

流行を説明するもう1つの方法は、2つのコンポーネントの混合モデルを使用することです。1つは流行部分用、もう1つは「通常」部分用です。その後、モデルは2つのステップで進行します。1）期間を流行または正常として分類し、2）分類されたモデルを適用します。

— 確率論
ソース

（+1）良い提案ですが、おそらくそれほど汚くないトリックも可能です。

— ドミトリーチェロフ

+1; 後世のために、私は次のコメントをしたい：あなたは「本物の効果を取り除くことは...あなたの予測を悪化させることができる」と述べています。コンテキストでは、明らかに正しいですが、一般的な場合、これは必ずしも真実ではありません。（予測モデリングの大きな問題である「バイアス分散トレードオフ」を考えています。）繰り返しになりますが、バイアス分散トレードオフについては知っています。将来この答えに出くわし、その記述を誤解する可能性がある人に言及したいと思います。

— GUNG -復活モニカ

5

あなたの質問への一般的な答えを与えるために、私の古いゼネラルマネージャーの1人をパラパラさせてみましょう。研究の機会は、あなたがフィッティングしているモデルの外れ値にあります。

この状況は、電子の電荷を決定する際にロバートミリカンが行った実験に似ています。彼の実験でノーベル賞を受賞して数十年後、彼のメモが調べられ、彼が探していた結果に同意しなかったために、彼は大量のデータポイントを捨てたことがわかりました。それは悪い科学ですか？

いくつかの異常値を見つけた場合、それらは「統計的異常」によるものである可能性があります。ただし、いくつかの異常値を見つけた場合は、データをさらに詳しく調べる必要があります。削減の原因を特定できない場合、プロセスを理解できず、統計モデルでは問題を解決できません。モデルの目的はプロセスを要約することであり、モデルは実験者が理解していないプロセスを魔法のように要約することはありません。

— スケネクタディ
ソース

それは人間の傾向です。ロバート・ミリカンも例外ではありませんでした。非常に多くの新しいものが啓発され、統計モデルの背後にある哲学が強調されていることを非常に嬉しく思います。

— DrWho

5

「データクレンジング」の役割は、「私たちの法律（モデル）が機能しない」場合を識別することです。外れ値または異常なデータポイントを調整することで、現在のモデルの面白いパラメーターの「堅牢な推定値」を取得できます。これらの「外れ値」は、「仮定されたモデルに従って動作していない」推定が「これらのデータポイントを説明するために駆動される」ため、モデルパラメータの不要な歪みを許容します。言い換えれば、「悪役」に焦点を当てることによって、説明された平方和の観点から多くの見返りがあります。クレンジングを必要とする経験的に特定された点は、現在のモデルにはない原因因子を潜在的に開発/示唆するために、注意深く調査する必要があります。

年間死亡率を使用して、ある州と別の州での介入の効果を評価する方法は？

科学を行うとは、繰り返されるパターンを検索することです。

異常を検出することは、繰り返されるパターンに従わない値を識別することです。ポイントがそのモデルに違反したことを他にどのように知っていますか？実際、外れ値の成長、理解、発見、検査のプロセスは反復的でなければなりません。これは新しい考えではありません。

約400年前にNovum Organumで執筆しているフランシス・ベーコンirは、次のように述べています。自然の方法を知っている人なら誰でも、彼女の逸脱に簡単に気付くでしょう。一方、彼女の逸脱を知っている人は誰でも彼女のやり方をより正確に説明するでしょう。」

現在のルールがいつ失敗するかを観察して、ルールを変更します。

実際に識別された外れ値がすべてパルスであり、同様の効果（サイズ）を持っている場合、以下を提案します（別のポスターから引用）

回帰設定でこれを行う「迅速で汚い」方法の1つは、回帰年変数として流行年/期間のインジケータを含めることです。これにより、流行の影響の平均推定値が得られますただし、このアプローチは予測では回帰変数が不明であるため、効果を説明するためにのみ機能します（将来のどの期間が流行期間になるかはわかりません）。

これは、コースで個々の異常（パルス年）に同様の効果があることを必要とする場合です。それらが異なる場合、上記のportmanteau変数は正しくありません。

— IrishStat
ソース

@IrishStat：素晴らしい説明と思い出に残る引用。年功と専門知識を維持しました。私の以前の質問stats.stackexchange.com/questions/8358/

— DrWho

1

@DrWHO：非常に見栄えの悪い残余プロットを改善した2014年のLEVEL SHIFTの識別は、ポリシー変更日と完全な実装/実現日との間の明らかな遅延を明らかにした「発見待ちの知識」の一例です。 2004年（17年の11年目）に永続的なレベル（ステップ）シフトが完全に実現したという声明は、事実上の日付を反映しています。

— IrishStat

@IrishStat：説明をありがとう。特定の治療が病気の結果に劇的な変化をもたらす可能性があることを政策立案者、医師、一般大衆に納得させることは非常に困難です。数十年かかります。2004年に見られたこのレベルシフトは、新しいものを受け入れることの遅れを反映しています。質問stats.stackexchange.com/questions/8358/…

— DrWho

1

上記の私のコメントは、2004年のLEVEL SHIFTでした。混乱してすみません。

— IrishStat

1

@DrWHO：「質問の処理中に、状態1の致死率の計算のためにレベルシフトをそのままにするか、外れ値として扱う方が良い」という質問への回答。あなたがそれを扱わなければ、STATE1は2004年にレベルシフトの変化を持っていたと言うことができますが、STATE2はそうではありませんでしたが、そのステートメントに確率を置くことはできません。レベルシフトのSTATE1を処理した後、2004年に状態変化のデータを正規化しました。正規化データ（クレンジングデータ）は、一般性を失うことなくSTATE2の正規化データと比較できます。

— IrishStat

5

遡及データに流行を見つけるための最も一般的に使用される方法の一つである外れ値を探すために、実際に-多くのインフルエンザの研究者が、例えば、主にここで「一日の場所を確認するために、彼らのフィットのモデルではなく、モデル自身の残差に焦点を当てますイン、デイアウト」モデルの予測は失敗します-モデルが失敗する可能性のある方法の1つは、流行の出現です。

ただし、結果の外れ値を探し出すこと（おそらくこれまでで最高のアイデアではない）と、ほとんどの人が「データクリーニング」と呼ぶものを区別することが不可欠です。ここでは、統計上の問題ではなく、データ品質の問題を引き起こすため、外れ値を探しています。

たとえば、私が持っているデータセットには、病気の発症の変数があります。ある主題については、この日付は1929年11月です。これは正しいと思いますか？いいえ。これは、修正が必要なデータ品質の問題を示しています。この場合、対象に関する他の情報に基づいて日付を修正しています。このタイプのデータクリーニングは、統計結果の品質を積極的に改善します。

— フォマイト
ソース