タイトルが進むにつれ、データの前処理全般、特に外れ値の検出手法を扱った最新の優れた本を知っている人はいますか?
本はそれだけに焦点を合わせる必要はありませんが、前述のトピックを徹底的に扱う必要があります-私は出発点であるものに満足せず、論文のリストを引用し、さまざまな手法の説明が本自体。
欠落データを処理するための手法が望ましいが、必須ではない...
タイトルが進むにつれ、データの前処理全般、特に外れ値の検出手法を扱った最新の優れた本を知っている人はいますか?
本はそれだけに焦点を合わせる必要はありませんが、前述のトピックを徹底的に扱う必要があります-私は出発点であるものに満足せず、論文のリストを引用し、さまざまな手法の説明が本自体。
欠落データを処理するための手法が望ましいが、必須ではない...
回答:
スタタに固有ですが、スコットロングの著書、ワークフローのデータ分析とスタタを使用したワークフローは、データの管理と準備の分野で非常に貴重です。著者は、データのクリーニングとアーカイブ、外れ値のチェック、欠落データの処理など、データ管理の優れた実践に関する多くの役立つアドバイスを提供しています。
SASの場合、SASソフトウェアを使用した Ron Codyのデータクリーニングテクニックがあります。SAS-Lには、「ロンコーディの本で間違いを犯すことは決してない」という格言があります。
トピックに応じて基本(外れ値の特定、欠損値、重み付け、コーディング)がある場合、単純な学術文献にはさらに多くの情報が見つかります。たとえば、調査研究(多くのことがうまくいかない可能性があり、多くの偏見の原因となる傾向があるトピック)で、見つかる良い記事がたくさんあります。
通常の横断的回帰の準備をするとき、物事はそれほど複雑ではないかもしれません。たとえば、あまりに多くの「外れ値」を削除して、モデルを人工的にうまく適合させるなどの問題があるかもしれません。
したがって、良いテクニックを学ぶだけでなく、常識も忘れないでください。盲目的にではなく、正しくテクニックを適用してください。他の回答でのソフトウェアの議論も。SPSSは、データセットのサイズによっては、データの準備に悪いことではないと思います(SASについても良いことを聞きました)。ドロップダウンメニューは非常に直感的です。
ただし、質問への直接の回答として、学術文献は、トピックと分析によっては、データ準備の非常に優れたソースである場合とそうでない場合があります。