データの前処理と外れ値の検出手法を扱った優れた本


11

タイトルが進むにつれ、データの前処理全般、特に外れ値の検出手法を扱った最新の優れた本を知っている人はいますか?

本はそれだけに焦点を合わせる必要はありませんが、前述のトピックを徹底的に扱う必要があります-私は出発点であるものに満足せず、論文のリストを引用し、さまざまな手法の説明が本自体。

欠落データを処理するための手法が望ましいが、必須ではない...


どのようなデータ(科学分野や測定技術)を見ているのか教えていただけますか?
cbeleitesは

Webユーザーから収集されたデータ(より具体的にすることはできません)。タイムスタンプ(少なくとも直感的には、データは厳密に時間に関連しているわけではありませんが)、カテゴリ属性、連続属性が含まれます。外れ値は、無数の理由によって引き起こされる可能性があります。Webロボット、悪意のあるユーザー、その他多くのソース。データも非常に大きい(CSV形式のGB、数百万のエントリ)
em70

私にとっては十分具体的です:化学的または分光学的データセットの前処理に
飽きる

回答:


3

スタタに固有ですが、スコットロングの著書、ワークフローのデータ分析とスタタを使用したワークフローは、データの管理と準備の分野で非常に貴重です。著者は、データのクリーニングとアーカイブ、外れ値のチェック、欠落データの処理など、データ管理の優れた実践に関する多くの役立つアドバイスを提供しています。


2
私もこの本が好きですが、データ管理に関する限り、私はウールに染まったStataユーザーです。私はそうは思いませんが、このリストの他の人たちは、スタタが具体的すぎて有用ではないと主張しています。
Dimitriy V.Masterov 2012

私が収集したものから非常に統計的で、私は統計に精通しておらず、私がこのプロジェクトに役立つこともありません(データが大きすぎ、さまざまなテクノロジーを使用している)
em70

本は確かに非常に特異です。特定のデータ(特にメタデータ)の処理手法はStata固有ですが、一般的な概念はプラットフォーム間で転送できます。市場に出ている約20冊のStata書籍/ 100冊のRの本の比率で、Rでのワークフローの整理に関する同等の本がないことに驚きます-後者は不可能ですか?私がStataに割り当てたメモリの最大量は、64Gbマシンの48Gbでした-それはサイズが重要かどうかです。大きく異なる構造のオブジェクトを操作する必要がある場合は、これをStataではなくRで行う必要があります。
StasK 2012

0

SASの場合、SASソフトウェアを使用した Ron Codyのデータクリーニングテクニックがあります。SAS-Lには、「ロンコーディの本で間違いを犯すことは決してない」という格言があります。


SASは私の環境で選択するツールではなく、慣れていません。その上、料理本ではなく、いくつかのアプローチを探しています。私は物事の数学的およびモデリングの側面により多くの何かを求めているとしましょう。
em70

0

トピックに応じて基本(外れ値の特定、欠損値、重み付け、コーディング)がある場合、単純な学術文献にはさらに多くの情報が見つかります。たとえば、調査研究(多くのことがうまくいかない可能性があり、多くの偏見の原因となる傾向があるトピック)で、見つかる良い記事がたくさんあります。

通常の横断的回帰の準備をするとき、物事それほど複雑ではないかもしれません。たとえば、あまりに多くの「外れ値」を削除して、モデルを人工的にうまく適合させるなどの問題があるかもしれません。

したがって、良いテクニックを学ぶだけでなく、常識も忘れないでください。盲目的にではなく、正しくテクニックを適用してください。他の回答でのソフトウェアの議論も。SPSSは、データセットのサイズによっては、データの準備に悪いことではないと思います(SASについても良いことを聞きました)。ドロップダウンメニューは非常に直感的です。

ただし、質問への直接の回答として、学術文献は、トピックと分析によっては、データ準備の非常に優れたソースである場合とそうでない場合があります。

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.