4
Rの一貫性のない形式のデータをクリーニングしますか?
統計を行う前に多くのクリーンアップを必要とする厄介な調査データをよく扱います。私はこれをExcelで「手動」で実行していました。Excelの式を使用したり、エントリを1つずつ確認したりすることもありました。これらのタスクの多くをRで実行するスクリプトを作成することで始めました。これは非常に有益でした(実行したことの記録、ミスの可能性の減少、データセットが更新しました)。 しかし、効率的に処理するのが難しいいくつかの種類のデータがまだあります。例えば: > d <- data.frame(subject = c(1,2,3,4,5,6,7,8,9,10,11), + hours.per.day = c("1", "2 hours", "2 hr", "2hr", "3 hrs", "1-2", "15 min", "30 mins", "a few hours", "1 hr 30 min", "1 hr/week")) > d subject hours.per.day 1 1 1 2 2 2 hours 3 3 2 hr 4 4 …
16
r
data-cleaning