read.table / read.csvのcolClasses引数にカスタム日付形式を指定します


101

質問:

read.table / read.csvでcolClasses引数を使用するときに日付形式を指定する方法はありますか?

(私はインポート後に変換できることを理解していますが、このような多くの日付列があると、インポート手順で行うほうが簡単になります)


例:

.csvという形式の日付列があります%d/%m/%Y

dataImport <- read.csv("data.csv", colClasses = c("factor","factor","Date"))

これは変換を間違ったものにします。たとえば、に15/07/2008なり0015-07-20ます。


再現可能なコード:

data <- 
structure(list(func_loc = structure(c(1L, 2L, 3L, 3L, 3L, 3L, 
3L, 4L, 4L, 5L), .Label = c("3076WAG0003", "3076WAG0004", "3076WAG0007", 
"3076WAG0009", "3076WAG0010"), class = "factor"), order_type = structure(c(3L, 
3L, 1L, 1L, 1L, 1L, 2L, 2L, 3L, 1L), .Label = c("PM01", "PM02", 
"PM03"), class = "factor"), actual_finish = structure(c(4L, 6L, 
1L, 2L, 3L, 7L, 1L, 8L, 1L, 5L), .Label = c("", "11/03/2008", 
"14/08/2008", "15/07/2008", "17/03/2008", "19/01/2009", "22/09/2008", 
"6/09/2007"), class = "factor")), .Names = c("func_loc", "order_type", 
"actual_finish"), row.names = c(NA, 10L), class = "data.frame")


write.csv(data,"data.csv", row.names = F)                                                        

dataImport <- read.csv("data.csv")
str(dataImport)
dataImport

dataImport <- read.csv("data.csv", colClasses = c("factor","factor","Date"))
str(dataImport)
dataImport

そして、出力は次のようになります。

コード出力


これをハックする方法は、の独自のバージョンを作成し、に渡さread.tableれるformat引数を追加することですas.Date。でも、私が考えていないより良い方法があったとしても、私は驚かないでしょう。
joran

回答:


158

文字列を受け取り、必要な形式を使用して日付に変換する独自の関数を記述し、を使用しsetAsてそれをasメソッドとして設定できます。次に、関数をcolClassesの一部として使用できます。

試してください:

setAs("character","myDate", function(from) as.Date(from, format="%d/%m/%Y") )

tmp <- c("1, 15/08/2008", "2, 23/05/2010")
con <- textConnection(tmp)

tmp2 <- read.csv(con, colClasses=c('numeric','myDate'), header=FALSE)
str(tmp2)

次に、必要に応じて変更して、データを処理します。

編集---

setClass('myDate')警告を回避するために最初に実行することをお勧めします(警告は無視できますが、これを頻繁に行うと、これを取り除く単純な呼び出しであると、煩わしくなります)。


2
うわー-setAsは命の恩人です!これまでにこの機能を見たことがありませんか?
user295691

4
この質問で詳しく説明されているように、「クラス "myDate"の定義がない」という警告が表示される場合があることに注意してください。
Danny D'Amours、2013年

1
何をsetMethod('myDate')すべきか?実行するとエラーが発生します...
Josh O'Brien

1
@ JoshO'Brien、申し訳ありませんでしたsetClass(現在は修正されています)。これはsetAs、クラスとして存在しない 'myDate'に関する警告を発行しないようにします。警告は無害であり、すべてが機能しますが、クラスを設定すると、警告が表示されなくなります。
Greg Snow

1
@MySchizoBuddy、日付列が1つしかなく、これを1回実行する場合は、おそらくどちらの方法でもかまいません。しかし、データセットに日付の列がいくつかある場合、このアプローチは、読み取り後に各列を変更するよりもおそらく簡単だと思います。
グレッグスノー

25

変更する日付形式が1つしかない場合は、Defaultsパッケージを使用してデフォルトの形式を変更できます。as.Date.character

library(Defaults)
setDefaults('as.Date.character', format = '%d/%M/%Y')
dataImport <- read.csv("data.csv", colClasses = c("factor","factor","Date"))
str(dataImport)
## 'data.frame':    10 obs. of  3 variables:
##  $ func_loc     : Factor w/ 5 levels "3076WAG0003",..: 1 2 3 3 3 3 3 4 4 5
##  $ order_type   : Factor w/ 3 levels "PM01","PM02",..: 3 3 1 1 1 1 2 2 3 1
##  $ actual_finish: Date, format: "2008-10-15" "2009-10-19" NA "2008-10-11" ...

@Greg Snowの答えは、よく使用される関数のデフォルトの動作を変更しないため、はるかに良いと思います。


7

時間も必要な場合:

setClass('yyyymmdd-hhmmss')
setAs("character","yyyymmdd-hhmmss", function(from) as.POSIXct(from, format="%Y%m%d-%H%M%S"))
d <- read.table(colClasses="yyyymmdd-hhmmss", text="20150711-130153")
str(d)
## 'data.frame':    1 obs. of  1 variable:
## $ V1: POSIXct, format: "2015-07-11 13:01:53"

2

昔、問題はハドリー・ウィッカムによって解決されました。したがって、今日のソリューションはワンライナーに削減されています。

library(readr)
data <- read_csv("data.csv", 
                  col_types = cols(actual_finish = col_datetime(format = "%d/%m/%Y")))

多分私達は不必要なものを取り除くことさえしたいです:

data <- as.data.frame(data)
弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.