複数の列を一緒に貼り付け


99

データフレームに次のように一緒に貼り付けたい(「-」で区切られた)列の束があります。

data <- data.frame('a' = 1:3, 
                   'b' = c('a','b','c'), 
                   'c' = c('d', 'e', 'f'), 
                   'd' = c('g', 'h', 'i'))
i.e.     
     a   b   c  d  
     1   a   d   g  
     2   b   e   h  
     3   c   f   i  

私がなりたいもの:

a x  
1 a-d-g  
2 b-e-h  
3 c-f-i  

私は通常これを次のようにして行うことができます:

within(data, x <- paste(b,c,d,sep='-'))

その後、古い列を削除しますが、残念ながら、具体的には列の名前がわかりません。すべての列の集合的な名前だけです。たとえば、 cols <- c('b','c','d')

誰かがこれを行う方法を知っていますか?

回答:


104
# your starting data..
data <- data.frame('a' = 1:3, 'b' = c('a','b','c'), 'c' = c('d', 'e', 'f'), 'd' = c('g', 'h', 'i')) 

# columns to paste together
cols <- c( 'b' , 'c' , 'd' )

# create a new column `x` with the three columns collapsed together
data$x <- apply( data[ , cols ] , 1 , paste , collapse = "-" )

# remove the unnecessary columns
data <- data[ , !( names( data ) %in% cols ) ]

7
ここで申請する必要はありません。ベクトル化されて貼り付け、それがより効率的だ
バティスト

1
@baptiste ..なしで可能do.call
アンソニーダミコ2013年

1
確かに、例えばを使用することもできますが、ここでは正しい呼び出しevil(parse(...))だと思いdo.callます。
バプティスト2013年

ここでDo.callを使用する方が優れています。ベクトル化を維持します。
クレイトンスタンレー

1
うーん..どのように通過しcollapse = "-"ますか?へpaste
アンソニーダミコ2014年

48

上の変形としてバティストの答えと、dataあなたが持っているとして定義され、あなたが定義されて一緒に入れたいというの列cols

cols <- c("b", "c", "d")

新しい列を追加してdata、古い列を削除することができます

data$x <- do.call(paste, c(data[cols], sep="-"))
for (co in cols) data[co] <- NULL

与える

> data
  a     x
1 1 a-d-g
2 2 b-e-h
3 3 c-f-i

"c(data [cols]、..."にコンマがない?こんな感じ: "c(data [、cols]、..."
roschu

2
@roschuどちらでも機能します。インデックス作成data.frame最初の引数は通常、行インデックスであるにもかかわらず、単一の文字ベクトルでは、列のインデックスになります。
Brian Diggs、2015

高速かつスマート。ありがとう
Ali Khosro

32

tidyrパッケージを使用すると、これは1つの関数呼び出しで簡単に処理できます。

data <- data.frame('a' = 1:3, 
                   'b' = c('a','b','c'), 
                   'c' = c('d', 'e', 'f'), 
                   'd' = c('g', 'h', 'i'))

tidyr::unite_(data, paste(colnames(data)[-1], collapse="_"), colnames(data)[-1])

  a b_c_d
1 1 a_d_g
2 2 b_e_h
3 3 c_f_i

編集:最初の列を除外すると、他のすべてが貼り付けられます。

# tidyr_0.6.3

unite(data, newCol, -a) 
# or by column index unite(data, newCol, -1)

#   a newCol
# 1 1  a_d_g
# 2 2  b_e_h
# 3 3  c_f_i

3
OPは列名が事前にわからないと述べたと思いますwithin(data, x <- paste(b,c,d,sep='-'))
David Arenburg、2015年

@DavidArenburgに同意します。これはOPの状況には対応していません。私unite_(data, "b_c_d", cols)は、または実際のdata.frameに応じてunite(data, b_c_d, -a)、候補にもなると思います。
Sam Firke、2015年

13

新しいdata.frameを作成します。

d <- data.frame('a' = 1:3, 'b' = c('a','b','c'), 'c' = c('d', 'e', 'f'), 'd' = c('g', 'h', 'i')) 

cols <- c( 'b' , 'c' , 'd' )

data.frame(a = d[, 'a'], x = do.call(paste, c(d[ , cols], list(sep = '-'))))

列以外をすべて貼り付ける場合d[ , cols]は、代わりに使用したい場合があることに注意してください。d[ , names(d) != 'a']a
バティスト

1
SO上の標準的な解決策の1つは、私はあなたがこれを短縮することができると思うcbind(a = d['a'], x = do.call(paste, c(d[cols], sep = '-')))例えばカンマを避けるため、listおよびdata.frame使用中data.frameの方法cbind
デビッドArenburg

9

変換を回避するため、Reduceおそらくより遅いdo.callがたぶんより優れている追加のソリューションを追加するだけです。また、代わりに、不要な列を削除するために使用できるループapplymatrixforsetdiff

cols <- c('b','c','d')
data$x <- Reduce(function(...) paste(..., sep = "-"), data[cols])
data[setdiff(names(data), cols)]
#   a     x
# 1 1 a-d-g
# 2 2 b-e-h
# 3 3 c-f-i

あるいはdatadata.tableパッケージを使用してインプレースで更新することもできます(新しいデータを想定)

library(data.table)
setDT(data)[, x := Reduce(function(...) paste(..., sep = "-"), .SD[, mget(cols)])]
data[, (cols) := NULL]
data
#    a     x
# 1: 1 a-d-g
# 2: 2 b-e-h
# 3: 3 c-f-i

別のオプションは使用することがある.SDcolsの代わりmgetのように

setDT(data)[, x := Reduce(function(...) paste(..., sep = "-"), .SD), .SDcols = cols]

5

私は、Anthony Damico、Brian Diggs、data_steveの回答を小さなサンプルtbl_dfでベンチマークし、次の結果を得ました。

> data <- data.frame('a' = 1:3, 
+                    'b' = c('a','b','c'), 
+                    'c' = c('d', 'e', 'f'), 
+                    'd' = c('g', 'h', 'i'))
> data <- tbl_df(data)
> cols <- c("b", "c", "d")
> microbenchmark(
+     do.call(paste, c(data[cols], sep="-")),
+     apply( data[ , cols ] , 1 , paste , collapse = "-" ),
+     tidyr::unite_(data, "x", cols, sep="-")$x,
+     times=1000
+ )
Unit: microseconds
                                         expr     min      lq      mean  median       uq       max neval
do.call(paste, c(data[cols], sep = "-"))       65.248  78.380  93.90888  86.177  99.3090   436.220  1000
apply(data[, cols], 1, paste, collapse = "-") 223.239 263.044 313.11977 289.514 338.5520   743.583  1000
tidyr::unite_(data, "x", cols, sep = "-")$x   376.716 448.120 556.65424 501.877 606.9315 11537.846  1000

ただし、tbl_df100万行と10列までを使用して自分で評価した場合、結果はかなり異なっていました。

> microbenchmark(
+     do.call(paste, c(data[c("a", "b")], sep="-")),
+     apply( data[ , c("a", "b") ] , 1 , paste , collapse = "-" ),
+     tidyr::unite_(data, "c", c("a", "b"), sep="-")$c,
+     times=25
+ )
Unit: milliseconds
                                                       expr        min         lq      mean     median        uq       max neval
do.call(paste, c(data[c("a", "b")], sep="-"))                 930.7208   951.3048  1129.334   997.2744  1066.084  2169.147    25
apply( data[ , c("a", "b") ] , 1 , paste , collapse = "-" )  9368.2800 10948.0124 11678.393 11136.3756 11878.308 17587.617    25
tidyr::unite_(data, "c", c("a", "b"), sep="-")$c              968.5861  1008.4716  1095.886  1035.8348  1082.726  1759.349    25

5

私の意見では、sprintf-functionはこれらの回答の中の1つの場所にも値します。sprintf次のように使用できます。

do.call(sprintf, c(d[cols], '%s-%s-%s'))

それは与える:

 [1] "a-d-g" "b-e-h" "c-f-i"

そして、必要なデータフレームを作成するには:

data.frame(a = d$a, x = do.call(sprintf, c(d[cols], '%s-%s-%s')))

与える:

  a     x
1 1 a-d-g
2 2 b-e-h
3 3 c-f-i

けれどもsprintf超える明確な利点はありませんdo.call/のpaste@BrianDiggsの組み合わせをあなたはまた、所望の文字列またはときに桁数を指定したいのパッド特定の部分にしたいとき、それは特に便利です。?sprintfいくつかのオプションについては、を参照してください。

別のバリアントはから使用することpmapです

pmap(d[2:4], paste, sep = '-')

注:これ pmapソリューションは、列が因子でない場合にのみ機能します。


より大きなデータセットのベンチマーク:

# create a larger dataset
d2 <- d[sample(1:3,1e6,TRUE),]
# benchmark
library(microbenchmark)
microbenchmark(
  docp = do.call(paste, c(d2[cols], sep="-")),
  appl = apply( d2[, cols ] , 1 , paste , collapse = "-" ),
  tidr = tidyr::unite_(d2, "x", cols, sep="-")$x,
  docs = do.call(sprintf, c(d2[cols], '%s-%s-%s')),
  times=10)

結果は:

Unit: milliseconds
 expr       min        lq      mean    median        uq       max neval cld
 docp  214.1786  226.2835  297.1487  241.6150  409.2495  493.5036    10 a  
 appl 3832.3252 4048.9320 4131.6906 4072.4235 4255.1347 4486.9787    10   c
 tidr  206.9326  216.8619  275.4556  252.1381  318.4249  407.9816    10 a  
 docs  413.9073  443.1550  490.6520  453.1635  530.1318  659.8400    10  b 

使用されたデータ:

d <- data.frame(a = 1:3, b = c('a','b','c'), c = c('d','e','f'), d = c('g','h','i')) 

3

これはかなり型破りな(しかし速い)アプローチです:fwritefrom data.tableを使用して列を一緒に "貼り付け"て、それfreadを読み返します。便宜上、以下の関数として手順を記述しましたfpaste

fpaste <- function(dt, sep = ",") {
  x <- tempfile()
  fwrite(dt, file = x, sep = sep, col.names = FALSE)
  fread(x, sep = "\n", header = FALSE)
}

次に例を示します。

d <- data.frame(a = 1:3, b = c('a','b','c'), c = c('d','e','f'), d = c('g','h','i')) 
cols = c("b", "c", "d")

fpaste(d[cols], "-")
#       V1
# 1: a-d-g
# 2: b-e-h
# 3: c-f-i

それはどのように機能しますか?

d2 <- d[sample(1:3,1e6,TRUE),]
  
library(microbenchmark)
microbenchmark(
  docp = do.call(paste, c(d2[cols], sep="-")),
  tidr = tidyr::unite_(d2, "x", cols, sep="-")$x,
  docs = do.call(sprintf, c(d2[cols], '%s-%s-%s')),
  appl = apply( d2[, cols ] , 1 , paste , collapse = "-" ),
  fpaste = fpaste(d2[cols], "-")$V1,
  dt2 = as.data.table(d2)[, x := Reduce(function(...) paste(..., sep = "-"), .SD), .SDcols = cols][],
  times=10)
# Unit: milliseconds
#    expr        min         lq      mean     median         uq       max neval
#    docp  215.34536  217.22102  220.3603  221.44104  223.27224  225.0906    10
#    tidr  215.19907  215.81210  220.7131  220.09636  225.32717  229.6822    10
#    docs  281.16679  285.49786  289.4514  286.68738  290.17249  312.5484    10
#    appl 2816.61899 3106.19944 3259.3924 3266.45186 3401.80291 3804.7263    10
#  fpaste   88.57108   89.67795  101.1524   90.59217   91.76415  197.1555    10
#     dt2  301.95508  310.79082  384.8247  316.29807  383.94993  874.4472    10

ramdiskに読み書きするとどうなりますか?比較はもう少し公正です。
jangorecki

@jangorecki、私がそれを正しく行っているかどうかはわかりません(私はRをで始めましたTMPDIR=/dev/shm R)が、これらの結果と比較して大きな違いはありません。また、使用されるスレッドの数を試しfreadたりfwrite、結果にどのように影響するかを確認したりしていません。
A5C1D2H2I1M1N2O1R2T1

1
library(plyr)

ldply(apply(data, 1, function(x) data.frame(
                      x = paste(x[2:4],sep="",collapse="-"))))

#      x
#1 a-d-g
#2 b-e-h
#3 c-f-i

#  and with just the vector of names you have:

ldply(apply(data, 1, function(x) data.frame(
                      x = paste(x[c('b','c','d')],sep="",collapse="-"))))

# or equally:
mynames <-c('b','c','d')
ldply(apply(data, 1, function(x) data.frame(
                      x = paste(x[mynames],sep="",collapse="-"))))    

0

私はこれが古い質問であることを知っていますが、とにかく質問者の提案に従ってpaste()関数を使用した簡単な解決策を提示するべきだと思いました:

data_1<-data.frame(a=data$a,"x"=paste(data$b,data$c,data$d,sep="-")) 
data_1
  a     x
1 1 a-d-g
2 2 b-e-h
3 3 c-f-i
弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.