グループ化されたデータから最初と最後の行を選択する


137

質問

を使用してdplyr、1つのステートメントでグループ化されたデータの上部と下部の観測/行を選択するにはどうすればよいですか?

データと例

データフレームを考える

df <- data.frame(id=c(1,1,1,2,2,2,3,3,3), 
                 stopId=c("a","b","c","a","b","c","a","b","c"), 
                 stopSequence=c(1,2,3,3,1,4,3,1,2))

を使用して各グループの上部と下部の観測を取得できますsliceが、2つの異なるステートメントを使用します。

firstStop <- df %>%
  group_by(id) %>%
  arrange(stopSequence) %>%
  slice(1) %>%
  ungroup

lastStop <- df %>%
  group_by(id) %>%
  arrange(stopSequence) %>%
  slice(n()) %>%
  ungroup

これらの2つの統計を組み合わせて上部と下部の両方の観測を選択することができますか?


回答:


232

おそらくもっと速い方法があります:

df %>%
  group_by(id) %>%
  arrange(stopSequence) %>%
  filter(row_number()==1 | row_number()==n())

66
rownumber() %in% c(1, n())ベクタースキャンを2回実行する必要がなくなります
MichaelChirico

13
@MichaelChirico私はあなたが_?iefilter(row_number() %in% c(1, n()))
Eric Fail

106

完全を期すためにslice、インデックスのベクトルを渡すことができます。

df %>% arrange(stopSequence) %>% group_by(id) %>% slice(c(1,n()))

与える

  id stopId stopSequence
1  1      a            1
2  1      c            3
3  2      b            1
4  2      c            4
5  3      b            1
6  3      a            3

filterこれよりも高速かもしれません-これはテストしていませんが、ここを
Tjebo

1
@Tjeboフィルターとは異なり、sliceは同じ行を複数回返すことができます。たとえばmtcars[1, ] %>% slice(c(1, n()))、その意味では、それらの間の選択は、返されるものによって異なります。nが非常に大きい場合(スライスが優先される可能性がある場合)を除いて、タイミングは近いと思いますが、テストもしていません。
フランク

15

ではありませんdplyrが、次のように使用する方がずっと直接的data.tableです。

library(data.table)
setDT(df)
df[ df[order(id, stopSequence), .I[c(1L,.N)], by=id]$V1 ]
#    id stopId stopSequence
# 1:  1      a            1
# 2:  1      c            3
# 3:  2      b            1
# 4:  2      c            4
# 5:  3      b            1
# 6:  3      a            3

より詳細な説明:

# 1) get row numbers of first/last observations from each group
#    * basically, we sort the table by id/stopSequence, then,
#      grouping by id, name the row numbers of the first/last
#      observations for each id; since this operation produces
#      a data.table
#    * .I is data.table shorthand for the row number
#    * here, to be maximally explicit, I've named the variable V1
#      as row_num to give other readers of my code a clearer
#      understanding of what operation is producing what variable
first_last = df[order(id, stopSequence), .(row_num = .I[c(1L,.N)]), by=id]
idx = first_last$row_num

# 2) extract rows by number
df[idx]

基本事項をカバーするために、Getting Started wikiを必ず確認してください。data.table


1
またはdf[ df[order(stopSequence), .I[c(1,.N)], keyby=id]$V1 ]。見てid2回表示することは私には奇妙です。
フランク

setDT通話中にキーを設定できます。したがって、orderここでは必要ありません。
Artem Klevtsov

1
@ArtemKlevtsov-ただし、常にキーを設定する必要はありません。
SymbolixAU 2017

2
またはdf[order(stopSequence), .SD[c(1L,.N)], by = id]ここを
JWilliman

必ずしもではありません@JWilliman まさにそれが上の再注文しないので、同じid。おもうdf[order(stopSequence), .SD[c(1L, .N)], keyby = id]はトリックを実行する必要がある(上記のソリューションとのわずかな違いにより、結果はkey編集されます
MichaelChirico

8

何かのようなもの:

library(dplyr)

df <- data.frame(id=c(1,1,1,2,2,2,3,3,3),
                 stopId=c("a","b","c","a","b","c","a","b","c"),
                 stopSequence=c(1,2,3,3,1,4,3,1,2))

first_last <- function(x) {
  bind_rows(slice(x, 1), slice(x, n()))
}

df %>%
  group_by(id) %>%
  arrange(stopSequence) %>%
  do(first_last(.)) %>%
  ungroup

## Source: local data frame [6 x 3]
## 
##   id stopId stopSequence
## 1  1      a            1
## 2  1      c            3
## 3  2      b            1
## 4  2      c            4
## 5  3      b            1
## 6  3      a            3

ではdo、あなたはかなりのグループでの操作の任意の数を実行することができますが、@ jeremycgの答えは、より多くのちょうどこのタスクのために適切な方法です。


1
関数を書くことは考えていませんでした。確かに、もっと複雑なことを行うには良い方法です。
tospig 2015

1
これは、単に使用するために比較overcomplicatedようだsliceのように、df %>% arrange(stopSequence) %>% group_by(id) %>% slice(c(1,n()))
フランク

4
同意しません(そして私は投稿でjeremycgをより良い答えとして指摘しました)が、doここに例があると、機能しsliceない場合(つまり、グループでのより複雑な操作)に他の人を助ける可能性があります。そして、あなたはあなたのコメントを回答として投稿するべきです(それが最高です)。
hrbrmstr

6

特定の質問を知っていますdplyr。しかし、他の人はすでに他のパッケージを使用してソリューションを投稿しているため、他のパッケージも使用することにしました。

基本パッケージ:

df <- df[with(df, order(id, stopSequence, stopId)), ]
merge(df[!duplicated(df$id), ], 
      df[!duplicated(df$id, fromLast = TRUE), ], 
      all = TRUE)

データ表:

df <-  setDT(df)
df[order(id, stopSequence)][, .SD[c(1,.N)], by=id]

sqldf:

library(sqldf)
min <- sqldf("SELECT id, stopId, min(stopSequence) AS StopSequence
      FROM df GROUP BY id 
      ORDER BY id, StopSequence, stopId")
max <- sqldf("SELECT id, stopId, max(stopSequence) AS StopSequence
      FROM df GROUP BY id 
      ORDER BY id, StopSequence, stopId")
sqldf("SELECT * FROM min
      UNION
      SELECT * FROM max")

1つのクエリで:

sqldf("SELECT * 
        FROM (SELECT id, stopId, min(stopSequence) AS StopSequence
              FROM df GROUP BY id 
              ORDER BY id, StopSequence, stopId)
        UNION
        SELECT *
        FROM (SELECT id, stopId, max(stopSequence) AS StopSequence
              FROM df GROUP BY id 
              ORDER BY id, StopSequence, stopId)")

出力:

  id stopId StopSequence
1  1      a            1
2  1      c            3
3  2      b            1
4  2      c            4
5  3      a            3
6  3      b            1

3

使用するwhich.minwhich.max

library(dplyr, warn.conflicts = F)
df %>% 
  group_by(id) %>% 
  slice(c(which.min(stopSequence), which.max(stopSequence)))

#> # A tibble: 6 x 3
#> # Groups:   id [3]
#>      id stopId stopSequence
#>   <dbl> <fct>         <dbl>
#> 1     1 a                 1
#> 2     1 c                 3
#> 3     2 b                 1
#> 4     2 c                 4
#> 5     3 b                 1
#> 6     3 a                 3

基準

また、stopSequence列全体を並べ替えるのではなく、グループごとに最小値と最大値を見つけるため、現在受け入れられている回答よりもはるかに高速です。

# create a 100k times longer data frame
df2 <- bind_rows(replicate(1e5, df, F)) 
bench::mark(
  mm =df2 %>% 
    group_by(id) %>% 
    slice(c(which.min(stopSequence), which.max(stopSequence))),
  jeremy = df2 %>%
    group_by(id) %>%
    arrange(stopSequence) %>%
    filter(row_number()==1 | row_number()==n()))
#> Warning: Some expressions had a GC in every iteration; so filtering is disabled.
#> # A tibble: 2 x 6
#>   expression      min   median `itr/sec` mem_alloc `gc/sec`
#>   <bch:expr> <bch:tm> <bch:tm>     <dbl> <bch:byt>    <dbl>
#> 1 mm           22.6ms     27ms     34.9     14.2MB     21.3
#> 2 jeremy      254.3ms    273ms      3.66    58.4MB     11.0

2

使用data.table

# convert to data.table
setDT(df) 
# order, group, filter
df[order(stopSequence)][, .SD[c(1, .N)], by = id]

   id stopId stopSequence
1:  1      a            1
2:  1      c            3
3:  2      b            1
4:  2      c            4
5:  3      b            1
6:  3      a            3

1

lapplyとdplyrステートメントによる別のアプローチ。同じステートメントに任意の数の集計関数を適用できます。

lapply(c(first, last), 
       function(x) df %>% group_by(id) %>% summarize_all(funs(x))) %>% 
bind_rows()

たとえば、max stopSequence値を持つ行にも関心があり、次のようにできます。

lapply(c(first, last, max("stopSequence")), 
       function(x) df %>% group_by(id) %>% summarize_all(funs(x))) %>%
bind_rows()

0

異なるベースRの代替は、最初になりorderによってidおよびstopSequencesplitそれに基づいてid、すべてのためにid、我々は唯一の最初と最後のインデックスを選択し、それらのインデックスを使用してデータフレームのサブセット。

df[sapply(with(df, split(order(id, stopSequence), id)), function(x) 
                   c(x[1], x[length(x)])), ]


#  id stopId stopSequence
#1  1      a            1
#3  1      c            3
#5  2      b            1
#6  2      c            4
#8  3      b            1
#7  3      a            3

または同様の使用 by

df[unlist(with(df, by(order(id, stopSequence), id, function(x) 
                   c(x[1], x[length(x)])))), ]
弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.