Rでvlookupとfill(Excelのように)を行う方法は?


84

105000行30列のデータセットがあります。番号に割り当てたいカテゴリ変数があります。Excelでは、おそらく何かをVLOOKUPして塗りつぶします。

で同じことをどのように行うのRですか?

基本的に、私が持っているのはHouseType変数であり、を計算する必要がありHouseTypeNoます。サンプルデータは次のとおりです。

HouseType HouseTypeNo
Semi            1
Single          2
Row             3
Single          2
Apartment       4
Apartment       4
Row             3

回答:


118

私があなたの質問を正しく理解している場合、ExcelVLOOKUPと同等のことを行い、以下を使用して記入する4つの方法がありますR

# load sample data from Q
hous <- read.table(header = TRUE, 
                   stringsAsFactors = FALSE, 
text="HouseType HouseTypeNo
Semi            1
Single          2
Row             3
Single          2
Apartment       4
Apartment       4
Row             3")

# create a toy large table with a 'HouseType' column 
# but no 'HouseTypeNo' column (yet)
largetable <- data.frame(HouseType = as.character(sample(unique(hous$HouseType), 1000, replace = TRUE)), stringsAsFactors = FALSE)

# create a lookup table to get the numbers to fill
# the large table
lookup <- unique(hous)
  HouseType HouseTypeNo
1      Semi           1
2    Single           2
3       Row           3
5 Apartment           4

表の値を使用HouseTypeNoしてlargetableを入力する4つの方法を次にlookup示します。

最初mergeにベースで:

# 1. using base 
base1 <- (merge(lookup, largetable, by = 'HouseType'))

ベースに名前付きベクトルを使用する2番目の方法:

# 2. using base and a named vector
housenames <- as.numeric(1:length(unique(hous$HouseType)))
names(housenames) <- unique(hous$HouseType)

base2 <- data.frame(HouseType = largetable$HouseType,
                    HouseTypeNo = (housenames[largetable$HouseType]))

第三に、plyrパッケージの使用:

# 3. using the plyr package
library(plyr)
plyr1 <- join(largetable, lookup, by = "HouseType")

第四に、sqldfパッケージを使用する

# 4. using the sqldf package
library(sqldf)
sqldf1 <- sqldf("SELECT largetable.HouseType, lookup.HouseTypeNo
FROM largetable
INNER JOIN lookup
ON largetable.HouseType = lookup.HouseType")

の一部の家タイプがにlargetable存在しない可能性がある場合lookupは、左結合が使用されます。

sqldf("select * from largetable left join lookup using (HouseType)")

他のソリューションへの対応する変更も必要になります。

それはあなたがやりたかったことですか?どちらの方法が好きか教えてください。解説を追加します。


1
これはかなり遅いことに気づきましたが、あなたの助けに感謝します。私は最初と2番目の方法の両方を試しました。それらは両方ともうまく機能しました。繰り返しになりますが、質問に答えてくれてありがとう!
user2142810 2013

1
どういたしまして。質問に回答した場合は、左上の矢印の下にあるチェックマークをクリックしてこれを示すことができます。それは同じ質問をしている他の人に役立つでしょう。
ベン

2
解決策#2が機能するのは、あなたの例では一意の値がたまたま昇順であるためだと思います(=最初の一意の名前は1、2番目の一意の名前は2など)。'hous 'を追加すると、2番目の行'HousType = ECII'、HousTypeNo = '17 'でルックアップがすべて失敗します。
ECII 2013

1
@ECII先に進んで、問題を説明し、解決策を示す回答を追加してください
Ben

1
素晴らしい投稿。共有してくれてありがとう!#4は私のアプリケーションでうまく機能しました... 2つの非常に大きな400MBのテーブルを結合します。
Nathaniel Payne 2014年

25

私はあなたも使うことができると思いますmatch()

largetable$HouseTypeNo <- with(lookup,
                     HouseTypeNo[match(largetable$HouseType,
                                       HouseType)])

の順序をスクランブルしても、これは引き続き機能しlookupます。


10

qdapTools::lookup二項演算子の使用や省略形も好き%l%です。Excel vlookupと同じように機能しますが、列番号ではなく名前引数を受け入れます

## Replicate Ben's data:
hous <- structure(list(HouseType = c("Semi", "Single", "Row", "Single", 
    "Apartment", "Apartment", "Row"), HouseTypeNo = c(1L, 2L, 3L, 
    2L, 4L, 4L, 3L)), .Names = c("HouseType", "HouseTypeNo"), 
    class = "data.frame", row.names = c(NA, -7L))


largetable <- data.frame(HouseType = as.character(sample(unique(hous$HouseType), 
    1000, replace = TRUE)), stringsAsFactors = FALSE)


## It's this simple:
library(qdapTools)
largetable[, 1] %l% hous

6

@Benの答えの解決策#2は、他のより一般的な例では再現できません。一意のが昇順HouseTypehouses表示されるため、この例ではたまたま正しいルックアップが得られます。これを試して:

hous <- read.table(header = TRUE,   stringsAsFactors = FALSE,   text="HouseType HouseTypeNo
  Semi            1
  ECIIsHome       17
  Single          2
  Row             3
  Single          2
  Apartment       4
  Apartment       4
  Row             3")

largetable <- data.frame(HouseType = as.character(sample(unique(hous$HouseType), 1000, replace = TRUE)), stringsAsFactors = FALSE)
lookup <- unique(hous)

ベンズソリューション#2は

housenames <- as.numeric(1:length(unique(hous$HouseType)))
names(housenames) <- unique(hous$HouseType)
base2 <- data.frame(HouseType = largetable$HouseType,
                    HouseTypeNo = (housenames[largetable$HouseType]))

いつ

unique(base2$HouseTypeNo[ base2$HouseType=="ECIIsHome" ])
[1] 2

ルックアップテーブルからの正解が17の場合

それを行う正しい方法は

 hous <- read.table(header = TRUE,   stringsAsFactors = FALSE,   text="HouseType HouseTypeNo
      Semi            1
      ECIIsHome       17
      Single          2
      Row             3
      Single          2
      Apartment       4
      Apartment       4
      Row             3")

largetable <- data.frame(HouseType = as.character(sample(unique(hous$HouseType), 1000, replace = TRUE)), stringsAsFactors = FALSE)

housenames <- tapply(hous$HouseTypeNo, hous$HouseType, unique)
base2 <- data.frame(HouseType = largetable$HouseType,
  HouseTypeNo = (housenames[largetable$HouseType]))

これで、ルックアップが正しく実行されます

unique(base2$HouseTypeNo[ base2$HouseType=="ECIIsHome" ])
ECIIsHome 
       17

ベンズの回答を編集しようとしましたが、理解できない理由で拒否されました。


5

で始まります:

houses <- read.table(text="Semi            1
Single          2
Row             3
Single          2
Apartment       4
Apartment       4
Row             3",col.names=c("HouseType","HouseTypeNo"))

...あなたは使うことができます

as.numeric(factor(houses$HouseType))

...家のタイプごとに一意の番号を付けます。ここで結果を見ることができます:

> houses2 <- data.frame(houses,as.numeric(factor(houses$HouseType)))
> houses2
  HouseType HouseTypeNo as.numeric.factor.houses.HouseType..
1      Semi           1                                    3
2    Single           2                                    4
3       Row           3                                    2
4    Single           2                                    4
5 Apartment           4                                    1
6 Apartment           4                                    1
7       Row           3                                    2

...したがって、行の番号は異なりますが(係数はアルファベット順に並べられているため)、パターンは同じです。

(編集:この回答の残りのテキストは実際には冗長です。確認することになったのですread.table()が、最初にデータフレームに読み込まれたときに、houses $ HouseTypeがすでにファクターになっていることがわかりました)。

ただし、HouseTypeを係数に変換する方がよい場合もあります。これにより、HouseTypeNoと同じ利点が得られますが、家のタイプには番号が付けられるのではなく名前が付けられるため、解釈が簡単になります。

> houses3 <- houses
> houses3$HouseType <- factor(houses3$HouseType)
> houses3
  HouseType HouseTypeNo
1      Semi           1
2    Single           2
3       Row           3
4    Single           2
5 Apartment           4
6 Apartment           4
7       Row           3
> levels(houses3$HouseType)
[1] "Apartment" "Row"       "Semi"      "Single"  

5

ポスターは値を調べることについて質問しませんでしたexact=FALSEが、私自身の参照やおそらく他の人のための答えとしてこれを追加しています。

カテゴリ値を検索している場合は、他の回答を使用してください。

Excelvlookupでは、数値の一致を4番目の引数(1)とほぼ一致させることもできますmatch=TRUE。私はmatch=TRUE体温計で値を調べるようなもの。デフォルト値はFALSEで、カテゴリ値に最適です。

ほぼ一致させたい(ルックアップを実行したい)場合、Rには、findInterval(名前が示すように)連続数値を含む区間/ビンを見つけるという関数があります。

ただし、findIntervalいくつかの値を指定したいとします。ループを作成するか、適用関数を使用できます。ただし、DIYのベクトル化されたアプローチを採用する方が効率的であることがわかりました。

xとyでインデックス付けされた値のグリッドがあるとしましょう。

grid <- list(x = c(-87.727, -87.723, -87.719, -87.715, -87.711), 
             y = c(41.836, 41.839, 41.843, 41.847, 41.851), 
             z = (matrix(data = c(-3.428, -3.722, -3.061, -2.554, -2.362, 
                                  -3.034, -3.925, -3.639, -3.357, -3.283, 
                                  -0.152, -1.688, -2.765, -3.084, -2.742, 
                                   1.973,  1.193, -0.354, -1.682, -1.803, 
                                   0.998,  2.863,  3.224,  1.541, -0.044), 
                         nrow = 5, ncol = 5)))

xとyで調べたい値がいくつかあります。

df <- data.frame(x = c(-87.723, -87.712, -87.726, -87.719, -87.722, -87.722), 
                 y = c(41.84, 41.842, 41.844, 41.849, 41.838, 41.842), 
                 id = c("a", "b", "c", "d", "e", "f")

視覚化された例は次のとおりです。

contour(grid)
points(df$x, df$y, pch=df$id, col="blue", cex=1.2)

等高線図

次のタイプの式を使用して、x間隔とy間隔を見つけることができます。

xrng <- range(grid$x)
xbins <- length(grid$x) -1
yrng <- range(grid$y)
ybins <- length(grid$y) -1
df$ix <- trunc( (df$x - min(xrng)) / diff(xrng) * (xbins)) + 1
df$iy <- trunc( (df$y - min(yrng)) / diff(yrng) * (ybins)) + 1

これをさらに一歩進めて、次のgridようにz値に対して(単純な)補間を実行できます。

df$z <- with(df, (grid$z[cbind(ix, iy)] + 
                      grid$z[cbind(ix + 1, iy)] +
                      grid$z[cbind(ix, iy + 1)] + 
                      grid$z[cbind(ix + 1, iy + 1)]) / 4)

これはあなたにこれらの値を与えます:

contour(grid, xlim = range(c(grid$x, df$x)), ylim = range(c(grid$y, df$y)))
points(df$x, df$y, pch=df$id, col="blue", cex=1.2)
text(df$x + .001, df$y, lab=round(df$z, 2), col="blue", cex=1)

値を含む等高線図

df
#         x      y id ix iy        z
# 1 -87.723 41.840  a  2  2 -3.00425
# 2 -87.712 41.842  b  4  2 -3.11650
# 3 -87.726 41.844  c  1  3  0.33150
# 4 -87.719 41.849  d  3  4  0.68225
# 6 -87.722 41.838  e  2  1 -3.58675
# 7 -87.722 41.842  f  2  2 -3.00425

ixとiyは、を使用したループでも検出できた可能性があることに注意してください。findIntervalたとえば、2行目の例を次に示します。

findInterval(df$x[2], grid$x)
# 4
findInterval(df$y[2], grid$y)
# 2

どの試合ixiydf[2]

脚注:(1)vlookupの4番目の引数は、以前は「match」と呼ばれていましたが、リボンが導入された後、「[range_lookup]」に名前が変更されました。


4

mapvalues()plyrパッケージから使用できます。

初期データ:

dat <- data.frame(HouseType = c("Semi", "Single", "Row", "Single", "Apartment", "Apartment", "Row"))

> dat
  HouseType
1      Semi
2    Single
3       Row
4    Single
5 Apartment
6 Apartment
7       Row

ルックアップ/横断歩道テーブル:

lookup <- data.frame(type_text = c("Semi", "Single", "Row", "Apartment"), type_num = c(1, 2, 3, 4))
> lookup
  type_text type_num
1      Semi        1
2    Single        2
3       Row        3
4 Apartment        4

新しい変数を作成します。

dat$house_type_num <- plyr::mapvalues(dat$HouseType, from = lookup$type_text, to = lookup$type_num)

または、単純な置換の場合は、長いルックアップテーブルの作成をスキップして、これを1つのステップで直接実行できます。

dat$house_type_num <- plyr::mapvalues(dat$HouseType,
                                      from = c("Semi", "Single", "Row", "Apartment"),
                                      to = c(1, 2, 3, 4))

結果:

> dat
  HouseType house_type_num
1      Semi              1
2    Single              2
3       Row              3
4    Single              2
5 Apartment              4
6 Apartment              4
7       Row              3

3

を使用するmergeことは、ルックアップテーブルで主キー制約が適用されていない場合にデータを複製(乗算)する可能性があるため、またはを使用していない場合はレコード数を減らす可能性があるため、Excelでのルックアップとは異なりますall.x = T

それで問題が発生しないようにし、安全に検索するために、2つの戦略を提案します。

1つ目は、ルックアップキーで重複している行の数をチェックすることです。

safeLookup <- function(data, lookup, by, select = setdiff(colnames(lookup), by)) {
  # Merges data to lookup making sure that the number of rows does not change.
  stopifnot(sum(duplicated(lookup[, by])) == 0)
  res <- merge(data, lookup[, c(by, select)], by = by, all.x = T)
  return (res)
}

これにより、ルックアップデータセットを使用する前に重複排除する必要があります。

baseSafe <- safeLookup(largetable, house.ids, by = "HouseType")
# Error: sum(duplicated(lookup[, by])) == 0 is not TRUE 

baseSafe<- safeLookup(largetable, unique(house.ids), by = "HouseType")
head(baseSafe)
# HouseType HouseTypeNo
# 1 Apartment           4
# 2 Apartment           4
# ...

2番目のオプションは、ルックアップデータセットから最初に一致する値を取得してExcelの動作を再現することです。

firstLookup <- function(data, lookup, by, select = setdiff(colnames(lookup), by)) {
  # Merges data to lookup using first row per unique combination in by.
  unique.lookup <- lookup[!duplicated(lookup[, by]), ]
  res <- merge(data, unique.lookup[, c(by, select)], by = by, all.x = T)
  return (res)
}

baseFirst <- firstLookup(largetable, house.ids, by = "HouseType")

これらの関数はlookup、複数の列を追加するため、少し異なります。

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.