データフレーム列を数値型に変換する方法


回答:


267

(まだ)誰もチェックマークを取得していないので、ほとんどの場合、変換するベクトルのタイプを指定していないため、実際的な問題が発生していると思いますnumerictransformタスクを完了するには、関数を適用することをお勧めします。

ここで、特定の「変換異常」を実証します。

# create dummy data.frame
d <- data.frame(char = letters[1:5], 
                fake_char = as.character(1:5), 
                fac = factor(1:5), 
                char_fac = factor(letters[1:5]), 
                num = 1:5, stringsAsFactors = FALSE)

ちょっと見てみましょう data.frame

> d
  char fake_char fac char_fac num
1    a         1   1        a   1
2    b         2   2        b   2
3    c         3   3        c   3
4    d         4   4        d   4
5    e         5   5        e   5

そして実行してみましょう:

> sapply(d, mode)
       char   fake_char         fac    char_fac         num 
"character" "character"   "numeric"   "numeric"   "numeric" 
> sapply(d, class)
       char   fake_char         fac    char_fac         num 
"character" "character"    "factor"    "factor"   "integer" 

おそらく、「異常はどこにあるのか」と自問するでしょうまあ、私はRでかなり独特なものにぶつかってきた、これではありませんほとんどの交絡事、それはあなたがベッドに転がり前にこれを読んでいる場合は特に、あなたを混乱させることができます。

最初の2列はcharacterです。私は故意に2 番目のものを呼び出しましたfake_char。このcharacter変数と、ダークが返信で作成した変数との類似性を見つけます。これは実際にはにnumerical変換されたベクトルcharacterです。3 番目と4 番目の列はfactorで、最後の列は「純粋に」numericです。

あなたが利用した場合transformの機能を、あなたは、変換することができますfake_charnumericではなく、char変数自体を。

> transform(d, char = as.numeric(char))
  char fake_char fac char_fac num
1   NA         1   1        a   1
2   NA         2   2        b   2
3   NA         3   3        c   3
4   NA         4   4        d   4
5   NA         5   5        e   5
Warning message:
In eval(expr, envir, enclos) : NAs introduced by coercion

しかし、あなたがfake_charand char_facで同じことをするなら、あなたは幸運であり、NAなしで逃げるでしょう:

> transform(d, fake_char = as.numeric(fake_char), 
               char_fac = as.numeric(char_fac))

  char fake_char fac char_fac num
1    a         1   1        1   1
2    b         2   2        2   2
3    c         3   3        3   3
4    d         4   4        4   4
5    e         5   5        5   5

変換を保存してdata.frameandを確認するmodeclass、次の結果が得られます。

> D <- transform(d, fake_char = as.numeric(fake_char), 
                    char_fac = as.numeric(char_fac))

> sapply(D, mode)
       char   fake_char         fac    char_fac         num 
"character"   "numeric"   "numeric"   "numeric"   "numeric" 
> sapply(D, class)
       char   fake_char         fac    char_fac         num 
"character"   "numeric"    "factor"   "numeric"   "integer"

したがって、結論は次のとおりです。はい、characterベクトルをnumeric1に変換できますが、その要素がに「変換可能」である場合のみですnumericcharacterベクトルに要素が1つしかない場合、そのベクトルをnumerical1つに変換しようとするとエラーが発生します。

そしてちょうど私のポイントを証明するために:

> err <- c(1, "b", 3, 4, "e")
> mode(err)
[1] "character"
> class(err)
[1] "character"
> char <- as.numeric(err)
Warning message:
NAs introduced by coercion 
> char
[1]  1 NA  3  4 NA

そして今、楽しみ(または練習)のために、これらのコマンドの出力を推測してみてください。

> fac <- as.factor(err)
> fac
???
> num <- as.numeric(fac)
> num
???

パトリック・バーンズに敬意を表します!=)


6
'stringsAsFactors = FALSE'は、データファイルを読み取るときに重要です。
Robert Brisita、2015

4
私はこれが古いことを知っています...しかし...なぜdf $ fake_char <-as.integer(df $ fake_char)よりもtransform()を選択したのですか?Rで同じ操作を行う方法は複数あり、「正しい」方法を理解するのに行き詰まっています。ありがとうございました。
ripvlan

したがって、err <-c(1、 "b"、3、4、 "e")を数値ベクトルに変換することは絶対に不可能ですか?Excelには、「数値に変換」するためのボタンがあります。列の値を数値にします。私はそれをrで模倣しようとしています。
flightless13wings 2018年

警告!=エラー。数値/文字の混合を数値に変換するエラーは発生せず、警告といくつかのNA値が表示されます。
グレゴールトーマス

136

私に役立つ何か:変換する変数の範囲(または1つ以上)がある場合は、を使用できますsapply

少し無意味ですが、例えば:

data(cars)
cars[, 1:2] <- sapply(cars[, 1:2], as.factor)

データフレームの列3、6〜15、37を数値に変換する必要があるとしましょう。

dat[, c(3,6:15,37)] <- sapply(dat[, c(3,6:15,37)], as.numeric)

1
上記のコードのas.factorは列の文字を作成します
MySchizoBuddy

1
変数名ではなくインデックスのベクトルを処理する場合、sapplyは変換よりも優れています
smci

@MySchizoBuddyは正しい、少なくとも私のデータに関しては。元のdfは、「変換された」列を要素として受け入れません。彼らはキャラクターのままです。あなたがラップする場合sapplyに呼び出しをas.data.frame()右側の@Mehrad Mahmoudianは、以下の提案として、それが動作します。
ノワ2016年

これはマトリックスで機能しますか?私はまったく同じコードでそれを試していますが、後で列のclass()をチェックすると、「数値」ではなく「文字」と表示されます
namore

87

場合は、xデータフレームの列名でdat、かつx型因子、使用は次のとおりです。

as.numeric(as.character(dat$x))

3
as.character確かに追加は私が探していたものです。そうしないと、変換が失敗することがあります。少なくとも私の場合は。
Thieme Hennis 2014年

1
as.characterが必要なのはなぜですか?エラーが発生しました。Error: (list) object cannot be coerced to type 'double'ただし、ベクターに文字や句読点がないことは確かです。それから私は試してみましas.numeric(as.character(dat$x))たがうまくいきました。今、私の列が実際に整数だけであるかどうかわかりません!
vagabond 2015

2
as.numericを係数に使用すると、レベルが実際の値ではなく数値に変換されます。したがって、まず因子を文字に変換するためにas.characterが必要で、次にas.numeric
MySchizoBuddy 2015

これがここでの最良の答えです
mitoRibo

25

私はコメントを追加したでしょう(低い評価はできません)

user276042とpangratzを追加するだけです

dat$x = as.numeric(as.character(dat$x))

これにより、既存の列xの値が上書きされます


16

あなたの質問は厳密に数値に関するものですが、Rを始めるときに理解するのが難しい多くの変換があります。私は助けるためにメソッドに取り組むことを目指します。この質問は、この質問に似ています。

(1)因子は数値に直接変換できないため、最初に文字クラスに変換する必要があるため、(2)日付は通常、個別に処理する必要がある特殊なケースであるため、Rで型変換が困難になる可能性があります。 (3)データフレーム列全体のループは注意が必要です。幸い、「tidyverse」は問題のほとんどを解決しました。

このソリューションはmutate_each()、データフレームのすべての列に関数を適用するために使用します。この場合は、type.convert()文字列を数値に変換できる関数を適用します。Rは因数を愛するため(理由は不明)、文字のままであるはずの文字列が因数に変更されます。これを修正するために、このmutate_if()関数を使用して、因子である文字を変更する列を検出します。最後に、lubridateを使用して文字クラスのタイムスタンプを日付時刻に変更する方法を示したかったのです。


library(tidyverse) 
library(lubridate)

# Recreate data that needs converted to numeric, date-time, etc
data_df
#> # A tibble: 5 × 9
#>             TIMESTAMP SYMBOL    EX  PRICE  SIZE  COND   BID BIDSIZ   OFR
#>                 <chr>  <chr> <chr>  <chr> <chr> <chr> <chr>  <chr> <chr>
#> 1 2012-05-04 09:30:00    BAC     T 7.8900 38538     F  7.89    523  7.90
#> 2 2012-05-04 09:30:01    BAC     Z 7.8850   288     @  7.88  61033  7.90
#> 3 2012-05-04 09:30:03    BAC     X 7.8900  1000     @  7.88   1974  7.89
#> 4 2012-05-04 09:30:07    BAC     T 7.8900 19052     F  7.88   1058  7.89
#> 5 2012-05-04 09:30:08    BAC     Y 7.8900 85053     F  7.88 108101  7.90

# Converting columns to numeric using "tidyverse"
data_df %>%
    mutate_all(type.convert) %>%
    mutate_if(is.factor, as.character) %>%
    mutate(TIMESTAMP = as_datetime(TIMESTAMP, tz = Sys.timezone()))
#> # A tibble: 5 × 9
#>             TIMESTAMP SYMBOL    EX PRICE  SIZE  COND   BID BIDSIZ   OFR
#>                <dttm>  <chr> <chr> <dbl> <int> <chr> <dbl>  <int> <dbl>
#> 1 2012-05-04 09:30:00    BAC     T 7.890 38538     F  7.89    523  7.90
#> 2 2012-05-04 09:30:01    BAC     Z 7.885   288     @  7.88  61033  7.90
#> 3 2012-05-04 09:30:03    BAC     X 7.890  1000     @  7.88   1974  7.89
#> 4 2012-05-04 09:30:07    BAC     T 7.890 19052     F  7.88   1058  7.89
#> 5 2012-05-04 09:30:08    BAC     Y 7.890 85053     F  7.88 108101  7.90

mutate_all(type.convert, as.is=TRUE)代わりにを使用する場合、コマンドをmutate_all(type.convert)削除/回避mutate_if(is.factor, as.character)して短縮できます。文字列を文字として変換するか、因子として変換するかを示すas.is引数type.convert()です。デフォルトでは、as.is=FALSEin type.convert()(つまり、文字列を文字クラスではなく因子クラスに変換します)。
LCデータサイエンティスト、

15

ティムは正解であり、シェーンには抜けがあります。追加の例を次に示します。

R> df <- data.frame(a = as.character(10:15))
R> df <- data.frame(df, num = as.numeric(df$a), 
                        numchr = as.numeric(as.character(df$a)))
R> df
   a num numchr
1 10   1     10
2 11   2     11
3 12   3     12
4 13   4     13
5 14   5     14
6 15   6     15
R> summary(df)
  a          num           numchr    
 10:1   Min.   :1.00   Min.   :10.0  
 11:1   1st Qu.:2.25   1st Qu.:11.2  
 12:1   Median :3.50   Median :12.5  
 13:1   Mean   :3.50   Mean   :12.5  
 14:1   3rd Qu.:4.75   3rd Qu.:13.8  
 15:1   Max.   :6.00   Max.   :15.0  
R> 

これdata.frameで、因子列(カウント)の要約とas.numeric()--- 数値因子レベル---と(正しい)要約を得たので間違っている---の数値要約がありますas.numeric(as.character())


1
どういたしまして。これは、言語の最も愚かなコーナーの1つであり、ここの古い 'R Gotchas'質問で取り上げられたと思います。
Dirk Eddelbuettel、2010

14

次のコードを使用すると、すべてのデータフレーム列を数値に変換できます(Xは、その列を変換するデータフレームです)。

as.data.frame(lapply(X, as.numeric))

行列全体を数値に変換するには、次の2つの方法があります。

mode(X) <- "numeric"

または:

X <- apply(X, 2, as.numeric)

または、data.matrix関数を使用してすべてを数値に変換することもできますが、因子が正しく変換されない場合があるため、すべてをcharacter最初に変換する方が安全です。

X <- sapply(X, as.character)
X <- data.matrix(X)

マトリックスと数値に同時に変換したい場合は、通常これを最後に使用します


12

次の問題が発生した場合:

as.numeric(as.character(dat$x))

小数点を見てください。「。」ではなく「、」の場合。(例: "5,3")上記は機能しません。

考えられる解決策は次のとおりです。

as.numeric(gsub(",", ".", dat$x))

これは、英語を話さない一部の国ではよくあることだと思います。


8

type.convert()and を使用する普遍的な方法rapply()

convert_types <- function(x) {
    stopifnot(is.list(x))
    x[] <- rapply(x, utils::type.convert, classes = "character",
                  how = "replace", as.is = TRUE)
    return(x)
}
d <- data.frame(char = letters[1:5], 
                fake_char = as.character(1:5), 
                fac = factor(1:5), 
                char_fac = factor(letters[1:5]), 
                num = 1:5, stringsAsFactors = FALSE)
sapply(d, class)
#>        char   fake_char         fac    char_fac         num 
#> "character" "character"    "factor"    "factor"   "integer"
sapply(convert_types(d), class)
#>        char   fake_char         fac    char_fac         num 
#> "character"   "integer"    "factor"    "factor"   "integer"

3
これは最も柔軟なソリューションです-賛成票を投じる価値があります!
Richard Border

トップの答えになるはずです。as.is = TRUEキャラクターを数値または因子に変換したい場合は削除してください
qfazille

タイプmatrixが数値の変更になっているdata.frame内の列の束を変更しようとすると、classes=matrix最初の引数がエラーになるエラーが発生します
add-semi-colons

1
これがトピックの最良の答えです。
yuk

3

データフレーム列を数値に変換するには、次の操作を行う必要があります。

係数を数値に:-

data_frame$column <- as.numeric(as.character(data_frame$column))

繰り返しますが、この答えは現在の答えのセットに何も追加しません。また、因子を数値に変換する方法としてはお勧めできません。推奨される方法については、stackoverflow.com / q / 3418128を参照してください。
ベンバーンズ2015

良い答えは:sapply(data_frame,function(x) as.numeric(as.character(x)))
データフレーム-GG

2

他の人はこのトピックをかなりうまくカバーしていますが、この追加の簡単な考え/ヒントを追加したいと思います。正規表現を使用して、文字が数値のみで構成されている可能性があるかどうかを事前に確認できます。

for(i in seq_along(names(df)){
     potential_numcol[i] <- all(!grepl("[a-zA-Z]",d[,i]))
}
# and now just convert only the numeric ones
d <- sapply(d[,potential_numcol],as.numeric)

より洗練された正規表現と、その力を学ぶ/経験するためのきちんとした理由については、次の本当に素晴らしいWebサイトを参照してください。http//regexr.com/


1

char列が存在する可能性があることを考慮して、これはExcelシートの列の種類を取得する@Abdouに基づいて自動的に答えます:

makenumcols<-function(df){
  df<-as.data.frame(df)
  df[] <- lapply(df, as.character)
  cond <- apply(df, 2, function(x) {
    x <- x[!is.na(x)]
    all(suppressWarnings(!is.na(as.numeric(x))))
  })
  numeric_cols <- names(df)[cond]
  df[,numeric_cols] <- sapply(df[,numeric_cols], as.numeric)
  return(df)
}
df<-makenumcols(df)

0

私のPC(R v.3.2.3)で、applyまたはsapplyエラーを出します。lapplyうまくいきます。

dt[,2:4] <- lapply(dt[,2:4], function (x) as.factor(as.numeric(x)))

0

データフレームに複数のタイプの列、一部の文字、一部の数値がある場合、数値を含む列のみを数値に変換するには、次のことを試してください。

for (i in 1:length(data[1,])){
  if(length(as.numeric(data[,i][!is.na(data[,i])])[!is.na(as.numeric(data[,i][!is.na(data[,i])]))])==0){}
  else {
    data[,i]<-as.numeric(data[,i])
  }
}

0

hablar ::変換

複数の列を異なるデータ型に簡単に変換するには、を使用できますhablar::convert。単純な構文:df %>% convert(num(a))列aをdfから数値に変換します。

詳細な例

のすべての列mtcarsを文字に変換できます。

df <- mtcars %>% mutate_all(as.character) %>% as_tibble()

> df
# A tibble: 32 x 11
   mpg   cyl   disp  hp    drat  wt    qsec  vs    am    gear  carb 
   <chr> <chr> <chr> <chr> <chr> <chr> <chr> <chr> <chr> <chr> <chr>
 1 21    6     160   110   3.9   2.62  16.46 0     1     4     4    
 2 21    6     160   110   3.9   2.875 17.02 0     1     4     4    
 3 22.8  4     108   93    3.85  2.32  18.61 1     1     4     1    

hablar::convert

library(hablar)

# Convert columns to integer, numeric and factor
df %>% 
  convert(int(cyl, vs),
          num(disp:wt),
          fct(gear))

結果は:

# A tibble: 32 x 11
   mpg     cyl  disp    hp  drat    wt qsec     vs am    gear  carb 
   <chr> <int> <dbl> <dbl> <dbl> <dbl> <chr> <int> <chr> <fct> <chr>
 1 21        6  160    110  3.9   2.62 16.46     0 1     4     4    
 2 21        6  160    110  3.9   2.88 17.02     0 1     4     4    
 3 22.8      4  108     93  3.85  2.32 18.61     1 1     4     1    
 4 21.4      6  258    110  3.08  3.22 19.44     1 0     3     1   

0

文字を数値に変換するには、次を適用して因子に変換する必要があります

BankFinal1 <- transform(BankLoan,   LoanApproval=as.factor(LoanApproval))
BankFinal1 <- transform(BankFinal1, LoanApp=as.factor(LoanApproval))

1つの列は数値に変換できないため、同じデータで2つの列を作成する必要があります。1つの変換を行うと、以下のエラーが発生します

transform(BankData, LoanApp=as.numeric(LoanApproval))
Warning message:
  In eval(substitute(list(...)), `_data`, parent.frame()) :
  NAs introduced by coercion

したがって、同じデータの2つの列を適用した後

BankFinal1 <- transform(BankFinal1, LoanApp      = as.numeric(LoanApp), 
                                    LoanApproval = as.numeric(LoanApproval))

文字を数値に変換します



0

係数の保存を気にせず、数値に変換される可能性のある任意の列に適用したい場合は、以下のスクリプトを使用しました。dfが元のデータフレームの場合、以下のスクリプトを使用できます。

df[] <- lapply(df, as.character)
df <- data.frame(lapply(df, function(x) ifelse(!is.na(as.numeric(x)), as.numeric(x),  x)))

私はシェーンヨランのソリューションを参照しました

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.