一意の値ごとに出現回数をカウントする


140

私が持っているとしましょう:

v = rep(c(1,2, 2, 2), 25)

ここで、各一意の値が出現する回数をカウントします。unique(v) 一意の値は何であるかを返しますが、その数は返しません。

> unique(v)
[1] 1 2

私に与えてくれるものが欲しい

length(v[v==1])
[1] 25
length(v[v==2])
[1] 75

しかし、より一般的なワンライナーとして:)次のように近いものですが(かなりではありません):

#<doesn't work right> length(v[v==unique(v)])

回答:


179

おそらくテーブルはあなたが求めているものですか?

dummyData = rep(c(1,2, 2, 2), 25)

table(dummyData)
# dummyData
#  1  2 
# 25 75

## or another presentation of the same data
as.data.frame(table(dummyData))
#    dummyData Freq
#  1         1   25
#  2         2   75

7
ああ、はい、少し変更するだけでこれを使用できます。t(as.data.frame(table(v))[、2])はまさに必要なものです。ありがとう
gakera

1
私はこれを不自然にで使用していましたhisttableよりもかなり遅いようですhist。なんでかしら。誰か確認できますか?
2013

2
チェイス、頻度で注文するチャンスはありますか?私はまったく同じ問題を抱えていますが、テーブルにはおよそ20000のエントリがあり、最も一般的なエントリの頻度を知りたいのですが。
Torvon、2014

5
@Torvon-確かorder()に、結果で使用してください。iex <- as.data.frame(table(dummyData)); x[order(x$Freq, decreasing = TRUE), ]
2014

この方法は適切ではありません。繰り返しの多い非常に少数のデータにのみ適合します。重複するレコードが少ない連続データの多くには適合しません。
ディープノース、

26

複数の因子(=多次元データフレーム)がある場合、dplyrパッケージを使用して因子の各組み合わせの一意の値をカウントできます。

library("dplyr")
data %>% group_by(factor1, factor2) %>% summarize(count=n())

パイプ演算子%>%を使用して、データフレームのメソッド呼び出しをチェーンしますdata


21

これは、を使用した1行のアプローチaggregateです。

> aggregate(data.frame(count = v), list(value = v), length)

  value count
1     1    25
2     2    75

11

Chaseが示唆したように、table()関数は良い方法です。大きなデータセットを分析する場合、別の方法はデータテーブルパッケージで.N関数を使用することです。

によってデータテーブルパッケージをインストールしたことを確認してください

install.packages("data.table")

コード:

# Import the data.table package
library(data.table)

# Generate a data table object, which draws a number 10^7 times  
# from 1 to 10 with replacement
DT<-data.table(x=sample(1:10,1E7,TRUE))

# Count Frequency of each factor level
DT[,.N,by=x]

8

一意の値の数を含む無次元の整数ベクトルを取得するには、を使用しますc()

dummyData = rep(c(1, 2, 2, 2), 25) # Chase's reproducible data
c(table(dummyData)) # get un-dimensioned integer vector
 1  2 
25 75

str(c(table(dummyData)) ) # confirm structure
 Named int [1:2] 25 75
 - attr(*, "names")= chr [1:2] "1" "2"

これは、一意の値のカウントを別の関数にフィードする必要がある場合に役立ち、t(as.data.frame(table(dummyData))[,2]Chaseの回答へのコメントでの投稿よりも短く、より慣用的です。ここで私にこれを指摘してくれ Ricardo Saportaに感謝します


7

これは私にとってはうまくいきます。ベクトルを取るv

length(summary(as.factor(v),maxsum=50000))

コメント:maxsumを一意の値の数をキャプチャするのに十分な大きさに設定します

またはmagrittrパッケージと一緒に

v %>% as.factor %>% summary(maxsum=50000) %>% length


4

固有の値の数を、値を含むデータフレームの追加の列(たとえば、サンプルサイズを表す列)として持つ必要がある場合、plyrは適切な方法を提供します。

data_frame <- data.frame(v = rep(c(1,2, 2, 2), 25))

library("plyr")
data_frame <- ddply(data_frame, .(v), transform, n = length(v))

3
またはddply(data_frame, .(v), count)。また、機能させるにはlibrary("plyr")呼び出しが必要であることを明示することも価値がありますddply
ブライアンディッグス2013年

使用する奇妙なようtransformの代わりにmutate使用している場合plyr
グレゴールトーマス

3

また、値をカテゴリにして呼び出してsummary()も機能します。

> v = rep(as.factor(c(1,2, 2, 2)), 25)
> summary(v)
 1  2 
25 75 

2

あなたも試すことができます tidyverse

library(tidyverse) 
dummyData %>% 
    as.tibble() %>% 
    count(value)
# A tibble: 2 x 2
  value     n
  <dbl> <int>
1     1    25
2     2    75

0

data.frame(例:train.data)で一意に実行し、カウント(分類子の重みとして使用できる)も取得する場合は、以下を実行できます。

unique.count = function(train.data, all.numeric=FALSE) {                                                                                                                                                                                                 
  # first convert each row in the data.frame to a string                                                                                                                                                                              
  train.data.str = apply(train.data, 1, function(x) paste(x, collapse=','))                                                                                                                                                           
  # use table to index and count the strings                                                                                                                                                                                          
  train.data.str.t = table(train.data.str)                                                                                                                                                                                            
  # get the unique data string from the row.names                                                                                                                                                                                     
  train.data.str.uniq = row.names(train.data.str.t)                                                                                                                                                                                   
  weight = as.numeric(train.data.str.t)                                                                                                                                                                                               
  # convert the unique data string to data.frame
  if (all.numeric) {
    train.data.uniq = as.data.frame(t(apply(cbind(train.data.str.uniq), 1, 
      function(x) as.numeric(unlist(strsplit(x, split=","))))))                                                                                                    
  } else {
    train.data.uniq = as.data.frame(t(apply(cbind(train.data.str.uniq), 1, 
      function(x) unlist(strsplit(x, split=",")))))                                                                                                    
  }
  names(train.data.uniq) = names(train.data)                                                                                                                                                                                          
  list(data=train.data.uniq, weight=weight)                                                                                                                                                                                           
}  

0

length(unique(df $ col))は、私が見ることができる最も簡単な方法です。


私がこの質問をして以来、Rはおそらく過去10年間で大きく進化しました。
がけら

-2
count_unique_words <-function(wlist) {
ucountlist = list()
unamelist = c()
for (i in wlist)
{
if (is.element(i, unamelist))
    ucountlist[[i]] <- ucountlist[[i]] +1
else
    {
    listlen <- length(ucountlist)
    ucountlist[[i]] <- 1
    unamelist <- c(unamelist, i)
    }
}
ucountlist
}

expt_counts <- count_unique_words(population)
for(i in names(expt_counts))
    cat(i, expt_counts[[i]], "\n")
弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.