プログラミング data.table

4

データテーブルまたはigraphを使用して、グループごとに隣接するものを見つける

私はdata.tableを持っています： groups <- data.table(group = c("A", "B", "C", "D", "E", "F", "G"), code_1 = c(2,2,2,7,8,NA,5), code_2 = c(NA,3,NA,3,NA,NA,2), code_3 = c(4,1,1,4,4,1,8)) group code_1 code_2 code_3 A 2 NA 4 B 2 3 1 C 2 NA 1 D 7 3 4 E 8 NA 4 F NA NA 1 G …

14 r data.table igraph

1

データテーブルをフィルタリングする場合のANDingを介したチェーンのパフォーマンス上の利点

私は同様のタスクを1行にまとめる癖があります。例えば、私は上のフィルタに必要がある場合はa、b、およびcデータテーブルに、私は1つにそれらを一緒に出してあげる[]論理積を持ちます。昨日、私は特定のケースではこれが信じられないほど遅く、代わりにチェイニングフィルターをテストしたことに気付きました。以下に例を示します。まず、乱数ジェネレータをシードし、data.tableをロードして、ダミーデータセットを作成します。 # Set RNG seed set.seed(-1) # Load libraries library(data.table) # Create data table dt <- data.table(a = sample(1:1000, 1e7, replace = TRUE), b = sample(1:1000, 1e7, replace = TRUE), c = sample(1:1000, 1e7, replace = TRUE), d = runif(1e7)) 次に、メソッドを定義します。最初のアプローチでは、フィルターを連鎖させます。2番目は、フィルターをAND演算します。 # Chaining method chain_filter <- function(){ dt[a %between% …

12 r data.table

6

文字列を分割し、文字列内のフィールドの名前を取得します

情報を含む列をいくつかの列に分割する必要があります。私は使用しますtstrsplitが、同じ種類の情報は行間で同じ順序ではなく、変数内の新しい列の名前を抽出する必要があります。知っておくべき重要事項：多くの情報（フィールドが新しい変数になる）があり、それらすべてを知っているわけではないため、「フィールドごとの」ソリューションは必要ありません。以下は私が持っているものの例です： library(data.table) myDT <- structure(list(chr = c("chr1", "chr2", "chr4"), pos = c(123L, 435L, 120L), info = c("type=3;end=4", "end=6", "end=5;pos=TRUE;type=2" )), class = c("data.table", "data.frame"), row.names = c(NA,-3L)) # chr pos info #1: chr1 123 type=3;end=4 #2: chr2 435 end=6 #3: chr4 120 end=5;pos=TRUE;type=2 そして、私は入手したいと思います： # chr pos end …

11 r data.table reshape

1

特定の行を条件にしながら複数の列を動的に変更する

この辺りに似たような質問がいくつかあることは知っていますが、私が抱えている正確な問題に対応しているようには見えません。 set.seed(4) df = data.frame( Key = c("A", "B", "A", "D", "A"), Val1 = rnorm(5), Val2 = runif(5), Val3 = 1:5 ) Key == "A"である行の値列の値をゼロ化したいと思います。列名はgrep： cols = grep("Val", names(df), value = TRUE) 通常、この場合に必要data.tableなことを達成するには、次のようにします。 library(data.table) df = as.data.table(df) df[Key == "A", (cols) := 0] そして、望ましい出力は次のようになります： Key Val1 Val2 Val3 1 A …

11 r dplyr data.table

3

data.tableでできるdtplyrでできないこと

Rで、特にとの間dplyrでデータをラングリングするための学習努力を投資する必要がdtplyrありdata.tableますか？ dplyrほとんど使用しますが、データが大きすぎる場合はを使用しますがdata.table、これはまれなケースです。したがって、dtplyrv1.0がのインターフェイスとしてdata.table公開されたので、一見すると、data.tableインターフェイスの使用について二度と心配する必要はないようです。だから、ほとんどの便利な機能や側面何をしているdata.tableことはできません使用して行われdtplyrた瞬間に、それはそうで行われることはありませんかdtplyr？その顔、上dplyrの利点とdata.tableなり、それはのように聞こえるdtplyr追い越すだろうdplyr。使用する理由はあるのでしょうdplyr一度dtplyr完全に成熟していますか？注：私はdplyrvs については質問していませんdata.table（data.table vs dplyrの場合のように、他の人がうまくやることができるか、うまくいかないことがあるのでしょうか？） tはdtplyr、使用するツールとなります。

9 r dplyr data.table dtplyr

2

2列をチェーンしてR data.tableの行順序を設定する

2列のチェーンに基づいてRデータテーブルを注文する方法を理解しようとしています。これが私のサンプルのdata.tableです。 dt <- data.table(id = c('A', 'A', 'A', 'A', 'A') , col1 = c(7521, 0, 7915, 5222, 5703) , col2 = c(7907, 5703, 8004, 7521, 5222)) id col1 col2 1: A 7521 7907 2: A 0 5703 3: A 7915 8004 4: A 5222 7521 5: A 5703 5222 …

8 r data.table

タグ付けされた質問 「data.table」

タグ付けされた質問「data.table」