複数のキャプチャグループを持つRでの正規表現グループキャプチャ

94

Rでは、正規表現の一致からグループキャプチャを抽出できますか？私の知る限り、のどれもgrep、grepl、regexpr、gregexpr、sub、またはgsubグループのキャプチャを返します。

このようにエンコードされた文字列からキーと値のペアを抽出する必要があります。

\((.*?) :: (0\.[0-9]+)\)

私は常に複数の完全一致grepsを実行するか、外部（非R）処理を実行できますが、すべてR内で実行できることを望んでいました。これを実行するためのそのような関数を提供する関数またはパッケージはありますか？

regex r capture capture-group

— ダニエル・ディキソン
ソース

118

str_match()、stringrパッケージから、これを行います。これは、一致したグループごとに1つの列（および一致全体に対して1つ）を持つ文字行列を返します。

> s = c("(sometext :: 0.1231313213)", "(moretext :: 0.111222)")
> str_match(s, "\\((.*?) :: (0\\.[0-9]+)\\)")
     [,1]                         [,2]       [,3]          
[1,] "(sometext :: 0.1231313213)" "sometext" "0.1231313213"
[2,] "(moretext :: 0.111222)"     "moretext" "0.111222"

— ケントジョンソン
ソース

1

そして、str_match_all()正規表現内のすべてのグループを一致させる

— SMCI

[、1]のキャプチャされたグループのみを印刷するにはどうすればよいですか？

— -nenur

あなたが探しているものがわからない。キャプチャされたグループは列2と3 [,1]です。完全一致です。[,2:3]キャプチャされたグループです。

— ケントジョンソン

50

あなたの例から、gsubはこれを行います：

gsub("\\((.*?) :: (0\\.[0-9]+)\\)","\\1 \\2", "(sometext :: 0.1231313213)")
[1] "sometext 0.1231313213"

引用符で\ sをダブルエスケープする必要があります。そうすると、正規表現で機能します。

お役に立てれば。

— デビッドローレンスミラー
ソース

実際には、キャプチャされた部分文字列を引き出してdata.frameに入れる必要があります。しかし、あなたの答えを見て、おそらく私が望むものを得るためにgsubといくつかのstrsplitをチェーンすることができると思います：strsplit（strsplit（gsub（regex、 "\\ 1 :: \\ 2 ::::"、str ）、 "::::"）[[1]]、 "::"）

— ダニエルディッキソン

8

すごい。R gsubマンページには、キャプチャグループの参照をエスケープするために '\\ 1'が必要であることを示す例が非常に必要です。

— smci 2014年

33

試してみてくださいregmatches()とregexec()：

regmatches("(sometext :: 0.1231313213)",regexec("\\((.*?) :: (0\\.[0-9]+)\\)","(sometext :: 0.1231313213)"))
[[1]]
[1] "(sometext :: 0.1231313213)" "sometext"                   "0.1231313213"

— ジーンズ
ソース

3

バニラRソリューションと、regmatchesこれまでに見たことがないことを指摘してくれてありがとう

— Andy

文字列を2回記述する必要があるのはなぜですか？

— Stefano Borini、

@StefanoBorini regexecは、一致の場所のみに関する情報を保持するリストを返すregmatchesため、ユーザーは一致リストが属する文字列を提供する必要があります。

— RTbecard

19

gsub（）はこれを行うことができ、キャプチャグループのみを返します。

ただし、これが機能するためには、gsub（）ヘルプに記載されているように、キャプチャグループの外部の要素を明示的に選択する必要があります。

（...）置換されていない文字ベクトル 'x'の要素は変更されずに返されます。

そのため、選択するテキストが文字列の途中にある場合は、キャプチャグループの前後に。*を追加すると、それだけを返すことができます。

gsub(".*\\((.*?) :: (0\\.[0-9]+)\\).*","\\1 \\2", "(sometext :: 0.1231313213)") [1] "sometext 0.1231313213"

— 現金
ソース

4

私はperl互換の正規表現が好きです。たぶん他の誰かもそうします...

これは、perl互換の正規表現を実行し、私が慣れている他の言語の関数の機能と一致する関数です。

regexpr_perl <- function(expr, str) {
  match <- regexpr(expr, str, perl=T)
  matches <- character(0)
  if (attr(match, 'match.length') >= 0) {
    capture_start <- attr(match, 'capture.start')
    capture_length <- attr(match, 'capture.length')
    total_matches <- 1 + length(capture_start)
    matches <- character(total_matches)
    matches[1] <- substr(str, match, match + attr(match, 'match.length') - 1)
    if (length(capture_start) > 1) {
      for (i in 1:length(capture_start)) {
        matches[i + 1] <- substr(str, capture_start[[i]], capture_start[[i]] + capture_length[[i]] - 1)
      }
    }
  }
  matches
}

— ラフバイト
ソース

3

これが私がこの問題を回避した方法です。2つの個別の正規表現を使用して、最初と2番目のキャプチャグループをgregexpr照合し、2つの呼び出しを実行してから、一致した部分文字列を引き出します。

regex.string <- "(?<=\\().*?(?= :: )"
regex.number <- "(?<= :: )\\d\\.\\d+"

match.string <- gregexpr(regex.string, str, perl=T)[[1]]
match.number <- gregexpr(regex.number, str, perl=T)[[1]]

strings <- mapply(function (start, len) substr(str, start, start+len-1),
                  match.string,
                  attr(match.string, "match.length"))
numbers <- mapply(function (start, len) as.numeric(substr(str, start, start+len-1)),
                  match.number,
                  attr(match.number, "match.length"))

— ダニエル・ディキソン
ソース

動作するコードの+1。ただし、Rからクイックシェルコマンドを実行して、次のようなBashワンライナーを使用したいと思いますexpr "xyx0.0023xyxy" : '[^0-9]*\([.0-9]\+\)'

— Aleksandr Levchuk

3

strcaptureからの解決策utils：

x <- c("key1 :: 0.01",
       "key2 :: 0.02")
strcapture(pattern = "(.*) :: (0\\.[0-9]+)",
           x = x,
           proto = list(key = character(), value = double()))
#>    key value
#> 1 key1  0.01
#> 2 key2  0.02

— アルテム・クレヴソフ
ソース

2

stringrパッケージで提案されているように、これはまたはのいずれstr_match()かを使用して実現できます。str_extract()。

マニュアルから改造：

library(stringr)

strings <- c(" 219 733 8965", "329-293-8753 ", "banana", 
             "239 923 8115 and 842 566 4692",
             "Work: 579-499-7527", "$1000",
             "Home: 543.355.3679")
phone <- "([2-9][0-9]{2})[- .]([0-9]{3})[- .]([0-9]{4})"

グループを抽出して組み合わせる：

str_extract_all(strings, phone, simplify=T)
#      [,1]           [,2]          
# [1,] "219 733 8965" ""            
# [2,] "329-293-8753" ""            
# [3,] ""             ""            
# [4,] "239 923 8115" "842 566 4692"
# [5,] "579-499-7527" ""            
# [6,] ""             ""            
# [7,] "543.355.3679" ""

出力行列でグループを示す（2列目以上に注目）：

str_match_all(strings, phone)
# [[1]]
#      [,1]           [,2]  [,3]  [,4]  
# [1,] "219 733 8965" "219" "733" "8965"
# 
# [[2]]
#      [,1]           [,2]  [,3]  [,4]  
# [1,] "329-293-8753" "329" "293" "8753"
# 
# [[3]]
#      [,1] [,2] [,3] [,4]
# 
# [[4]]
#      [,1]           [,2]  [,3]  [,4]  
# [1,] "239 923 8115" "239" "923" "8115"
# [2,] "842 566 4692" "842" "566" "4692"
# 
# [[5]]
#      [,1]           [,2]  [,3]  [,4]  
# [1,] "579-499-7527" "579" "499" "7527"
# 
# [[6]]
#      [,1] [,2] [,3] [,4]
# 
# [[7]]
#      [,1]           [,2]  [,3]  [,4]  
# [1,] "543.355.3679" "543" "355" "3679"

— メガトロン
ソース

842 566 4692についてはどう

— ですか

脱落をとってくれてありがとう。_all関連するstringr機能のサフィックスを使用して修正されました。

— メガトロン

0

これは、パッケージunglueを使用して、選択した回答から例をとることで実行できます。

# install.packages("unglue")
library(unglue)

s <- c("(sometext :: 0.1231313213)", "(moretext :: 0.111222)")
unglue_data(s, "({x} :: {y})")
#>          x            y
#> 1 sometext 0.1231313213
#> 2 moretext     0.111222

またはデータフレームから開始

df <- data.frame(col = s)
unglue_unnest(df, col, "({x} :: {y})",remove = FALSE)
#>                          col        x            y
#> 1 (sometext :: 0.1231313213) sometext 0.1231313213
#> 2     (moretext :: 0.111222) moretext     0.111222

オプションの名前付きキャプチャを使用すると、グルーパターンから生の正規表現を取得できます。

unglue_regex("({x} :: {y})")
#>             ({x} :: {y}) 
#> "^\\((.*?) :: (.*?)\\)$"

unglue_regex("({x} :: {y})",named_capture = TRUE)
#>                     ({x} :: {y}) 
#> "^\\((?<x>.*?) :: (?<y>.*?)\\)$"

詳細：https : //github.com/moodymudskipper/unglue/blob/master/README.md

— ムーディー_マッドスキッパー
ソース