正規表現一致の配列を作成する


160

Javaでは、すべての正規表現の一致を配列に返そうとしていますが、パターンが何かと一致するかどうか(ブール値)しか確認できないようです。

正規表現一致を使用して、指定された文字列の正規表現に一致するすべての文字列の配列を形成するにはどうすればよいですか?


2
良い質問。求める情報は、正規表現とマッチャーに関するJavaドキュメントの一部である必要があります。残念ながらそうではありません。
Cheeso

3
本当の恥。この機能は、他のほぼすべての言語(正規表現をサポートしている)でそのまま使用できるようです。
Ray Toal

回答:


278

(Javaが9以上であると想定できる場合、4castleの答えは以下よりも優れています)

マッチャーを作成し、それを使用して繰り返し一致を見つける必要があります。

 import java.util.regex.Matcher;
 import java.util.regex.Pattern;

 ...

 List<String> allMatches = new ArrayList<String>();
 Matcher m = Pattern.compile("your regular expression here")
     .matcher(yourStringHere);
 while (m.find()) {
   allMatches.add(m.group());
 }

この後allMatches、一致が含まれallMatches.toArray(new String[0])ます。本当に必要な場合は、を使用して配列を取得できます。


を使用MatchResultしてMatcher.toMatchResult()、現在のグループ状態のスナップショットを返すので、一致をループするヘルパー関数を作成することもできます。

たとえば、遅延イテレータを記述して、

for (MatchResult match : allMatches(pattern, input)) {
  // Use match, and maybe break without doing the work to find all possible matches.
}

このようなことをすることによって:

public static Iterable<MatchResult> allMatches(
      final Pattern p, final CharSequence input) {
  return new Iterable<MatchResult>() {
    public Iterator<MatchResult> iterator() {
      return new Iterator<MatchResult>() {
        // Use a matcher internally.
        final Matcher matcher = p.matcher(input);
        // Keep a match around that supports any interleaving of hasNext/next calls.
        MatchResult pending;

        public boolean hasNext() {
          // Lazily fill pending, and avoid calling find() multiple times if the
          // clients call hasNext() repeatedly before sampling via next().
          if (pending == null && matcher.find()) {
            pending = matcher.toMatchResult();
          }
          return pending != null;
        }

        public MatchResult next() {
          // Fill pending if necessary (as when clients call next() without
          // checking hasNext()), throw if not possible.
          if (!hasNext()) { throw new NoSuchElementException(); }
          // Consume pending so next call to hasNext() does a find().
          MatchResult next = pending;
          pending = null;
          return next;
        }

        /** Required to satisfy the interface, but unsupported. */
        public void remove() { throw new UnsupportedOperationException(); }
      };
    }
  };
}

これとともに、

for (MatchResult match : allMatches(Pattern.compile("[abc]"), "abracadabra")) {
  System.out.println(match.group() + " at " + match.start());
}

収量

a at 0
b at 1
a at 3
c at 4
a at 5
a at 7
b at 8
a at 10

4
事前にサイズがわからないため、ここではArrayListを使用しないことをお勧めします。バッファのサイズ変更を避けたい場合があります。代わりに、私はLinkedListを好みます。ただし、これは単なる提案であり、回答の有効性を損なうものではありません。
Liv

13
@Livは、ベンチマークの両方に時間がかかるArrayListし、LinkedListその結果は驚くべきことであり、。
Anthony Accioly、

私はあなたの言っていることを聞いており、どちらの場合も実行速度とメモリフットプリントを認識しています.ArrayListの問題は、デフォルトのコンストラクターが10の容量を作成することです-add()を呼び出してそのサイズを超えると)メモリの割り当てと配列のコピーに耐える必要があります-これは数回発生する可能性があります。確かに、もしあなたが数個のマッチしか期待しないなら、あなたのアプローチはより効率的なものです。ただし、配列の「サイズ変更」が複数回発生することがわかった場合は、LinkedListをお勧めします。低レイテンシアプリを扱っている場合はさらにそうです。
Liv

12
@Liv、パターンがかなり予測可能なサイズで一致を生成する傾向があり、パターンがまばらに一致するか密に一致するかに応じて(allMatchesvs の長さの合計に基づくyourStringHere.length())、おそらくの適切なサイズを事前計算できますallMatches。私の経験では、LinkedListメモリと反復効率のコストは通常、それだけの価値LinkedListはないため、デフォルトの姿勢ではありません。しかし、ホットスポットを最適化するときは、リストの実装を交換して、改善が見られるかどうかを確認する価値があります。
マイク・サミュエル

1
Javaの9では、あなたが今使用することができますMatcher#results得るためにStreamあなたは配列を生成するために使用することができたが(参照私の答えを)。
キャッスル

56

Java 9では、を使用Matcher#results()して、Stream<MatchResult>一致のリスト/配列を取得できるを取得できるようになりました。

import java.util.regex.Pattern;
import java.util.regex.MatchResult;
String[] matches = Pattern.compile("your regex here")
                          .matcher("string to search from here")
                          .results()
                          .map(MatchResult::group)
                          .toArray(String[]::new);
                    // or .collect(Collectors.toList())

1
それらはresults()メソッドではありません。最初にこれを実行してください
Bravo

14
@Bravo Java 9を使用していますか?それは存在します。ドキュメントにリンクしました。
キャッスル2018年

:((java 8の代替手段はありますか
logbasex

25

Javaは正規表現を非常に複雑にし、perlスタイルに従っていません。見てみましょうMentaRegex Javaコードの一行でそれを達成する方法を参照してください。

String[] matches = match("aa11bb22", "/(\\d+)/g" ); // => ["11", "22"]

6
カッコいい。ダブルスラッシュは依然として醜く見えますが、そこからの脱出はないと思います。
JohnPristine、2011

mentaregex-0.9.5.jar、6Kbが私の一日を救いました、ObrigadoSérgio!
CONvid19

2
注意!最良のソリューション。これを使って!
Vlad Holubiev 2013年

13
MentaRegexサイトはダウンしていますか?mentaregex.soliveirajr.comにアクセスすると、「hi」としか表示されません
user64141

1
@ user64141はそのように見えます
Amit Gold

11

以下に簡単な例を示します。

Pattern pattern = Pattern.compile(regexPattern);
List<String> list = new ArrayList<String>();
Matcher m = pattern.matcher(input);
while (m.find()) {
    list.add(m.group());
}

(より多くのキャプチャグループがある場合は、グループメソッドの引数としてそれらのインデックスで参照できます。配列が必要な場合は、を使用してくださいlist.toArray()


pattern.matches(input)は機能しません。あなたはあなたの正規表現パターンを渡す必要があります(もう一度!)-> WTF Java ?! pattern.matches(String regex、String input); pattern.matcher(input)ですか?
El Mac

@ElMac Pattern.matches()は静的メソッドですPattern。インスタンスで呼び出すことはできません。Pattern.matches(regex, input)は単にの省略形ですPattern.compile(regex).matcher(input).matches()
dimo414 2017

5

公式の正規表現のJavaトレイル

        Pattern pattern = 
        Pattern.compile(console.readLine("%nEnter your regex: "));

        Matcher matcher = 
        pattern.matcher(console.readLine("Enter input string to search: "));

        boolean found = false;
        while (matcher.find()) {
            console.format("I found the text \"%s\" starting at " +
               "index %d and ending at index %d.%n",
                matcher.group(), matcher.start(), matcher.end());
            found = true;
        }

find結果groupを使用して配列/リスト/何でも挿入します。


0
        Set<String> keyList = new HashSet();
        Pattern regex = Pattern.compile("#\\{(.*?)\\}");
        Matcher matcher = regex.matcher("Content goes here");
        while(matcher.find()) {
            keyList.add(matcher.group(1)); 
        }
        return keyList;
弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.