Pythonでは、文字列を分割してセパレータを保持するにはどうすればよいですか?


226

これを説明する最も簡単な方法は次のとおりです。これが私が使っているものです:

re.split('\W', 'foo/bar spam\neggs')
-> ['foo', 'bar', 'spam', 'eggs']

ここに私が欲しいものがあります:

someMethod('\W', 'foo/bar spam\neggs')
-> ['foo', '/', 'bar', ' ', 'spam', '\n', 'eggs']

その理由は、文字列をトークンに分割し、それを操作してから、元に戻すことです。


3
何の\W略ですか?グーグルで失敗しました。
Ooker


生のバイト文字列に適用される質問については、「文字列を分割し、区切り文字を個別のリスト要素としてではなく、分割文字列チャンクの一部として保持してください」と記載します。stackoverflow.com/ questions / 62591863 /…
Lorenz

回答:


295
>>> re.split('(\W)', 'foo/bar spam\neggs')
['foo', '/', 'bar', ' ', 'spam', '\n', 'eggs']

22
カッコいい。re.splitがキャプチャグループでそれを行ったことを知りませんでした。
ローレンスゴンサルベス2010年

16
@Laurence:ええと、ドキュメント化されています:docs.python.org/library/re.html#re.split: "パターンの出現によって文字列を分割します。キャプチャする括弧がパターンで使用されている場合、パターン内のすべてのグループのテキスト結果のリストの一部としても返されます。」
Vinay Sajip、2010年

40
それは深刻に文書化されていません。私は14年間Pythonを使用していますが、これがわかっただけです。
smci 2013年

19
グループマッチの出力がスプリットの左側(または同様に右側)にあるものにアタッチされるようにするオプションはありますか?たとえば、これは簡単に変更できるので、出力は次のようになります['foo', '/bar', ' spam', '\neggs']か?
2015

3
@ Mr.F re.subで何かできるかもしれません。私はエンディングパーセントで分割したかったので、ダブルキャラクターで下塗りしてから分割しましたが、ハッキーですが、私の場合はうまくいきました。- re.split('% ', re.sub('% ', '%% ', '5.000% Additional Whatnot'))>['5.000%', 'Additional Whatnot']
カイルジェームスウォーカー

29

改行で分割する場合は、を使用しますsplitlines(True)

>>> 'line 1\nline 2\nline without newline'.splitlines(True)
['line 1\n', 'line 2\n', 'line without newline']

(一般的な解決策ではありませんが、この方法が存在しないことに気付いていない人がここに来た場合に備えて、ここに追加します。)


12

Python 3でうまく機能するもう1つの正規表現なしのソリューション

# Split strings and keep separator
test_strings = ['<Hello>', 'Hi', '<Hi> <Planet>', '<', '']

def split_and_keep(s, sep):
   if not s: return [''] # consistent with string.split()

   # Find replacement character that is not used in string
   # i.e. just use the highest available character plus one
   # Note: This fails if ord(max(s)) = 0x10FFFF (ValueError)
   p=chr(ord(max(s))+1) 

   return s.replace(sep, sep+p).split(p)

for s in test_strings:
   print(split_and_keep(s, '<'))


# If the unicode limit is reached it will fail explicitly
unicode_max_char = chr(1114111)
ridiculous_string = '<Hello>'+unicode_max_char+'<World>'
print(split_and_keep(ridiculous_string, '<'))

10

セパレータが1つしかない場合は、リスト内包表記を使用できます。

text = 'foo,bar,baz,qux'  
sep = ','

セパレータを追加/追加:

result = [x+sep for x in text.split(sep)]
#['foo,', 'bar,', 'baz,', 'qux,']
# to get rid of trailing
result[-1] = result[-1].strip(sep)
#['foo,', 'bar,', 'baz,', 'qux']

result = [sep+x for x in text.split(sep)]
#[',foo', ',bar', ',baz', ',qux']
# to get rid of trailing
result[0] = result[0].strip(sep)
#['foo', ',bar', ',baz', ',qux']

独自の要素としてのセパレータ:

result = [u for x in text.split(sep) for u in (x, sep)]
#['foo', ',', 'bar', ',', 'baz', ',', 'qux', ',']
results = result[:-1]   # to get rid of trailing

1
あなたはまたに追加することができますif xによって生成チャンクがいることを保証するために、splitすなわち、いくつかのコンテンツを持っているresult = [x + sep for x in text.split(sep) if x]
私は外国人を心配

私にとっては、ストリップはあまり除去され、私はこれを使用していた:result = [sep+x for x in data.split(sep)] result[0] = result[0][len(sep):]
scottlittle

9

別の例では、非英数字で分割し、セパレータを保持します

import re
a = "foo,bar@candy*ice%cream"
re.split('([^a-zA-Z0-9])',a)

出力:

['foo', ',', 'bar', '@', 'candy', '*', 'ice', '%', 'cream']

説明

re.split('([^a-zA-Z0-9])',a)

() <- keep the separators
[] <- match everything in between
^a-zA-Z0-9 <-except alphabets, upper/lower and numbers.

いっても、ドキュメントはたとえ-と言う、これは私は、このバージョンの可読性のように、受け入れ答えに相当し\W、それを表現するために、よりコンパクトな方法です。
エフスミス2018年

3

次のように、正規表現の代わりに文字列の配列で文字列を分割することもできます。

def tokenizeString(aString, separators):
    #separators is an array of strings that are being used to split the the string.
    #sort separators in order of descending length
    separators.sort(key=len)
    listToReturn = []
    i = 0
    while i < len(aString):
        theSeparator = ""
        for current in separators:
            if current == aString[i:i+len(current)]:
                theSeparator = current
        if theSeparator != "":
            listToReturn += [theSeparator]
            i = i + len(theSeparator)
        else:
            if listToReturn == []:
                listToReturn = [""]
            if(listToReturn[-1] in separators):
                listToReturn += [""]
            listToReturn[-1] += aString[i]
            i += 1
    return listToReturn


print(tokenizeString(aString = "\"\"\"hi\"\"\" hello + world += (1*2+3/5) '''hi'''", separators = ["'''", '+=', '+', "/", "*", "\\'", '\\"', "-=", "-", " ", '"""', "(", ")"]))

3
# This keeps all separators  in result 
##########################################################################
import re
st="%%(c+dd+e+f-1523)%%7"
sh=re.compile('[\+\-//\*\<\>\%\(\)]')

def splitStringFull(sh, st):
   ls=sh.split(st)
   lo=[]
   start=0
   for l in ls:
     if not l : continue
     k=st.find(l)
     llen=len(l)
     if k> start:
       tmp= st[start:k]
       lo.append(tmp)
       lo.append(l)
       start = k + llen
     else:
       lo.append(l)
       start =llen
   return lo
  #############################

li= splitStringFull(sh , st)
['%%(', 'c', '+', 'dd', '+', 'e', '+', 'f', '-', '1523', ')%%', '7']

3

1つのレイジーでシンプルなソリューション

あなたの正規表現パターンが split_pattern = r'(!|\?)'

最初に、「[cut]」のように、新しいセパレータとして同じ文字を追加します

new_string = re.sub(split_pattern, '\\1[cut]', your_string)

次に、新しいセパレーターを分割し、 new_string.split('[cut]')


このアプローチは賢いですが、元の文字列がすでに[cut]どこかに含まれている場合は失敗します。
Matthijs Kooijman

re.split()のコストがstring.split()でのre.sub()よりも高い場合(私にはわかりません)は、最終的にstring.split()を使用するため、大規模な問題ではより高速になる可能性があります。
Lorenz

1

グループをキャプチャせずに正規表現でセパレータを維持しながら文字列を分割したい場合:

def finditer_with_separators(regex, s):
    matches = []
    prev_end = 0
    for match in regex.finditer(s):
        match_start = match.start()
        if (prev_end != 0 or match_start > 0) and match_start != prev_end:
            matches.append(s[prev_end:match.start()])
        matches.append(match.group())
        prev_end = match.end()
    if prev_end < len(s):
        matches.append(s[prev_end:])
    return matches

regex = re.compile(r"[\(\)]")
matches = finditer_with_separators(regex, s)

正規表現がキャプチャグループにまとめられていると想定した場合:

def split_with_separators(regex, s):
    matches = list(filter(None, regex.split(s)))
    return matches

regex = re.compile(r"([\(\)])")
matches = split_with_separators(regex, s)

どちらの方法でも、ほとんどの場合に役に立たない煩わしい空のグループが削除されます。


1

以下は、.split正規表現なしで機能する簡単なソリューションです。

これは、区切り文字を削除せずにPythonのsplit()を実行するための答えです。そのため、元の投稿が正確に尋ねるものではなく、他の質問はこの質問の重複としてクローズされました。

def splitkeep(s, delimiter):
    split = s.split(delimiter)
    return [substr + delimiter for substr in split[:-1]] + [split[-1]]

ランダムテスト:

import random

CHARS = [".", "a", "b", "c"]
assert splitkeep("", "X") == [""]  # 0 length test
for delimiter in ('.', '..'):
    for idx in range(100000):
        length = random.randint(1, 50)
        s = "".join(random.choice(CHARS) for _ in range(length))
        assert "".join(splitkeep(s, delimiter)) == s

速度の理由から、大規模な問題では正規表現を使用しないでください。これが良いヒントになる理由です。
Lorenz

0

ファイルパスを分割しようとして同様の問題があり、簡単な答えを見つけるのに苦労しました。これは私にとってはうまくいき、区切り文字を分割されたテキストに戻す必要はありませんでした:

my_path = 'folder1/folder2/folder3/file1'

import re

re.findall('[^/]+/|[^/]+', my_path)

戻り値:

['folder1/', 'folder2/', 'folder3/', 'file1']


これは、わずかに使用することによって単純化することができる。re.findall('[^/]+/?', my_path)例えば(使用して、オプションの末尾にスラッシュを作る?のではなく2つの選択肢を提供する|
Matthijs Kooijmanを

0

このジェネレータベースのアプローチの方が満足できることがわかりました。

def split_keep(string, sep):
    """Usage:
    >>> list(split_keep("a.b.c.d", "."))
    ['a.', 'b.', 'c.', 'd']
    """
    start = 0
    while True:
        end = string.find(sep, start) + 1
        if end == 0:
            break
        yield string[start:end]
        start = end
    yield string[start:]

理論的にはかなり安いはずですが、正しい正規表現を理解する必要はありません。新しい文字列オブジェクトを作成せず、反復作業のほとんどを効率的なfindメソッドに委任します。

...そしてPython 3.8では、次のように短くすることができます:

def split_keep(string, sep):
    start = 0
    while (end := string.find(sep, start) + 1) > 0:
        yield string[start:end]
        start = end
    yield string[start:]

0
  1. すべてseperator: (\W)をに置き換えるseperator + new_seperator: (\W;)

  2. によって分割 new_seperator: (;)

def split_and_keep(seperator, s):
  return re.split(';', re.sub(seperator, lambda match: match.group() + ';', s))

print('\W', 'foo/bar spam\neggs')
弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.