複数行にわたるテキストと照合するときに、Python正規表現を機能させるのに少し問題があります。テキストの例は( '\ n'は改行です)
some Varying TEXT\n
\n
DSJFKDAFJKDAFJDSAKFJADSFLKDLAFKDSAF\n
[more of the above, ending with a newline]\n
[yep, there is a variable number of lines here]\n
\n
(repeat the above a few hundred times).
「some_Varying_TEXT」の部分と、1回のキャプチャで2行下に来るすべての大文字のテキスト行をキャプチャします(後で改行文字を削除できます)。私はいくつかのアプローチで試しました:
re.compile(r"^>(\w+)$$([.$]+)^$", re.MULTILINE) # try to capture both parts
re.compile(r"(^[^>][\w\s]+)$", re.MULTILINE|re.DOTALL) # just textlines
そして、運のないこの多くのバリエーション。最後の1つはテキストの行と1つずつ一致するようですが、これは私が本当に望んでいることではありません。最初の部分は問題なく捕捉できますが、4〜5行の大文字のテキストは捕捉できません。空の行に遭遇するまで、match.group(1)をsome_Varying_Textに、group(2)をline1 + line2 + line3 + etcにしたいと思います。
好奇心が強い人は、タンパク質を構成するアミノ酸のシーケンスであると考えられます。
>
文字がありません。よろしいですか?