タグ付けされた質問 「character-properties」

11
JavaScript + Unicode正規表現
JavaScriptでUnicode対応の正規表現を使用するにはどうすればよいですか? たとえば\w、ASCIIだけでなく、LettersまたはMarksカテゴリの任意のコードポイントに一致するようなものがあって、句読点などの[[P *]]のようなフィルタが必要です。

3
Java正規表現の\ wおよび\ bに相当するUnicodeですか?
多くの最近の正規表現の実装では、\w文字クラスの省略形を「任意の文字、数字、または接続句読点」(通常はアンダースコア)として解釈します。そのように、のような正規表現\w+の言葉が好きな試合hello、élève、GOÄ_432またはgefräßig。 残念ながら、Javaにはありません。Javaでは、\wに制限されてい[A-Za-z0-9_]ます。これにより、上記のような単語のマッチングが困難になります。 また、 \b単語セパレーターが一致してはならない場所で一致しているように見えます。 .NETのような、Unicode対応の、\wまたは\bJava の正しい同等物は何ですか?Unicode対応にするために「書き換え」が必要な他のショートカットはどれですか。

2
PythonとUnicodeによる正規表現
文字列 'بِسْمِاللَّهِالرَّحْمَٰنِالرَّحِيمِ'からいくつかのUnicode記号を削除する必要があります 私は彼らが確かにここに存在することを知っています。私は試した: re.sub('([\u064B-\u0652\u06D4\u0670\u0674\u06D5-\u06ED]+)', '', 'بِسْمِ اللَّهِ الرَّحْمَٰنِ الرَّحِيمِ') しかし、それは機能しません。文字列は同じままです。私は何が間違っているのですか?
弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.