正規表現を使用してJavaScriptの文字列からすべての句読点を取り除くにはどうすればよいですか?


152

文字列に英数字以外の文字が含まれている場合:

"This., -/ is #! an $ % ^ & * example ;: {} of a = -_ string with `~)() punctuation"

JavaScriptで句読点なしのバージョンを取得するにはどうすればよいですか。

"This is an example of a string with punctuation"

回答:


210

文字列から特定の句読点を削除したい場合は、希望するものを正確に削除するのがおそらく最善でしょう。

replace(/[.,\/#!$%\^&\*;:{}=\-_`~()]/g,"")

上記を実行しても、指定した文字列は返されません。狂った句読点を削除することで残った余分なスペースを削除したい場合は、次のようなことをしたいでしょう

replace(/\s{2,}/g," ");

私の完全な例:

var s = "This., -/ is #! an $ % ^ & * example ;: {} of a = -_ string with `~)() punctuation";
var punctuationless = s.replace(/[.,\/#!$%\^&\*;:{}=\-_`~()]/g,"");
var finalString = punctuationless.replace(/\s{2,}/g," ");

firebugコンソールでコードを実行した結果:

代替テキスト


4
正規表現の中括弧は、前述のものに数量詞を適用するため、この場合、2〜100個の空白文字(\s)を1つのスペースに置き換えます。空白文字を1つに折りたたむ場合は、次のように上限を省略しますreplace(/\s{2,}/g, ' ')
Mike Partridge

13
私は句読点置き換え(のリストにいくつかのより多くの文字を追加しました@+?><[]+): replace(/[\.,-\/#!$%\^&\*;:{}=\-_`~()@\+\?><\[\]\+]/g, '')。誰かがまだ少しだけ完全なセットを探しているなら。
timmfin 2014年

9
Pythonのstring.punctuationの定義の句読点のように:!"#$%&'()*+,-./:;<=>?@[\]^_`{|}~私のために良い作品なので、別の選択肢がされるであろう:replace(/['!"#$%&\\'()\*+,\-\.\/:;<=>?@\[\\\]\^_`{|}~']/g,"");
01AutoMonkey

1
@AntoineLizée私はそれが誤解を招くものであることに同意します。回答を更新しました。ありがとう。
Mike Grace

2
私は「それ?」で試しました -うまくいきません(regex101.com/r/F4j5Qc/1)。正しい解決策は/[.,\/#!$%\^&*;:{}=\-_ `〜()です。 \?] / g
Maxim Firsoff 2017年

128
str = str.replace(/[^\w\s]|_/g, "")
         .replace(/\s+/g, " ");

英数字と空白以外のすべてを削除し、隣接する複数の文字を1つのスペースに折りたたみます。

詳細な説明:

  1. \w 数字、文字、またはアンダースコアです。
  2. \s 空白です。
  3. [^\w\s] 数字、文字、空白、アンダースコア以外のもの。
  4. [^\w\s]|_ アンダースコアが追加されている以外は#3と同じです。

72
これにより、英語以外の、ただしその他の完全な英数字(à、é、ö、およびキリル文字全体)が削除されます。
ダンアブラモフ2012年

5
@quemeful同意しない、元の質問は「英語のみ」を指定していません。SOは非常に国際的であり、世界中で使用されています。英語を話し、インターネットにアクセスできる人なら誰でも使用できます。質問で言語が指定されていない場合は、仮定を行うべきではありません。2017年です。
ロルフ

1
また、英語のみをサポートしている場合でも、履歴書や場所や人の名前などの借用語があるので、ラモンクロエの間のキュービクルでサンホセ(公式のスペル)で働いていると誰かが言う能力を壊したくないでしょう。
クリスアダムス

これは、wouldn'tand などの単語で混乱しますdon't
Charlie

71

US-ASCIIの標準の句読文字は次のとおりです。 !"#$%&'()*+,-./:;<=>?@[\]^_`{|}~

Unicodeの句読点(中括弧、em-ダッシュなど)の場合、特定のブロック範囲で簡単に照合できます。一般的な句読点のブロックがあり\u2000-\u206F、かつ補足句読点のブロックです\u2E00-\u2E7F

まとめると、適切にエスケープすると、次のRegExpが得られます。

/[\u2000-\u206F\u2E00-\u2E7F\\'!"#$%&()*+,\-.\/:;<=>?@\[\]^_`{|}~]/

これは、遭遇するあらゆる句読点とほぼ一致するはずです。だから、元の質問に答えるには:

var punctRE = /[\u2000-\u206F\u2E00-\u2E7F\\'!"#$%&()*+,\-.\/:;<=>?@\[\]^_`{|}~]/g;
var spaceRE = /\s+/g;
var str = "This, -/ is #! an $ % ^ & * example ;: {} of a = -_ string with `~)() punctuation";
str.replace(punctRE, '').replace(spaceRE, ' ');

>> "This is an example of a string with punctuation"

US-ASCIIソース:http : //docs.oracle.com/javase/7/docs/api/java/util/regex/Pattern.html#posix

Unicodeソース:http : //kourge.net/projects/regexp-unicode-block


3
Unicode句読点の場合、ブロックは十分ではありません。一般カテゴリの句読点を確認する必要があります。すべての句読点がこれらのブロックにうまく配置されているわけではないことがわかります。たとえば、ラテン語のブロック内には、よく知られた句読点がたくさんあります。
nhahtdh 2015

15

/ [^ A-Za-z0-9 \ s] / gは、すべての句読点と一致する必要がありますが、スペースは維持します。したがって、.replace(/\s{2,}/g, " ")必要に応じて、を使用して余分なスペースを置き換えることができます。あなたはhttp://rubular.com/で正規表現をテストすることができます

.replace(/[^A-Za-z0-9\s]/g,"").replace(/\s{2,}/g, " ")

更新:入力がANSI英語の場合にのみ機能します。


6
文字列はANSI英語であると想定しています。フランス語のアクセント付き文字(àéô)、ドイツ語、トルコ語は使用できません。Unicodeアラビア語、中国語なども消えます。
Rolf

2
おかげで、それについて完全には考えていませんでした。
adnan2nd 2017年

10

私は同じ問題に遭遇しました、この解決策はトリックを行い、非常に読みやすかったです:

var sentence = "This., -/ is #! an $ % ^ & * example ;: {} of a = -_ string with `~)() punctuation";
var newSen = sentence.match(/[^_\W]+/g).join(' ');
console.log(newSen);

結果:

"This is an example of a string with punctuation"

トリックは、否定されたセットを作成することでした。これは、セット内に[^abc]ないものつまりa、bc以外のものに一致することを意味します

\Wは非単語なので[^\W]+、単語charでないものはすべて否定されます。

_(アンダースコア)を追加することで、それを否定することもできます。

それをグローバルに適用し/g、それを介して任意の文字列を実行し、句読点を取り除くことができます:

/[^_\W]+/g

素敵で清潔です;)


1
この方法では、すべての新しい行をスペースに変更することもできます。
nhahtdh 2015

5
この方法は英語でのみ機能し、アクセント付き文字はすべて削除されます。
NicolasBernier 2017

@NicolasBernierええ100%正しいです-JavaScriptの正規表現エンジンは実際にはかなり不十分です(参照:stackoverflow.com/questions/4043307/…)-残念ながら、より複雑なタスク(および英語以外の単語のパターンを作成する)にはかなりの時間がかかりますより多くのコード。それでも、句読点を取り除く迅速かつ簡潔な正規表現では機能します:)
jacobedawson 2017

これは最も簡単で、私の目的を十分に果たしました。
James Shrum

9

他の人のためにここに置いておきます。

すべての言語のすべての句読文字を照合します。

Unicode句読点のカテゴリから構築され$、角括弧や\-=_

http://www.fileformat.info/info/unicode/category/Po/list.htm

基本的な置き換え:

".test'da, te\"xt".replace(/[\-=_!"#%&'*{},.\/:;?\(\)\[\]@\\$\^*+<>~`\u00a1\u00a7\u00b6\u00b7\u00bf\u037e\u0387\u055a-\u055f\u0589\u05c0\u05c3\u05c6\u05f3\u05f4\u0609\u060a\u060c\u060d\u061b\u061e\u061f\u066a-\u066d\u06d4\u0700-\u070d\u07f7-\u07f9\u0830-\u083e\u085e\u0964\u0965\u0970\u0af0\u0df4\u0e4f\u0e5a\u0e5b\u0f04-\u0f12\u0f14\u0f85\u0fd0-\u0fd4\u0fd9\u0fda\u104a-\u104f\u10fb\u1360-\u1368\u166d\u166e\u16eb-\u16ed\u1735\u1736\u17d4-\u17d6\u17d8-\u17da\u1800-\u1805\u1807-\u180a\u1944\u1945\u1a1e\u1a1f\u1aa0-\u1aa6\u1aa8-\u1aad\u1b5a-\u1b60\u1bfc-\u1bff\u1c3b-\u1c3f\u1c7e\u1c7f\u1cc0-\u1cc7\u1cd3\u2016\u2017\u2020-\u2027\u2030-\u2038\u203b-\u203e\u2041-\u2043\u2047-\u2051\u2053\u2055-\u205e\u2cf9-\u2cfc\u2cfe\u2cff\u2d70\u2e00\u2e01\u2e06-\u2e08\u2e0b\u2e0e-\u2e16\u2e18\u2e19\u2e1b\u2e1e\u2e1f\u2e2a-\u2e2e\u2e30-\u2e39\u3001-\u3003\u303d\u30fb\ua4fe\ua4ff\ua60d-\ua60f\ua673\ua67e\ua6f2-\ua6f7\ua874-\ua877\ua8ce\ua8cf\ua8f8-\ua8fa\ua92e\ua92f\ua95f\ua9c1-\ua9cd\ua9de\ua9df\uaa5c-\uaa5f\uaade\uaadf\uaaf0\uaaf1\uabeb\ufe10-\ufe16\ufe19\ufe30\ufe45\ufe46\ufe49-\ufe4c\ufe50-\ufe52\ufe54-\ufe57\ufe5f-\ufe61\ufe68\ufe6a\ufe6b\uff01-\uff03\uff05-\uff07\uff0a\uff0c\uff0e\uff0f\uff1a\uff1b\uff1f\uff20\uff3c\uff61\uff64\uff65]+/g,"")
"testda text"

\ sをスペースとして追加

".da'fla, te\"te".split(/[\s\-=_!"#%&'*{},.\/:;?\(\)\[\]@\\$\^*+<>~`\u00a1\u00a7\u00b6\u00b7\u00bf\u037e\u0387\u055a-\u055f\u0589\u05c0\u05c3\u05c6\u05f3\u05f4\u0609\u060a\u060c\u060d\u061b\u061e\u061f\u066a-\u066d\u06d4\u0700-\u070d\u07f7-\u07f9\u0830-\u083e\u085e\u0964\u0965\u0970\u0af0\u0df4\u0e4f\u0e5a\u0e5b\u0f04-\u0f12\u0f14\u0f85\u0fd0-\u0fd4\u0fd9\u0fda\u104a-\u104f\u10fb\u1360-\u1368\u166d\u166e\u16eb-\u16ed\u1735\u1736\u17d4-\u17d6\u17d8-\u17da\u1800-\u1805\u1807-\u180a\u1944\u1945\u1a1e\u1a1f\u1aa0-\u1aa6\u1aa8-\u1aad\u1b5a-\u1b60\u1bfc-\u1bff\u1c3b-\u1c3f\u1c7e\u1c7f\u1cc0-\u1cc7\u1cd3\u2016\u2017\u2020-\u2027\u2030-\u2038\u203b-\u203e\u2041-\u2043\u2047-\u2051\u2053\u2055-\u205e\u2cf9-\u2cfc\u2cfe\u2cff\u2d70\u2e00\u2e01\u2e06-\u2e08\u2e0b\u2e0e-\u2e16\u2e18\u2e19\u2e1b\u2e1e\u2e1f\u2e2a-\u2e2e\u2e30-\u2e39\u3001-\u3003\u303d\u30fb\ua4fe\ua4ff\ua60d-\ua60f\ua673\ua67e\ua6f2-\ua6f7\ua874-\ua877\ua8ce\ua8cf\ua8f8-\ua8fa\ua92e\ua92f\ua95f\ua9c1-\ua9cd\ua9de\ua9df\uaa5c-\uaa5f\uaade\uaadf\uaaf0\uaaf1\uabeb\ufe10-\ufe16\ufe19\ufe30\ufe45\ufe46\ufe49-\ufe4c\ufe50-\ufe52\ufe54-\ufe57\ufe5f-\ufe61\ufe68\ufe6a\ufe6b\uff01-\uff03\uff05-\uff07\uff0a\uff0c\uff0e\uff0f\uff1a\uff1b\uff1f\uff20\uff3c\uff61\uff64\uff65]+/g)

^を追加して、句読点ではなく単語そのものに一致するようにpatterntを反転

".test';the, te\"xt".match(/[^\s\-=_!"#%&'*{},.\/:;?\(\)\[\]@\\$\^*+<>~`\u00a1\u00a7\u00b6\u00b7\u00bf\u037e\u0387\u055a-\u055f\u0589\u05c0\u05c3\u05c6\u05f3\u05f4\u0609\u060a\u060c\u060d\u061b\u061e\u061f\u066a-\u066d\u06d4\u0700-\u070d\u07f7-\u07f9\u0830-\u083e\u085e\u0964\u0965\u0970\u0af0\u0df4\u0e4f\u0e5a\u0e5b\u0f04-\u0f12\u0f14\u0f85\u0fd0-\u0fd4\u0fd9\u0fda\u104a-\u104f\u10fb\u1360-\u1368\u166d\u166e\u16eb-\u16ed\u1735\u1736\u17d4-\u17d6\u17d8-\u17da\u1800-\u1805\u1807-\u180a\u1944\u1945\u1a1e\u1a1f\u1aa0-\u1aa6\u1aa8-\u1aad\u1b5a-\u1b60\u1bfc-\u1bff\u1c3b-\u1c3f\u1c7e\u1c7f\u1cc0-\u1cc7\u1cd3\u2016\u2017\u2020-\u2027\u2030-\u2038\u203b-\u203e\u2041-\u2043\u2047-\u2051\u2053\u2055-\u205e\u2cf9-\u2cfc\u2cfe\u2cff\u2d70\u2e00\u2e01\u2e06-\u2e08\u2e0b\u2e0e-\u2e16\u2e18\u2e19\u2e1b\u2e1e\u2e1f\u2e2a-\u2e2e\u2e30-\u2e39\u3001-\u3003\u303d\u30fb\ua4fe\ua4ff\ua60d-\ua60f\ua673\ua67e\ua6f2-\ua6f7\ua874-\ua877\ua8ce\ua8cf\ua8f8-\ua8fa\ua92e\ua92f\ua95f\ua9c1-\ua9cd\ua9de\ua9df\uaa5c-\uaa5f\uaade\uaadf\uaaf0\uaaf1\uabeb\ufe10-\ufe16\ufe19\ufe30\ufe45\ufe46\ufe49-\ufe4c\ufe50-\ufe52\ufe54-\ufe57\ufe5f-\ufe61\ufe68\ufe6a\ufe6b\uff01-\uff03\uff05-\uff07\uff0a\uff0c\uff0e\uff0f\uff1a\uff1b\uff1f\uff20\uff3c\uff61\uff64\uff65]+/g)

ヘブライ語のような言語の場合は、「 '単一引用符と二重引用符を削除して、それについてさらに考えます。

このスクリプトを使用して:

手順1:Firefoxでコントロールを保持しているU + 1234番号の列を選択してコピーし、英語を置き換えるU + 12456をコピーしない

ステップ2(私はクロームで行いました)テキストエリアを見つけて貼り付け、右クリックして[検査]をクリックします。その後、$ 0で選択した要素にアクセスできます。

var x=$0.value
var z=x.replace(/U\+/g,"").split(/[\r\n]+/).map(function(a){return parseInt(a,16)})
var ret=[];z.forEach(function(a,k){if(z[k-1]===a-1 && z[k+1]===a+1) { if(ret[ret.length-1]!="-")ret.push("-");} else {  var c=a.toString(16); var prefix=c.length<3?"\\u0000":c.length<5?"\\u0000":"\\u000000"; var uu=prefix.substring(0,prefix.length-c.length)+c; ret.push(c.length<3?String.fromCharCode(a):uu)}});ret.join("")

ステップ3は、アスキーを最初の文字の上にコピーしました。誰かが個々の文字を追加または削除する可能性があるため、範囲ではなく個別の文字としてASCIIをコピーしました


7

Unicode認識言語では、Unicode 句読点文字プロパティは\p{P}—通常、省略可能\pPであり\p{Punctuation}、読みやすくするために拡張されることがあります。

Perl互換の正規表現ライブラリを使用していますか?


8
残念ながら、JSはPerl互換ではありません。他の問題は、私はこれをテストしたとき、それはクエンティンのテスト文字列=> @に句読点のすべてをキャプチャしていなかったですmikegrace.s3.amazonaws.com/forums/stack-overflow/...
マイク・グレース

4
XRegExpライブラリを使用して、この拡張構文を取得できます。
Eirik Birkeland

7

文字列から句読点を削除する場合は、PUnicodeクラスを使用する必要があります。

ただし、クラスはJavaScript RegExでは受け入れられないため、すべての句読点に一致するこのRegExを試すことができます。次のカテゴリに一致します。PcPd Pe Pf Pi Po Ps Sc Sk Sm So GeneralPunctuation SupplementalPunctuation CJKSymbolsAndPunctuation CuneiformNumbersAndPunctuation。

JavaScript専用の正規表現を生成するこのオンラインツールを使用し作成しました。それがあなたの目標を達成するためのコードです:

var punctuationRegEx = /[!-/:-@[-`{-~¡-©«-¬®-±´¶-¸»¿×÷˂-˅˒-˟˥-˫˭˯-˿͵;΄-΅·϶҂՚-՟։-֊־׀׃׆׳-״؆-؏؛؞-؟٪-٭۔۩۽-۾܀-܍߶-߹।-॥॰৲-৳৺૱୰௳-௺౿ೱ-ೲ൹෴฿๏๚-๛༁-༗༚-༟༴༶༸༺-༽྅྾-࿅࿇-࿌࿎-࿔၊-၏႞-႟჻፠-፨᎐-᎙᙭-᙮᚛-᚜᛫-᛭᜵-᜶។-៖៘-៛᠀-᠊᥀᥄-᥅᧞-᧿᨞-᨟᭚-᭪᭴-᭼᰻-᰿᱾-᱿᾽᾿-῁῍-῏῝-῟῭-`´-῾\u2000-\u206e⁺-⁾₊-₎₠-₵℀-℁℃-℆℈-℉℔№-℘℞-℣℥℧℩℮℺-℻⅀-⅄⅊-⅍⅏←-⏧␀-␦⑀-⑊⒜-ⓩ─-⚝⚠-⚼⛀-⛃✁-✄✆-✉✌-✧✩-❋❍❏-❒❖❘-❞❡-❵➔➘-➯➱-➾⟀-⟊⟌⟐-⭌⭐-⭔⳥-⳪⳹-⳼⳾-⳿⸀-\u2e7e⺀-⺙⺛-⻳⼀-⿕⿰-⿻\u3000-〿゛-゜゠・㆐-㆑㆖-㆟㇀-㇣㈀-㈞㈪-㉃㉐㉠-㉿㊊-㊰㋀-㋾㌀-㏿䷀-䷿꒐-꓆꘍-꘏꙳꙾꜀-꜖꜠-꜡꞉-꞊꠨-꠫꡴-꡷꣎-꣏꤮-꤯꥟꩜-꩟﬩﴾-﴿﷼-﷽︐-︙︰-﹒﹔-﹦﹨-﹫!-/:-@[-`{-・¢-₩│-○-�]|\ud800[\udd00-\udd02\udd37-\udd3f\udd79-\udd89\udd90-\udd9b\uddd0-\uddfc\udf9f\udfd0]|\ud802[\udd1f\udd3f\ude50-\ude58]|\ud809[\udc00-\udc7e]|\ud834[\udc00-\udcf5\udd00-\udd26\udd29-\udd64\udd6a-\udd6c\udd83-\udd84\udd8c-\udda9\uddae-\udddd\ude00-\ude41\ude45\udf00-\udf56]|\ud835[\udec1\udedb\udefb\udf15\udf35\udf4f\udf6f\udf89\udfa9\udfc3]|\ud83c[\udc00-\udc2b\udc30-\udc93]/g;
var string = "This., -/ is #! an $ % ^ & * example ;: {} of a = -_ string with `~)() punctuation";
var newString = string.replace(punctuationRegEx, '').replace(/(\s){2,}/g, '$1');
console.log(newString)


5

en-US(アメリカ英語)文字列の場合、これで十分です:

"This., -/ is #! an $ % ^ & * example ;: {} of a = -_ string with `~)() punctuation".replace( /[^a-zA-Z ]/g, '').replace( /\s\s+/g, ' ' )

UTF-8および中国語/ロシア語などの文字をサポートしている場合は、これらも置き換えられるので、本当に必要なものを指定する必要があることに注意してください。



2

Wikipediaの句読点のリストに従って、句読点を検出する次の正規表現を作成する必要がありました。

[\.’'\[\](){}⟨⟩:,،、‒–—―…!.‹›«»‐\-?‘’“”'";/⁄·\&*@\•^†‡°”¡¿※#№÷׺ª%‰+−=‱¶′″‴§~_|‖¦©℗®℠™¤₳฿₵¢₡₢$₫₯֏₠€ƒ₣₲₴₭₺₾ℳ₥₦₧₱₰£៛₽₹₨₪৳₸₮₩¥]


2
この正規表現を使用する場合は、正規表現の区切り文字もエスケープする必要があります。たとえば、/(最も一般的な)を使用する場合は、次のように前にバックスラッシュを追加して、上記の文字クラス内でエスケープする必要があります\/。次のように使用します"String!! With, Punctuation.".replace(/[\.’'\[\](){}⟨⟩:,،、‒–—―…!.‹›«»‐\-?‘’“”'";\/⁄·\&*@\•^†‡°”¡¿※#№÷׺ª%‰+−=‱¶′″‴§~_|‖¦©℗®℠™¤₳฿₵¢₡₢$₫₯֏₠€ƒ₣₲₴₭₺₾ℳ₥₦₧₱₰£៛₽₹₨₪৳₸₮₩¥]+/g,"")。ちなみに、どこにもバックティック( `)がありません。どうしてですか?
Rolf

不足している。すべての句読点のリストを見つけるのは難しいようです。
Alex

1

アルファベットとスペースのみを保持したい場合は、次のようにします。

str.replace(/[^a-zA-Z ]+/g, '').replace('/ {2,}/',' ')

8
それは句読点だけではありませんか?ユニコードなど?
Alex

3
あなたは「英語のアルファベットとスペースのみ」を意味します
Rolf

0

それはあなたが返そうとしているものに依存します。私は最近これを使用しました:

return text.match(/[a-z]/i);
弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.