ダッシュ以外のすべての非英数字を文字列から削除するにはどうすればよいですか?


606

ダッシュとスペース以外のすべての非英数字を文字列から削除するにはどうすればよいですか?

回答:


870

[^a-zA-Z0-9 -]空の文字列に置き換えます。

Regex rgx = new Regex("[^a-zA-Z0-9 -]");
str = rgx.Replace(str, "");

79
-範囲に使用されないようにするには、文字クラスの最後に置くか、バックスラッシュでエスケープする必要があることに言及する価値があります。
Peter Boughton、2010

6
@Danは正規表現にグローバルフラグを設定します。これがない場合、最初の一致が置き換えられるだけです。簡単なグーグルは、古典的なASP正規表現でグローバルフラグを設定する方法を教えてくれるはずです。それ以外の場合は、replaceAllではなく関数を探しますreplace
Amarghosh

20
これが正規表現でコンパイルされたバージョンです: return Regex.Replace(str, "[^a-zA-Z0-9_.]+", "", RegexOptions.Compiled); 同じ基本的な質問
ペイジワトソン

13
@MGOwenは、 ""を使用するたびに、文字列が不変であるために新しいオブジェクトを作成しているためです。string.emptyを使用すると、空の文字列を表すために必要な単一のインスタンスが再利用されます。
ブライアンスコット

17
@BrianScott私はこれが古いことを知っていますが、検索で見つかったので、これは関連性があると思います。これは、実際に実行している.NETのバージョンによって異なります。> 2.0は""&をstring.Emptyまったく同じに使用します。stackoverflow.com/questions/151472/...
ジャレド

348

RegExを使用できたかもしれませんが、エレガントなソリューションを提供できますが、パフォーマンスの問題を引き起こす可能性があります。ここに1つの解決策があります

char[] arr = str.ToCharArray();

arr = Array.FindAll<char>(arr, (c => (char.IsLetterOrDigit(c) 
                                  || char.IsWhiteSpace(c) 
                                  || c == '-')));
str = new string(arr);

コンパクトフレームワーク(FindAllがない)を使用する場合

FindAllを1に置き換えます

char[] arr = str.Where(c => (char.IsLetterOrDigit(c) || 
                             char.IsWhiteSpace(c) || 
                             c == '-')).ToArray(); 

str = new string(arr);

ShawnFeatherlyによる1 コメント


41
私のテストでは、この手法ははるかに高速でした。正確には、Regex Replace手法よりも3倍も速くありませんでした。
Dan

12
コンパクトフレームワークにはFindAllがありません。FindAllを次のように置き換えることができますchar[] arr = str.Where(c => (char.IsLetterOrDigit(c) || char.IsWhiteSpace(c) || c == '-')).ToArray();
ShawnFeatherly

2
誰かこれをテストしましたか?それはまったく機能しませんでした。-しかし、これは私のために行いました:string str2 = new string(str.Where(c =>(char.IsLetterOrDigit(c)))。ToArray());
KevinDeus

48

あなたが試すことができます:

string s1 = Regex.Replace(s, "[^A-Za-z0-9 -]", "");

sあなたのひもはどこですか。


1
OPがアンダースコアではなくダッシュを要求
Sean B

39

System.Linqの使用

string withOutSpecialCharacters = new string(stringWithSpecialCharacters.Where(c =>char.IsLetterOrDigit(c) || char.IsWhiteSpace(c) || c == '-').ToArray());

@Michael似ていますが、少なくとも3行ではなく1行です。私はそれを別の答えにするのに十分だと思います。
Dymas

1
@Dymas私はこれが受け入れられることに同意しますが、空白が異なるためではありません。どうやら、機能的に同等な部分(var名のみが異なる)は、この回答が書かれた後に編集されました。
マイケル-クレイシャーキーはどこにあるか

1
@ZainAli、ささいな編集をして私にpingを送信すると、反対票が返されます。盗作のごまかしをお詫び申し上げます。
マイケル-クレイシャーキーはどこにあるか

22

正規表現は[^\w\s\-]*

\sテキストにタブがある可能性があるため、スペース()の代わりに使用することをお勧めします。


1
タブを削除したくない場合を除きます。
マットエレン

...および改行、およびその他のすべての文字は「空白」と見なされます。
Peter Boughton、2010

6
このソリューションは、国際(英語以外の)文字もサポートしているため、上記のソリューションよりもはるかに優れています。<!-language:c#-> string s = "MötleyCrue日本人:の氏名と漢字愛とひらがなあい"; 文字列r = Regex.Replace(s、 "[^ \\ w \\ s-] *"、 ""); 上記はrを生成します:MötleyCrue日本人の氏名とKanji愛とひらがなあい
danglund

1
@を使用して、文字列内の\変換をエスケープします:@ "[^ \ w \ s-] *"
Jakub Pawlinski

1
それ、ええと...アンダースコアを削除しませんか?これは、作成全体の正規表現の実装では「単語」文字と見なされますが、英数字、ダッシュ、またはスペースではありません...(?)
Code Jockey

14

この質問の回答に基づいて、静的クラスを作成して追加しました。一部の人にとっては役に立つかもしれないと思いました。

public static class RegexConvert
{
    public static string ToAlphaNumericOnly(this string input)
    {
        Regex rgx = new Regex("[^a-zA-Z0-9]");
        return rgx.Replace(input, "");
    }

    public static string ToAlphaOnly(this string input)
    {
        Regex rgx = new Regex("[^a-zA-Z]");
        return rgx.Replace(input, "");
    }

    public static string ToNumericOnly(this string input)
    {
        Regex rgx = new Regex("[^0-9]");
        return rgx.Replace(input, "");
    }
}

次に、メソッドは次のように使用できます。

string example = "asdf1234!@#$";
string alphanumeric = example.ToAlphaNumericOnly();
string alpha = example.ToAlphaOnly();
string numeric = example.ToNumericOnly();

2
提供する例では、各メソッドの結果を提供する場合にも役立ちます。
c-chavez 2018年

7

素早く何かしたいですか?

public static class StringExtensions 
{
    public static string ToAlphaNumeric(this string self, params char[] allowedCharacters)
    {
        return new string(Array.FindAll(self.ToCharArray(), c => char.IsLetterOrDigit(c) || allowedCharacters.Contains(c)));
    }
}

これにより、許可する文字も指定できます。


5

これが私が探していた非正規表現ヒープ割り当てフレンドリーな高速ソリューションです。

安全でない版。

public static unsafe void ToAlphaNumeric(ref string input)
{
    fixed (char* p = input)
    {
        int offset = 0;
        for (int i = 0; i < input.Length; i++)
        {
            if (char.IsLetterOrDigit(p[i]))
            {
                p[offset] = input[i];
                offset++;
            }
        }
        ((int*)p)[-1] = offset; // Changes the length of the string
        p[offset] = '\0';
    }
}

安全でないものを使用したくない、または文字列長のハックを信用しない人のために。

public static string ToAlphaNumeric(string input)
{
    int j = 0;
    char[] newCharArr = new char[input.Length];

    for (int i = 0; i < input.Length; i++)
    {
        if (char.IsLetterOrDigit(input[i]))
        {
            newCharArr[j] = input[i];
            j++;
        }
    }

    Array.Resize(ref newCharArr, j);

    return new string(newCharArr);
}

4

元々の問題であったコントロールキャラクターを排除することで、別の解決策を作りました。

すべての「特別だが良い」文字をリストに入れるよりはましです

char[] arr = str.Where(c => !char.IsControl(c)).ToArray();    
str = new string(arr);

シンプルなので、より良いと思います!


2

@ata回答をインスピレーションとして使用する拡張メソッドを次に示します。

"hello-world123, 456".MakeAlphaNumeric(new char[]{'-'});// yields "hello-world123456"

または、ハイフン以外の追加の文字が必要な場合...

"hello-world123, 456!?".MakeAlphaNumeric(new char[]{'-','!'});// yields "hello-world123456!"


public static class StringExtensions
{   
    public static string MakeAlphaNumeric(this string input, params char[] exceptions)
    {
        var charArray = input.ToCharArray();
        var alphaNumeric = Array.FindAll<char>(charArray, (c => char.IsLetterOrDigit(c)|| exceptions?.Contains(c) == true));
        return new string(alphaNumeric);
    }
}

1

ここでは、答えの1つのバリエーションを使用します。スペースを「-」で置き換えて、SEOフレンドリーで小文字も使用できるようにしたいと考えています。また、サービスレイヤーのsystem.webを参照しません。

private string MakeUrlString(string input)
{
    var array = input.ToCharArray();

    array = Array.FindAll<char>(array, c => char.IsLetterOrDigit(c) || char.IsWhiteSpace(c) || c == '-');

    var newString = new string(array).Replace(" ", "-").ToLower();
    return newString;
}

0

これは非常に簡潔なバージョンです

myString = myString.replace(/[^A-Za-z0-9 -]/g, "");

-1

Regexを使用すると、はるかに簡単な方法があります。

private string FixString(string str)
{
    return string.IsNullOrEmpty(str) ? str : Regex.Replace(str, "[\\D]", "");
}

1
数字以外の文字のみを置換します
冷ややかです
弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.