C#配列から重複を削除するにはどうすればよいですか?


214

string[]関数呼び出しから返されるC#の配列を使用しています。Genericコレクションにキャストすることもできますが、おそらく一時配列を使用して、それを行うためのより良い方法があるかどうか疑問に思いました。

C#配列から重複を削除するための最良の方法は何ですか?


4
Distinct拡張メソッドを使用します。
kokos 2008

確かに。配列がすでにソートされている場合は、より楽しくなります。その場合、O(n)時間でインプレースで実行できます。
David Airapetyan 2012年

@ Vitim.usいいえ。私の場合、それは配列ではなく、List <string>です。私はその仕事をするどんな答えも受け入れます。おそらく、それは紙の上でそれをしなければならないというショックです。
AngryHacker 2012年

回答:


440

LINQクエリを使用してこれを行うことができます。

int[] s = { 1, 2, 3, 3, 4};
int[] q = s.Distinct().ToArray();

25
.Distinct(StringComparer.OrdinalIgnoreCase)大文字と小文字を区別しない個別の文字列セットを取得するなど、IEqualityComparerをパラメータとして使用できることに注意してください。
justisb 2015年

Distinctは要素の元の順序を尊重しますか?
asyrov 2017

@asyrov:MSDNから:The Distinct() method returns an unordered sequence that contains no duplicate values.
tigrou 2018年

54

ここでのHashSet <文字列>のアプローチは:

public static string[] RemoveDuplicates(string[] s)
{
    HashSet<string> set = new HashSet<string>(s);
    string[] result = new string[set.Count];
    set.CopyTo(result);
    return result;
}

残念ながら、HashSetはそのバージョンまで追加されなかったため、このソリューションには.NET Framework3.5以降も必要です。LINQの機能であるarray.Distinct()を使用することもできます。


11
これはおそらく元の順序を保持しません。
Hamish Grubijan 2011

11

並べ替える必要がある場合は、重複を削除する並べ替えを実装できます。

その後、1つの石で2羽の鳥を殺します。


7
並べ替えはどのようにして重複を削除しますか?
dan1 2016年

3
誰がこれに投票しましたか?これは答えではありません。「どうやってパンケーキを作るの?」「いくつかの材料を弓に入れて混ぜます。」
奇妙な

1
正解です、それは確かに答えではありません。StackOverflowコメントする前に行われたコメントだったと思います。この質問は、SOに関する質問が1万件未満のときに尋ねられました。
マシューシンケル

11

次のテスト済みで機能するコードは、配列から重複を削除します。System.Collections名前空間を含める必要があります。

string[] sArray = {"a", "b", "b", "c", "c", "d", "e", "f", "f"};
var sList = new ArrayList();

for (int i = 0; i < sArray.Length; i++) {
    if (sList.Contains(sArray[i]) == false) {
        sList.Add(sArray[i]);
    }
}

var sNew = sList.ToArray();

for (int i = 0; i < sNew.Length; i++) {
    Console.Write(sNew[i]);
}

必要に応じて、これを関数にまとめることができます。


1
これはO(N ^ 2)のようです... ArrayListの代わりにヒープを使用できます
NeilChowdhury19年

9

これは、ソリューションをどれだけ設計したいかによって異なります。配列がそれほど大きくなることはなく、リストの並べ替えを気にしない場合は、次のようなものを試してみてください。

    public string[] RemoveDuplicates(string[] myList) {
        System.Collections.ArrayList newList = new System.Collections.ArrayList();

        foreach (string str in myList)
            if (!newList.Contains(str))
                newList.Add(str);
        return (string[])newList.ToArray(typeof(string));
    }

4
ArrayListの代わりにListを使用する必要があります。
ダグS

7

これは、O (1)スペースを使用するO(n * n)アプローチです。

void removeDuplicates(char* strIn)
{
    int numDups = 0, prevIndex = 0;
    if(NULL != strIn && *strIn != '\0')
    {
        int len = strlen(strIn);
        for(int i = 0; i < len; i++)
        {
            bool foundDup = false;
            for(int j = 0; j < i; j++)
            {
                if(strIn[j] == strIn[i])
                {
                    foundDup = true;
                    numDups++;
                    break;
                }
            }

            if(foundDup == false)
            {
                strIn[prevIndex] = strIn[i];
                prevIndex++;
            }
        }

        strIn[len-numDups] = '\0';
    }
}

上記のhash / linqアプローチは、実際の生活で一般的に使用するものです。ただし、インタビューでは通常、ハッシュを除外する定数スペースや、LINQの使用を除外する内部APIを使用しないなどの制約を課したいと考えています。


1
リスト全体を保存する必要がある場合、O(1)スペースをどのように使用できますか?インプレースソートから始めることで、はるかに少ないコードでO(nlogn)時間とO(n)メモリを実行できます。
Thomas Ahle 2010

1
リスト全体を保存していると思う理由は何ですか?それは確かにその場でやっています。質問の条件ではありませんが、私のコードは元の文字列の文字の順序を維持しています。並べ替えると削除されます。
sesh 2010

1
内側のループ(strIn[j] == strIn[i])は、ifステートメントで説明されていない限り、文字列をそれ自体と比較します。
user32 1918年

7
List<String> myStringList = new List<string>();
foreach (string s in myStringArray)
{
    if (!myStringList.Contains(s))
    {
        myStringList.Add(s);
    }
}

これはO(n ^ 2)です。これは、コンボに詰め込まれる短いリストには関係ありませんが、大きなコレクションではすぐに問題になる可能性があります。


6
protected void Page_Load(object sender, EventArgs e)
{
    string a = "a;b;c;d;e;v";
    string[] b = a.Split(';');
    string[] c = b.Distinct().ToArray();

    if (b.Length != c.Length)
    {
        for (int i = 0; i < b.Length; i++)
        {
            try
            {
                if (b[i].ToString() != c[i].ToString())
                {
                    Response.Write("Found duplicate " + b[i].ToString());
                    return;
                }
            }
            catch (Exception ex)
            {
                Response.Write("Found duplicate " + b[i].ToString());
                return;
            }
        }              
    }
    else
    {
        Response.Write("No duplicate ");
    }
}

6

-これは毎回聞かれるインタビューの質問です。今、私はそのコーディングを行いました。

static void Main(string[] args)
{    
            int[] array = new int[] { 4, 8, 4, 1, 1, 4, 8 };            
            int numDups = 0, prevIndex = 0;

            for (int i = 0; i < array.Length; i++)
            {
                bool foundDup = false;
                for (int j = 0; j < i; j++)
                {
                    if (array[i] == array[j])
                    {
                        foundDup = true;
                        numDups++; // Increment means Count for Duplicate found in array.
                        break;
                    }                    
                }

                if (foundDup == false)
                {
                    array[prevIndex] = array[i];
                    prevIndex++;
                }
            }

            // Just Duplicate records replce by zero.
            for (int k = 1; k <= numDups; k++)
            {               
                array[array.Length - k] = '\0';             
            }


            Console.WriteLine("Console program for Remove duplicates from array.");
            Console.Read();
        }

3
この質問に対してO(n * 2)時間計算量を実行するべきではありません。
dan1 2016年

2
マージソートを使用する必要があります
Nick Gallimore 2017年

5

すべての文字列を辞書に追加し、後でKeysプロパティを取得します。これにより、それぞれの一意の文字列が生成されますが、元の入力での文字列と同じ順序である必要はありません。

最終結果を元の入力と同じ順序にする必要がある場合は、各文字列の最初の出現を考慮するときに、代わりに次のアルゴリズムを使用してください。

  1. リスト(最終出力)と辞書(重複をチェックするため)を用意する
  2. 入力内の各文字列について、それが辞書にすでに存在するかどうかを確認します
  3. そうでない場合は、辞書とリストの両方に追加します

最後に、リストには各一意の文字列の最初の出現が含まれます。

辞書を作成するときは、文化などを考慮して、アクセント付きの文字を含む重複を正しく処理するようにしてください。


5

次のコードは、ArrayListから重複を削除しようとしますが、これは最適なソリューションではありません。インタビュー中に、2番目/一時配列リストを使用せずに再帰によって重複を削除するように質問されました。

private void RemoveDuplicate() 
{

ArrayList dataArray = new ArrayList(5);

            dataArray.Add("1");
            dataArray.Add("1");
            dataArray.Add("6");
            dataArray.Add("6");
            dataArray.Add("6");
            dataArray.Add("3");
            dataArray.Add("6");
            dataArray.Add("4");
            dataArray.Add("5");
            dataArray.Add("4");
            dataArray.Add("1");

            dataArray.Sort();

            GetDistinctArrayList(dataArray, 0);
}

private void GetDistinctArrayList(ArrayList arr, int idx)

{

            int count = 0;

            if (idx >= arr.Count) return;

            string val = arr[idx].ToString();
            foreach (String s in arr)
            {
                if (s.Equals(arr[idx]))
                {
                    count++;
                }
            }

            if (count > 1)
            {
                arr.Remove(val);
                GetDistinctArrayList(arr, idx);
            }
            else
            {
                idx += 1;
                GetDistinctArrayList(arr, idx);
            }
        }


5

重複する要素を保存せず、重複を追加するリクエストを黙って無視するハッシュセットかもしれません。

static void Main()
{
    string textWithDuplicates = "aaabbcccggg";     

    Console.WriteLine(textWithDuplicates.Count());  
    var letters = new HashSet<char>(textWithDuplicates);
    Console.WriteLine(letters.Count());

    foreach (char c in letters) Console.Write(c);
    Console.WriteLine("");

    int[] array = new int[] { 12, 1, 1, 1, 1, 1, 1, 1, 2, 2, 2, 2, 2 };

    Console.WriteLine(array.Count());
    var distinctArray = new HashSet<int>(array);
    Console.WriteLine(distinctArray.Count());

    foreach (int i in distinctArray) Console.Write(i + ",");
}

4

注:テストされていません!

string[] test(string[] myStringArray)
{
    List<String> myStringList = new List<string>();
    foreach (string s in myStringArray)
    {
        if (!myStringList.Contains(s))
        {
            myStringList.Add(s);
        }
    }
    return myStringList.ToString();
}

あなたが必要なことをするかもしれません...

ああ編集!!! 1分足らずで強盗に殴られた!


ロブはあなたを何にも打ち負かしませんでした。Listを使用している間、彼はArrayListを使用しています。あなたのバージョンの方が良いです。
ダグS

4

以下をテストし、動作します。クールなのは、文化に敏感な検索も行うことです

class RemoveDuplicatesInString
{
    public static String RemoveDups(String origString)
    {
        String outString = null;
        int readIndex = 0;
        CompareInfo ci = CultureInfo.CurrentCulture.CompareInfo;


        if(String.IsNullOrEmpty(origString))
        {
            return outString;
        }

        foreach (var ch in origString)
        {
            if (readIndex == 0)
            {
                outString = String.Concat(ch);
                readIndex++;
                continue;
            }

            if (ci.IndexOf(origString, ch.ToString().ToLower(), 0, readIndex) == -1)
            {
                //Unique char as this char wasn't found earlier.
                outString = String.Concat(outString, ch);                   
            }

            readIndex++;

        }


        return outString;
    }


    static void Main(string[] args)
    {
        String inputString = "aAbcefc";
        String outputString;

        outputString = RemoveDups(inputString);

        Console.WriteLine(outputString);
    }

}

--AptSenSDET


4

このコードは、配列から重複する値を100%削除します[a [i]を使用したため] .....任意のオブジェクト指向言語に変換できます..... :)

for(int i=0;i<size;i++)
{
    for(int j=i+1;j<size;j++)
    {
        if(a[i] == a[j])
        {
            for(int k=j;k<size;k++)
            {
                 a[k]=a[k+1];
            }
            j--;
            size--;
        }
    }

}

2

ジェネリック拡張メソッド:

public static IEnumerable<TSource> Distinct<TSource>(this IEnumerable<TSource> source, IEqualityComparer<TSource> comparer)
{
    if (source == null)
        throw new ArgumentNullException(nameof(source));

    HashSet<TSource> set = new HashSet<TSource>(comparer);
    foreach (TSource item in source)
    {
        if (set.Add(item))
        {
            yield return item;
        }
    }
}

1

ArrayListを操作するときに、このコードを使用できます

ArrayList arrayList;
//Add some Members :)
arrayList.Add("ali");
arrayList.Add("hadi");
arrayList.Add("ali");

//Remove duplicates from array
  for (int i = 0; i < arrayList.Count; i++)
    {
       for (int j = i + 1; j < arrayList.Count ; j++)
           if (arrayList[i].ToString() == arrayList[j].ToString())
                 arrayList.Remove(arrayList[j]);

1
public static int RemoveDuplicates(ref int[] array)
{
    int size = array.Length;

    // if 0 or 1, return 0 or 1:
    if (size  < 2) {
        return size;
    }

    int current = 0;
    for (int candidate = 1; candidate < size; ++candidate) {
        if (array[current] != array[candidate]) {
            array[++current] = array[candidate];
        }
    }

    // index to count conversion:
    return ++current;
}

0

以下は、配列の要素を2回トラバースする、Javaの単純なロジックです。同じ要素が表示された場合は、それにゼロを割り当て、比較している要素のインデックスには触れません。

import java.util.*;
class removeDuplicate{
int [] y ;

public removeDuplicate(int[] array){
    y=array;

    for(int b=0;b<y.length;b++){
        int temp = y[b];
        for(int v=0;v<y.length;v++){
            if( b!=v && temp==y[v]){
                y[v]=0;
            }
        }
    }
}

0
  private static string[] distinct(string[] inputArray)
        {
            bool alreadyExists;
            string[] outputArray = new string[] {};

            for (int i = 0; i < inputArray.Length; i++)
            {
                alreadyExists = false;
                for (int j = 0; j < outputArray.Length; j++)
                {
                    if (inputArray[i] == outputArray[j])
                        alreadyExists = true;
                }
                        if (alreadyExists==false)
                        {
                            Array.Resize<string>(ref outputArray, outputArray.Length + 1);
                            outputArray[outputArray.Length-1] = inputArray[i];
                        }
            }
            return outputArray;
        }

1
あなたの答えを説明してください。
Badiparmagi 2017年

0
using System;
using System.Collections.Generic;
using System.Linq;


namespace Rextester
{
    public class Program
    {
        public static void Main(string[] args)
        {
             List<int> listofint1 = new List<int> { 4, 8, 4, 1, 1, 4, 8 };
           List<int> updatedlist= removeduplicate(listofint1);
            foreach(int num in updatedlist)
               Console.WriteLine(num);
        }


        public static List<int> removeduplicate(List<int> listofint)
         {
             List<int> listofintwithoutduplicate= new List<int>();


              foreach(var num in listofint)
                 {
                  if(!listofintwithoutduplicate.Any(p=>p==num))
                        {
                          listofintwithoutduplicate.Add(num);
                        }
                  }
             return listofintwithoutduplicate;
         }
    }



}

1
これは、これを行う非常に非効率的な方法です。他の回答を見て、それらが何をするかを確認してください。
ワイハリー・

0
strINvalues = "1,1,2,2,3,3,4,4";
strINvalues = string.Join(",", strINvalues .Split(',').Distinct().ToArray());
Debug.Writeline(strINvalues);

Kkkこれが魔術なのか美しいコードなのかわからない

1 strINvalues .Split( '、')。Distinct()。ToArray()

2 string.Join( "、"、XXX);

1配列を分割し、Distinct [LINQ]を使用して重複を削除します 。2重複なしで結合し直します。

申し訳ありませんが、StackOverFlowのテキストだけを読んだことはありません。テキストよりも意味があります;)


コードのみの回答は質の低い回答です。これが機能する理由にいくつかの説明を追加します。
タスリムオセニ

0
int size = a.Length;
        for (int i = 0; i < size; i++)
        {
            for (int j = i + 1; j < size; j++)
            {
                if (a[i] == a[j])
                {
                    for (int k = j; k < size; k++)
                    {
                        if (k != size - 1)
                        {
                            int temp = a[k];
                            a[k] = a[k + 1];
                            a[k + 1] = temp;

                        }
                    }
                    j--;
                    size--;
                }
            }
        }

1
SOへようこそ。このコードスニペットが解決策になる可能性がありますが、説明を含めると、投稿の品質を向上させるのに役立ちます。あなたは将来読者のために質問に答えていることを忘れないでください、そしてそれらの人々はあなたのコード提案の理由を知らないかもしれません。
alan.elkin

残念ながら、このコードは何も削除しないため、重複は削除されません。
p_P

0

最良の方法?言うのは難しいですが、HashSetアプローチは高速に見えますが、(データに応じて)ソートアルゴリズム(CountSort?)を使用するとはるかに高速になる可能性があります。

using System;
using System.Collections.Generic;
using System.Linq;
class Program
{
    static void Main()
    {
        Random r = new Random(0); int[] a, b = new int[1000000];
        for (int i = b.Length - 1; i >= 0; i--) b[i] = r.Next(b.Length);
        a = new int[b.Length]; Array.Copy(b, a, b.Length);
        a = dedup0(a); Console.WriteLine(a.Length);
        a = new int[b.Length]; Array.Copy(b, a, b.Length);
        var w = System.Diagnostics.Stopwatch.StartNew();
        a = dedup0(a); Console.WriteLine(w.Elapsed); Console.Read();
    }

    static int[] dedup0(int[] a)  // 48 ms  
    {
        return new HashSet<int>(a).ToArray();
    }

    static int[] dedup1(int[] a)  // 68 ms
    {
        Array.Sort(a); int i = 0, j = 1, k = a.Length; if (k < 2) return a;
        while (j < k) if (a[i] == a[j]) j++; else a[++i] = a[j++];
        Array.Resize(ref a, i + 1); return a;
    }

    static int[] dedup2(int[] a)  //  8 ms
    {
        var b = new byte[a.Length]; int c = 0;
        for (int i = 0; i < a.Length; i++) 
            if (b[a[i]] == 0) { b[a[i]] = 1; c++; }
        a = new int[c];
        for (int j = 0, i = 0; i < b.Length; i++) if (b[i] > 0) a[j++] = i;
        return a;
    }
}

ほとんどブランチフリー。どうやって?デバッグモード、小さな配列でステップイン(F11):{1,3,1,1,0}

    static int[] dedupf(int[] a)  //  4 ms
    {
        if (a.Length < 2) return a;
        var b = new byte[a.Length]; int c = 0, bi, ai, i, j;
        for (i = 0; i < a.Length; i++)
        { ai = a[i]; bi = 1 ^ b[ai]; b[ai] |= (byte)bi; c += bi; }
        a = new int[c]; i = 0; while (b[i] == 0) i++; a[0] = i++;
        for (j = 0; i < b.Length; i++) a[j += bi = b[i]] += bi * i; return a;
    }

ネストされたループが2つあるソリューションは、特に大きな配列の場合、時間がかかる場合があります。

    static int[] dedup(int[] a)
    {
        int i, j, k = a.Length - 1;
        for (i = 0; i < k; i++)
            for (j = i + 1; j <= k; j++) if (a[i] == a[j]) a[j--] = a[k--];
        Array.Resize(ref a, k + 1); return a;
    }

0

Distinct&StringComparer.InvariantCultureIgnoreCaseを使用して、重複を削除し、大文字と小文字を区別しない

string[] array = new string[] { "A", "a", "b", "B", "a", "C", "c", "C", "A", "1" };
var r = array.Distinct(StringComparer.InvariantCultureIgnoreCase).ToList();
Console.WriteLine(r.Count); // return 4 items

0

以下の答えを見つけてください。

class Program
{
    static void Main(string[] args)
    {
        var nums = new int[] { 1, 4, 3, 3, 3, 5, 5, 7, 7, 7, 7, 9, 9, 9 };
        var result = removeDuplicates(nums);
        foreach (var item in result)
        {
            Console.WriteLine(item);
        }
    }
    static int[] removeDuplicates(int[] nums)
    {
        nums = nums.ToList().OrderBy(c => c).ToArray();
        int j = 1;
        int i = 0;
        int stop = 0;
        while (j < nums.Length)
        {
            if (nums[i] != nums[j])
            {
                nums[i + 1] = nums[j];
                stop = i + 2;
                i++;
            }
            j++;
        }
        nums = nums.Take(stop).ToArray();
        return nums;
    }
}

私が解決したばかりのテストに基づいたほんの少しの貢献であり、おそらくここで他のトップの貢献者による改善に役立つ可能性があります。これが私がしたことです:

  1. LINQを使用してアイテムを最小から最大に並べ替えることができるOrderByを使用しました
  2. 次に、それを配列に変換して戻し、プライマリデータソースに再割り当てします。
  3. したがって、配列の右側であるjを1に初期化し、配列の左側であるiを0に初期化します。また、停止する場所を0に初期化します。
  4. whileループを使用して、ある位置から別の位置に左から右に移動して配列をインクリメントしました。インクリメントごとに、停止位置はi + 2の現在の値であり、後で配列から重複を切り捨てるために使用します。
  5. 次に、配列の値全体を反復処理するまで、ifステートメントから左から右に移動し、ifステートメントの外側で右から右に移動してインクリメントします。
  6. 次に、最初の要素から停止位置まで選択します。これは、最後のiインデックスに2を加えたものになります。こうすることで、int配列からすべての重複アイテムを削除できます。その後、再割り当てされます。
弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.