SQLテーブルで重複する値を見つける


1935

1つのフィールドで重複を見つけるのは簡単です。

SELECT name, COUNT(email) 
FROM users
GROUP BY email
HAVING COUNT(email) > 1

テーブルがあれば

ID   NAME   EMAIL
1    John   asd@asd.com
2    Sam    asd@asd.com
3    Tom    asd@asd.com
4    Bob    bob@asd.com
5    Tom    asd@asd.com

このクエリは、John、Sam、Tom、Tomを提供しますemail

しかし、私が欲しいのは同じemail とで 重複を取得することですname

つまり、「トム」「トム」を手に入れたいのです。

これが必要な理由:間違いを犯し、重複nameしたemail値と値を挿入することを許可しました。重複を削除/変更する必要があるので、最初にそれらを見つける必要があります


28
最初のサンプルで名前を選択できるとは思いません。これは、集約関数ではないためです。「一致する電子メールアドレスとその名前の数は何ですか」は、いくつかのトリッキーなロジックです...
sXe

3
nameSELECTのフィールドのため、これはMSSQLサーバーでは機能しないことがわかりました。
E.ヴァンプッテン、2018年

メールが重複しているレコードのIDが必要
Marcos Di Paolo

回答:


3037
SELECT
    name, email, COUNT(*)
FROM
    users
GROUP BY
    name, email
HAVING 
    COUNT(*) > 1

単に両方の列をグループ化します。

注:古いANSI標準では、GROUP BYにすべての非集計列を含めるようになっていますが、これは「機能的な依存関係」の考え方で変更されています

リレーショナルデータベース理論では、機能依存はデータベースからのリレーションにおける2つの属性セット間の制約です。つまり、機能の依存関係は、関係の属性間の関係を記述する制約です。

サポートは一貫していません:


92
グループで単一のレコードHAVING作品と連携@webXL
bjan

8
@gbn結果にIDを含めることは可能ですか?その後、それらの重複を後で削除する方が簡単です。
user797717 2014年

13
@ user797717:MIN(ID)が必要な場合、MIN(ID)値の場合、最後にないID値を削除する必要があります
gbn

1
列のいずれかにnull値がある場合はどうですか?
Ankit Dhingra 2016

1
そんなにこのためおかげで、はい、それは私が状態の一意性を必要に応じても、オラクルで作業を行い、そうではなく>1 =1
ビル・ネイラー

370

これを試して:

declare @YourTable table (id int, name varchar(10), email varchar(50))

INSERT @YourTable VALUES (1,'John','John-email')
INSERT @YourTable VALUES (2,'John','John-email')
INSERT @YourTable VALUES (3,'fred','John-email')
INSERT @YourTable VALUES (4,'fred','fred-email')
INSERT @YourTable VALUES (5,'sam','sam-email')
INSERT @YourTable VALUES (6,'sam','sam-email')

SELECT
    name,email, COUNT(*) AS CountOf
    FROM @YourTable
    GROUP BY name,email
    HAVING COUNT(*)>1

出力:

name       email       CountOf
---------- ----------- -----------
John       John-email  2
sam        sam-email   2

(2 row(s) affected)

重複のIDが必要な場合は、これを使用します。

SELECT
    y.id,y.name,y.email
    FROM @YourTable y
        INNER JOIN (SELECT
                        name,email, COUNT(*) AS CountOf
                        FROM @YourTable
                        GROUP BY name,email
                        HAVING COUNT(*)>1
                    ) dt ON y.name=dt.name AND y.email=dt.email

出力:

id          name       email
----------- ---------- ------------
1           John       John-email
2           John       John-email
5           sam        sam-email
6           sam        sam-email

(4 row(s) affected)

重複を削除するには:

DELETE d
    FROM @YourTable d
        INNER JOIN (SELECT
                        y.id,y.name,y.email,ROW_NUMBER() OVER(PARTITION BY y.name,y.email ORDER BY y.name,y.email,y.id) AS RowRank
                        FROM @YourTable y
                            INNER JOIN (SELECT
                                            name,email, COUNT(*) AS CountOf
                                            FROM @YourTable
                                            GROUP BY name,email
                                            HAVING COUNT(*)>1
                                        ) dt ON y.name=dt.name AND y.email=dt.email
                   ) dt2 ON d.id=dt2.id
        WHERE dt2.RowRank!=1
SELECT * FROM @YourTable

出力:

id          name       email
----------- ---------- --------------
1           John       John-email
3           fred       John-email
4           fred       fred-email
5           sam        sam-email

(4 row(s) affected)


72

重複を削除したい場合は、トリプルサブセレクトで偶数/奇数の行を見つけるよりも簡単な方法を次に示します。

SELECT id, name, email 
FROM users u, users u2
WHERE u.name = u2.name AND u.email = u2.email AND u.id > u2.id

そして削除するには:

DELETE FROM users
WHERE id IN (
    SELECT id/*, name, email*/
    FROM users u, users u2
    WHERE u.name = u2.name AND u.email = u2.email AND u.id > u2.id
)

私見をはるかに読みやすく理解する

注:唯一の問題は、削除される行がなくなるまでリクエストを実行する必要があることです。これは、重複する複製を毎回1つだけ削除するためです。


2
素敵で読みやすいです。複数の重複行を一度に削除する方法を見つけたいのですが。
Dickon Reed

1
これは私にとってはうまくいきませんYou can't specify target table 'users' for update in FROM clause
Whitecat

1
@Whitecatは、単純なMySQLの問題のように思える:stackoverflow.com/questions/4429319/...
AncAinu

1
私には失敗します。「DBD :: CSV :: st execute failed:Use of uninitialized value $ _ [1] in hash element in /Users/hornenj/perl5/perlbrew/perls/perl-5.26.0/lib/site_perl/5.26。 0 / SQL / Eval.pm行43 "
Nigel Horne

1
where句は「u.name = u2.name AND u.email = u2.email AND(u.id> u2.id OR u2.id> u.id)」である必要があると思いますか?
GiveEmTheBoot

48

以下を試してください:

SELECT * FROM
(
    SELECT Id, Name, Age, Comments, Row_Number() OVER(PARTITION BY Name, Age ORDER By Name)
        AS Rank 
        FROM Customers
) AS B WHERE Rank>1

3
SELECT *をわずかに変更しただけで、1時間の検索に役立ちました。私はこれまでにOVER(PARTITION BYを使用したことがありません。SQLで同じことを行う方法がいくつあるかに驚かされることはありません!
Joe Ruder

33
 SELECT name, email 
    FROM users
    WHERE email in
    (SELECT email FROM users
    GROUP BY email 
    HAVING COUNT(*)>1)

28

パーティーには少し遅れましたが、重複するIDをすべて見つけるための非常に優れた回避策を見つけました。

SELECT GROUP_CONCAT( id )
FROM users
GROUP BY email
HAVING ( COUNT(email) > 1 )

2
糖衣料の回避策のようです。いい発見。
Chef_Code 2016年

3
覚えておいてくださいGROUP_CONCAT、あなたがすべて得られない可能性がありますので、いくつかの所定の長さの後に停止しますid秒。
v010dya

24

このコードを試してください

WITH CTE AS

( SELECT Id, Name, Age, Comments, RN = ROW_NUMBER()OVER(PARTITION BY Name,Age ORDER BY ccn)
FROM ccnmaster )
select * from CTE 

23

これにより、各重複グループから1つのレコードを除くすべての重複レコードが選択/削除されます。したがって、削除すると、すべての一意のレコードと、複製の各グループからの1つのレコードが残ります。

重複を選択:

SELECT *
FROM table
WHERE
    id NOT IN (
        SELECT MIN(id)
        FROM table
        GROUP BY column1, column2
);

重複を削除:

DELETE FROM table
WHERE
    id NOT IN (
        SELECT MIN(id)
        FROM table
        GROUP BY column1, column2
);

大量のレコードに注意してください。パフォーマンスの問題が発生する可能性があります。


2
削除クエリのエラー-FROM句で更新するターゲットテーブル '都市'を指定できません
Ali Azhar

2
テーブル 'cities'も更新句もありません。どういう意味ですか?削除クエリのどこにエラーがありますか?
MartinSilovský18年12

2
OPのデータはどのように機能しますか?
thoroc

3
「OP」とはどういう意味ですか?
MartinSilovský19年

19

Oracleを使用する場合は、次の方法をお勧めします。

create table my_users(id number, name varchar2(100), email varchar2(100));

insert into my_users values (1, 'John', 'asd@asd.com');
insert into my_users values (2, 'Sam', 'asd@asd.com');
insert into my_users values (3, 'Tom', 'asd@asd.com');
insert into my_users values (4, 'Bob', 'bob@asd.com');
insert into my_users values (5, 'Tom', 'asd@asd.com');

commit;

select *
  from my_users
 where rowid not in (select min(rowid) from my_users group by name, email);

15
select name, email
, case 
when ROW_NUMBER () over (partition by name, email order by name) > 1 then 'Yes'
else 'No'
end "duplicated ?"
from users

2
スタックオーバーフローではコードのみの回答が嫌われますが、これが質問に回答する理由を説明できますか?
リッチベナー2016

2
@RichBenner:結果の各行とすべての行などの応答が見つかりませんでした。これにより、どの行が重複していて、一目ではなく、グループ化しないかがわかります。これを組み合わせる場合他のクエリgroup byを使用したクエリは適切なオプションではありません。
Narendra 2016

2
Idをselectステートメントに追加し、duplicatedでフィルタリングすると、重複したIDを削除して、それぞれのIDを保持できます。
Antoine Reinhold Bertrand

12

テーブルに重複する行があるかどうかを確認したい場合は、以下のクエリを使用しました。

create table my_table(id int, name varchar(100), email varchar(100));

insert into my_table values (1, 'shekh', 'shekh@rms.com');
insert into my_table values (1, 'shekh', 'shekh@rms.com');
insert into my_table values (2, 'Aman', 'aman@rms.com');
insert into my_table values (3, 'Tom', 'tom@rms.com');
insert into my_table values (4, 'Raj', 'raj@rms.com');


Select COUNT(1) As Total_Rows from my_table 
Select Count(1) As Distinct_Rows from ( Select Distinct * from my_table) abc 

11

これは私が思いついた簡単なことです。共通テーブル式(CTE)とパーティションウィンドウを使用します(これらの機能はSQL 2008以降にあると思います)。

この例では、名前とドブが重複しているすべての生徒を検索します。重複をチェックしたいフィールドはOVER句に入ります。プロジェクションに必要な他のフィールドを含めることができます。

with cte (StudentId, Fname, LName, DOB, RowCnt)
as (
SELECT StudentId, FirstName, LastName, DateOfBirth as DOB, SUM(1) OVER (Partition By FirstName, LastName, DateOfBirth) as RowCnt
FROM tblStudent
)
SELECT * from CTE where RowCnt > 1
ORDER BY DOB, LName


10

重複した値をどのように数えることができますか?2回以上繰り返されるか、2より大きくなります。グループごとではなく、カウントするだけです。

単純な

select COUNT(distinct col_01) from Table_01

2
これは尋ねられた質問に対してどのように機能しますか?これは、異なる行の複数の列(たとえば、「email」と「name」)の情報を複製する行を提供しませ
Jeroen、2015年

10

CTEを使用することで、このような重複する値を見つけることもできます

with MyCTE
as
(
select Name,EmailId,ROW_NUMBER() over(PARTITION BY EmailId order by id) as Duplicate from [Employees]

)
select * from MyCTE where Duplicate>1

9
 select emp.ename, emp.empno, dept.loc 
          from emp
 inner join dept 
          on dept.deptno=emp.deptno
 inner join
    (select ename, count(*) from
    emp
    group by ename, deptno
    having count(*) > 1)
 t on emp.ename=t.ename order by emp.ename
/

8

SELECT id, COUNT(id) FROM table1 GROUP BY id HAVING COUNT(id)>1;

これは、特定の列で繰り返される値を検索するために適切に機能すると思います。


6
これは上位の回答に何も追加しません。また、技術的には質問に投稿されたOPのコードと実際には違いません。
Jeroen


6

これも機能するはずです。試してみてください。

  Select * from Users a
            where EXISTS (Select * from Users b 
                where (     a.name = b.name 
                        OR  a.email = b.email)
                     and a.ID != b.id)

メールの新しいドメインなど、なんらかの接頭辞または一般的な変更がある重複を検索する場合に特に便利です。次に、これらの列でreplace()を使用できます


5

(1つまたは複数の基準で)重複データを検索し、実際の行を選択する場合。

with MYCTE as (
    SELECT DuplicateKey1
        ,DuplicateKey2 --optional
        ,count(*) X
    FROM MyTable
    group by DuplicateKey1, DuplicateKey2
    having count(*) > 1
) 
SELECT E.*
FROM MyTable E
JOIN MYCTE cte
ON E.DuplicateKey1=cte.DuplicateKey1
    AND E.DuplicateKey2=cte.DuplicateKey2
ORDER BY E.DuplicateKey1, E.DuplicateKey2, CreatedAt

http://developer.azurewebsites.net/2014/09/better-sql-group-by-find-duplicate-data/


4
SELECT name, email,COUNT(email) 
FROM users 
WHERE email IN (
    SELECT email 
    FROM users 
    GROUP BY email 
    HAVING COUNT(email) > 1)

テーブル全体を参照しない限り、COUNTなしGROUP BYで使用することはできません。
RalfFriedl

Group ByなしではCOUNTを使用しましたが、ここではCOUNTを入力するために入力ミスをしています
Mohammad Neamul Islam

3

名前が重複するレコードを削除するには

;WITH CTE AS    
(

    SELECT ROW_NUMBER() OVER (PARTITION BY name ORDER BY name) AS T FROM     @YourTable    
)

DELETE FROM CTE WHERE T > 1

3

テーブル内の重複レコードからチェックするには。

select * from users s 
where rowid < any 
(select rowid from users k where s.name = k.name and s.email = k.email);

または

select * from users s 
where rowid not in 
(select max(rowid) from users k where s.name = k.name and s.email = k.email);

テーブル内の重複レコードを削除するには。

delete from users s 
where rowid < any 
(select rowid from users k where s.name = k.name and s.email = k.email);

または

delete from users s 
where rowid not in 
(select max(rowid) from users k where s.name = k.name and s.email = k.email);


1

以下に示すように、ここで集約関数を処理することができます。

create table #TableB (id_account int, data int, [date] date)
insert into #TableB values (1 ,-50, '10/20/2018'),
(1, 20, '10/09/2018'),
(2 ,-900, '10/01/2018'),
(1 ,20, '09/25/2018'),
(1 ,-100, '08/01/2018')  

SELECT id_account , data, COUNT(*)
FROM #TableB
GROUP BY id_account , data
HAVING COUNT(id_account) > 1

drop table #TableB

ここでは、2つのフィールドid_accountとdataがCount(*)で使用されています。したがって、両方の列に同じ値が2回以上あるすべてのレコードが表示されます。

SQLサーバーテーブルに制約を追加するのに失敗した何らかの理由で、フロントエンドアプリケーションですべての列にレコードが重複して挿入されました。次に、以下のクエリを使用して、重複するクエリをテーブルから削除できます。

SELECT DISTINCT * INTO #TemNewTable FROM #OriginalTable
TRUNCATE TABLE #OriginalTable
INSERT INTO #OriginalTable SELECT * FROM #TemNewTable
DROP TABLE #TemNewTable

ここでは、元のテーブルのすべての個別のレコードを取得し、元のテーブルのレコードを削除しました。ここでも、新しいテーブルから元のテーブルにすべての個別の値を挿入してから、新しいテーブルを削除しました。


1

あなたはこれを試してみたいかもしれません

SELECT NAME, EMAIL, COUNT(*)
FROM USERS
GROUP BY 1,2
HAVING COUNT(*) > 1

1

ここで最も重要なことは、最速の機能を持つことです。また、重複のインデックスを識別する必要があります。自己結合は適切なオプションですが、より高速な機能を実現するには、最初に重複がある行を見つけてから、元のテーブルと結合して重複行のIDを見つけることをお勧めします。最後に、idを除く任意の列を基準にして、行が互いに近くに重複するようにします。

SELECT u.*
FROM users AS u
JOIN (SELECT username, email
      FROM users
      GROUP BY username, email
      HAVING COUNT(*)>1) AS w
ON u.username=w.username AND u.email=w.email
ORDER BY u.email;

0

SELECT DISTINCTキーワードを使用して、重複を取り除くことができます。名前でフィルタリングして、その名前を持つ全員をテーブルで取得することもできます。


0

正確なコードは、重複する行も検索するか、同じメールと名前の異なるIDのみを検索するかによって異なります。idが主キーであるか、一意の制約がある場合、この区別はありませんが、質問ではこれを指定していません。前者の場合、他のいくつかの回答で提供されているコードを使用できます。

SELECT name, email, COUNT(*)
FROM users
GROUP BY name, email
HAVING COUNT(*) > 1

後者の場合、以下を使用します。

SELECT name, email, COUNT(DISTINCT id)
FROM users
GROUP BY name, email
HAVING COUNT(DISTINCT id) > 1
ORDER BY COUNT(DISTINCT id) DESC
弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.