david=# select ctid, * from emp;
ctid | id | name
-------+----+-------
(0,1) | 1 | david
(0,2) | 1 | david
(0,3) | 1 | david
(0,4) | 2 | sandy
(0,5) | 2 | sandy
(0,6) | 3 | renee
(0,7) | 4 | jack
(0,8) | 5 | rose
(8 rows)
david=#
查询重复数据数
david=# select distinct id, count(*) from emp group by id having count(*) > 1;
id | count
----+-------
1 | 3
2 | 2
(2 rows)
david=#
查询出 id 为1的记录有3条,id 为2的记录有2条。 四、查询要保留的数据
以 min(ctid) 或 max(ctid) 为准。
david=# select ctid, * from emp where ctid in (select min(ctid) from emp group by id);
ctid | id | name
-------+----+-------
(0,1) | 1 | david
(0,4) | 2 | sandy
(0,6) | 3 | renee
(0,7) | 4 | jack
(0,8) | 5 | rose
(5 rows)
david=# 五、删除重复数据
david=# delete from emp where ctid not in (select min(ctid) from emp group by id);
DELETE 3
david=# 六、查看最后结果
david=# select ctid, * from emp;
ctid | id | name
-------+----+-------
(0,1) | 1 | david
(0,4) | 2 | sandy
(0,6) | 3 | renee
(0,7) | 4 | jack
(0,8) | 5 | rose
(5 rows)
david=#
说明:如果表中已经有标明唯一的序列主键值,可以把该值替换上述的ctid直接删除。 七、其他方法
也可以使用以下SQL删除重复数据。
david=# delete from emp a
david-# where a.ctid <>
david-# (
david(# select min(b.ctid) from emp b
david(# where a.id = b.id
david(# );
DELETE 3
david=#
说明:在表数据量较大的情况下,这种删除方法效率很高。