当前位置：Gxlcms > PHP教程 > []千万级的表如何去重复

[]千万级的表如何去重复

时间：2021-07-01 10:21:17 帮助过：13人阅读

[求助] 千万级的表怎么去重复？
一直都是在折腾万级别的小小数据库，不知道索引、数据类型等的不同会对效率有多大影响。最近不是密码泄露吗？就下了个，导入mysql数据库，共两千多万条记录，只留密码字段，其他字段全部删除，进行select、insert等测试，有了索引select的效率明显不同，但在去重复时遇到难题。

方法一：
CREATE TABLE newtable SELECT DISTINCT pwd FROM oldtable
这种方式看起来效率最高，但运行时直接把机器拖死，内存一会儿就用完了。

方法二：
逐条获取再删除重复（每次提取$num条记录，我的$num=50）
$result = mysql_query("SELECT MIN(id), pwd FROM tablename WHERE id BETWEEN $id AND $num GROUP BY pwd");
while($row = mysql_fetch_row($result)){
mysql_query("DELETE FROM tablename WHERE id>$row[0] AND pwd='$row[1]'");
}
$id += $num;
再通过地址栏或cookie等传递$id，效率太低，处理了100分钟，才删除了30多万条重复

请问我应该怎么做，效率才会更高？谢谢

------解决方案--------------------
创建临时表方法好
之前一般建议别人这样操作，但不一定能听进去，小数据量倒无所谓
http://topic.csdn.net/u/20111225/22/7cabedc3-5e9e-42b3-b05b-153ba5a5a67f.html

操作时候占资源是必须的，，不可避免。。。。。除非你乐意慢慢等待
------解决方案--------------------
2100w，不知道加unique效率如何，你可试下

SQL code

alter ignore table mypwd add unique(pwd);
alter table mypwd drop index pwd;

------解决方案--------------------
用临时表吧。create temporary table ....

------解决方案--------------------
试试：

新建表，设定唯一字段。
导出sql文件。  
重新source导入.

------解决方案--------------------
你可以建唯一键。不要索引。 重复直接报错忽略。

select内存不够进，仍要存盘。 而且有distinct. 还要对比重复。 应没有source快。

------解决方案--------------------
探讨

引用:

你可以建唯一键。不要索引。 重复直接报错忽略。

select内存不够进，仍要存盘。 而且有distinct. 还要对比重复。 应没有source快。

请看我在7楼的回复，如果不给pwd字段建索引，7楼的效率就非常高了，110秒处理完。是在SQLyog中实现的

[]千万级的表如何去重复

人气教程排行