快捷搜索:   nginx

存储优化-删除重复记录只保留单条

由于前端提交处理做的不到位或者数据库设计的不够合理,库中通常会存在一些冗余数据,比如重复记录就是一种,那这样的记录如何删除呢? 我们先看一下相关数据结构的知识。   在学习线性表的时候,曾有这样一个例题。   已知一个存储整数的顺序表La,试构造顺序表Lb,要求顺序表Lb中只包含顺序表La中所有值不相同的数据元素。
算法思路:
先把顺序表La的第一个元素付给顺序表Lb,然后从顺序表La的第2个元素起,每一个元素与顺序表Lb中的每一个元素进行比较,如果不相同,则把该元素附加到顺序表Lb的末尾。
 
  1. 1         public SeqList<int> Purge(SeqList<int> La)   2         {  
  2.  3             SeqList<int> Lb = new SeqList<int>(La.Maxsize);   4             //将a表中的第1个数据元素赋给b表  
  3.  5              Lb.Append(La[0]);   6             //依次处理a表中的数据元素  
  4.  7             for (int i = 1; i <= La.GetLength() - 1; ++i)   8             {  
  5.  9                 int j = 0;  10                 //查看b表中有无与a表中相同的数据元素  
  6. 11                 for (j = 0; j <= Lb.GetLength() - 1; ++j)  12                 {  
  7. 13                     //有相同的数据元素  14                     if (La[i].CompareTo(Lb[j]) == 0)  
  8. 15                     {  16                         break;  
  9. 17                     }  18                 }  
  10. 19                 //没有相同的数据元素,将a表中的数据元素附加到b表的末尾。  20                 if (j > Lb.GetLength() - 1)  
  11. 21                 {  22                     Lb.Append(La[i]);  
  12. 23                 }  24                 return Lb;  
  13. 25             }  26         }  
  如果理解了这个思路,那么数据库中的处理就好办了。 我们可以做一个临时表来解决问题
 
  1. select distinct * into #Tmp from tableName   drop table tableName   
  2. select * into tableName from #Tmp   drop table #Tmp  
发生这种重复的原因是表设计不周产生的,增加唯一索引列即可解决。 但是你说了,我不想增加任何字段,但这时候又没有显式的标识列,怎么取出标识列呢?(可以是序号列,GUID,等) 上个问题先不讲,先看看这个问题。  我们分别在三种数据库中看一下处理办法,就是通常我们用的Sqlserver2000,Sqlserver2005,Oracle 10g.   1.   SQL Server 2000 构造序号列
方法一:
SELECT 序号=
   (SELECT COUNT(客户编号) FROM 客户 AS a WHERE a.客户编号<= b.客户编号),
    客户编号,公司名称 FROM 客户 AS b ORDER BY 1;
方法二: SELECT 序号= COUNT(*),
a.客户编号, a.公司名称 FROM 客户 AS a, 客户 AS b
WHERE a.客户编号>= b.客户编号 GROUP BY a.客户编号, b.公司名称 ORDER BY 序号;   2.   SQL Server 2005 构造序号列
方法一:
SELECT RANK() OVER (ORDER BY 客户编号 DESC) AS 序号, 客户编号,公司名称 FROM 客户;
方法二:
WITH TABLE AS
     (SELECT ROW_NUMBER() OVER (ORDER BY 客户编号 DESC) AS 序号, 客户编号,公司名称 FROM 客户)
SELECT * FROM TABLE
WHERE 序号 BETWEEN 1 AND 3;   3.   Oracle 里 rowid 也可看做默认标识列 在Oracle中,每一条记录都有一个rowid,rowid在整个数据库中是唯一的,rowid确定了每条记录是在Oracle中的哪一个数据文件、块、行上。
在重复的记录中,可能所有列的内容都相同,但rowid不会相同,所以只要确定出重复记录中那些具有最大rowid的就可以了,其余全部删除。
 
  1. select * from test;  select * from test group by id having count(*)>1  
  2. select * from test group by id  select distinct * from test  
  3. delete from test a where a.rowid!=(select max(rowid) from test b where a.id=b.id); 
扯远了,回到原来的问题,除了采用数据结构的思想来处理,因为数据库特有的事务处理,能够把数据缓存在线程池里,这样也相当于临时表的功能,所以,我们还可以用游标来解决删除重复记录的问题。
 
  1.   declare @max int,            @id int   
  2.   declare cur_rows cursor local for select id ,count(*) from test group by id having count(*) > 1     open cur_rows   
  3.   fetch cur_rows into @id ,@max     while @@fetch_status=0   
  4.   begin         select @max = @max -1    
  5.       set rowcount @max      --让这个时候的行数等于少了一行的统计数,想想看,为什么         delete from test where id = @id   
  6.      fetch cur_rows into @id ,@max    end   
  7.  close cur_rows    set rowcount 0  
以上是闪电查阅一些资料写出的想法,有考虑不周的地方,欢迎大家指出。
顶(2)
踩(0)

您可能还会对下面的文章感兴趣:

最新评论