SQL去重方法有哪些

SQL去重方法有哪些

这篇文章给大家分享的是有关SQL去重方法有哪些的内容。小编觉得挺实用的,因此分享给大家做个参考,一起跟随小编过来看看吧。

在使用SQL提数的时候,常会遇到表内有重复值的时候,比如我们想得到 uv (独立访客),就需要做去重。

在 MySQL 中通常是使用 distinct group by子句,但在支持窗口函数的 sql(如Hive SQLOracle等等) 中还可以使用 row_number 窗口函数进行去重。

举个栗子,现有这样一张表 task:

备注:

  • task_id: 任务id;

  • order_id: 订单id;

  • start_time: 开始时间

注意:一个任务对应多条订单

我们需要求出任务的总数量,因为 task_id 并非唯一的,所以需要去重:

distinct

--列出task_id的所有唯一值(去重后的记录)selectdistincttask_idfromTask;--任务总数selectcount(distincttask_id)task_numfromTask;


distinct 通常效率较低。它不适合用来展示去重后具体的值,一般与 count 配合用来计算条数。
distinct 使用中,放在 select 后边,对后面所有的字段的值统一进行去重。比如distinct后面有两个字段,那么 1,1 和 1,2 这两条记录不是重复值 。

group by

--列出task_id的所有唯一值(去重后的记录,null也是值)--selecttask_id--fromTask--groupbytask_id;--任务总数selectcount(task_id)task_numfrom(selecttask_idfromTaskgroupbytask_id)tmp;

row_number

row_number 是窗口函数,语法如下:

row_number() over (partition by <用于分组的字段名> order by <用于组内排序的字段名>)
其中partition by 部分可省略。

--在支持窗口函数的sql中使用selectcount(casewhenrn=1thentask_idelsenullend)task_numfrom(selecttask_id,row_number()over(partitionbytask_idorderbystart_time)rnfromTask)tmp;

此外,再借助一个表 test 来理理 distinct 和 group by 在去重中的使用:

--下方的分号;用来分隔行selectdistinctuser_idfromTest;--返回1;2selectdistinctuser_id,user_typefromTest;--返回1,1;1,2;2,1selectuser_idfromTestgroupbyuser_id;--返回1;2selectuser_id,user_typefromTestgroupbyuser_id,user_type;--返回1,1;1,2;2,1selectuser_id,user_typefromTestgroupbyuser_id;--Hive、Oracle等会报错,mysql可以这样写。--返回1,1或1,2;2,1(共两行)。只会对groupby后面的字段去重,就是说最后返回的记录数等于上一段sql的记录数,即2条--没有放在groupby后面但是在select中放了的字段,只会返回一条记录(好像通常是第一条,应该是没有规律的)

感谢各位的阅读!关于“SQL去重方法有哪些”这篇文章就分享到这里了,希望以上内容可以对大家有一定的帮助,让大家可以学到更多知识,如果觉得文章不错,可以把它分享出去让更多的人看到吧!

发布于 2022-01-05 23:22:33
收藏
分享
海报
0 条评论
43
上一篇:Vue elementUI表单嵌套表格并对每行进行校验的示例分析 下一篇:QT如何实现定时关闭消息提示框
目录

    0 条评论

    本站已关闭游客评论,请登录或者注册后再评论吧~

    忘记密码?

    图形验证码