博客
关于我
强烈建议你试试无所不能的chatGPT,快点击我
Spark:group by和聚合函数使用
阅读量:7286 次
发布时间:2019-06-30

本文共 799 字,大约阅读时间需要 2 分钟。

groupBy分组和使用agg聚合函数demo:

df.show+----+-----+---+|YEAR|MONTH|NUM|+----+-----+---+|2017|    1| 10||2017|    1|  5||2017|    2| 20||2018|    1|  5||2018|    1|  5|+----+-----+---+import org.apache.spark.sql.functions._df.groupBy("YEAR", "MONTH")  .agg(sum("NUM").as("sum_num"))  .show+----+-----+-------+|YEAR|MONTH|sum_num|+----+-----+-------+|2018|    1|   10.0||2017|    1|   15.0||2017|    2|   20.0|+----+-----+-------+//也可以这样写:df.groupBy("YEAR", "MONTH")  .agg("NUM"->"avg", ("MONTH", "count") )  .show+----+-----+--------+------------+|YEAR|MONTH|avg(NUM)|count(MONTH)|+----+-----+--------+------------+|2018|    1|     5.0|           2||2017|    1|     7.5|           2||2017|    2|    20.0|           1|+----+-----+--------+------------+

转载于:https://www.cnblogs.com/xuejianbest/p/10285006.html

你可能感兴趣的文章
python学习笔记-Day10--(进程\线程\协程)
查看>>
linux学习第4天(自习)
查看>>
持续更新:Centos常用方便的命令与技巧集合
查看>>
ubuntu 终端vi和gedit中文乱码解决方案
查看>>
Linux下无连接的套接字通信C实现
查看>>
ipv6
查看>>
CCNA入门---交换机端口安全的四种行为
查看>>
获取当前时间的时分秒
查看>>
mysql5.6源码拷贝不编译安装
查看>>
centos7 安装iftop
查看>>
CISCO之BGP配置
查看>>
python ConfigParser 模块
查看>>
如何通过Word 2010发布文章到博客
查看>>
JVM监控和查看
查看>>
$.ajax与$.post,$.get的区别
查看>>
Java开发者易犯错误Top10
查看>>
Xcode快捷键整理(陆续添加中)
查看>>
分布式系统的事务处理
查看>>
VC 双缓存技术+滚动条
查看>>
strtol详解
查看>>