spark sql累积求和 accumulative sum

spark | 2021-05-13 09:44:47

累积求和之前都会用map一个个累加，后来有用map求和的方式spark自定义函数udf案例。居然还有纯sql的方式。我是没想到这样也可以呀

根据salary分别计算各个role的移动累加值：

val cumSum = sampleData.withColumn("cumulativeSum", sum(sampleData("Salary"))
             .over( Window.partitionBy("Role").orderBy("Salary")))

求和的同时根据salary排序就能得到累加值

scala> cumSum.show
+------+---------+------+-------------+                                         
|  Name|     Role|Salary|cumulativeSum|
+------+---------+------+-------------+
| simon|Developer| 98000|        98000|
|  mark|Developer|108000|       206000|
| henry|Developer|110000|       316000|
|   bob|Developer|125000|       441000|
|  eric|Developer|144000|       585000|
| peter|Developer|185000|       770000|
|   jon|   Tester| 65000|        65000|
|  carl|   Tester| 70000|       135000|
|carlos|   Tester| 75000|       210000|
| roman|   Tester| 82000|       292000|
+------+---------+------+-------------+

登录后即可回复登录 | 注册

jdbc连接hive spark thriftserver异常unable to move source spark异常 could not locate executable null bin winutils.exe in the hadoop binaries spark计算原理和流程 spark sql判断一个字段是否包含另一个字段的字符串 spark sql concat ws collect set collect list 字段值拼接 spark sql 实现 group concat分组拼接列值 spark 开发常见异常处理 spark 程序执行慢卡住之shuffle优化 spark sql内置日期时间函数 spark 数据倾斜分析及 shuffle性能优化方案 php ibm db2 函数 executes a prepared sql statement php maxdb 函数 prepare an sql statement for execution php sqlite 函数 register an aggregating udf for use in sql statements php pdo 执行一条 sql 语句，并返回受影响的行数 php 数据库安全 sql 注入 spark解决No implicits found for parameter evidence$6: Encoder spark sql join表链接 left leftjoin leftouter leftsemi leftanti区别 spark sql字段类型MapType和ArrayType spark正则表达式提取字符串内容案例 spark sql累积求和 accumulative sum