spark map操作实现join案例代码

spark | 2019-09-13 10:02:39

经过大量的实验，如果代码中有太多的join,会导致耗时无限长，因为会导致shuffle操作，降低性能。我就是join太多导致了卡死。

那么我们就需要使用mapPartitions和map来遍历操作来实现join，省掉shuffle。

案例代码：

//如果两个rdd遇到字段值相同，那么就连接
var subjectScoreDf:Dataset[Row]
var subjectTotalScoreDfExtend:Dataset[Row]
var subjectTotalScoreDfExtendBc=subjectTotalScoreDfExtend.sparkSession.sparkContext.broadcast(subjectTotalScoreDfExtend)
var subjectScoreFields=subjectScoreDf.columns.toSeq
var subjectScoreModelFields=subjectScoreFields++subjectTotalScoreExtendColumn.toSeq
var TMPsubjectScoreDf=subjectScoreDf.mapPartitions({ iter =>
  val subjectTotalScoreDfExtendRows = subjectTotalScoreDfExtendBc.value
  iter.map(row => {
var subjectTotalScoreRow:Row=null
for(bcRow:Row <- subjectTotalScoreDfExtendRows){
  var subjectTotalScoreStudentId=bcRow.getAs("STUDENT_ID").asInstanceOf[String]
  var subjectScoreStudentId=row.getAs("STUDENT_ID").asInstanceOf[String]
  if(subjectTotalScoreStudentId==subjectScoreStudentId){
subjectTotalScoreRow=bcRow
break
  }
}
//可以获取所有值拼接成字符串返回
//var res=row.getValuesMap(subjectScoreFields).values.toSeq
(row.getString("name"),bcRow.getString("age"))
  })
})
//转回 dataframe
TMPsubjectScoreDf.toDF(subjectScoreModelFields:_*)

注：map是由返回值组成了新的rdd,返回值是tuple元祖，tuple是不能改变长度的，也就是你新生产的rdd的列是定死的，当然你也可以返回字符串。

登录后即可回复登录 | 注册

spark streaming 并发实现多线程并行处理任务 spark map操作实现join案例代码 java beanutils实现map和bean的相互转换 spark dataset 实现自增id序列号的方法解决spark大量多次join计算导致的内存溢出 spark操作hive orc transactional事务表异常 spark on yarn 各种操作命令介绍 spark操作mongodb异常 cannot cast bsonvalue spark sql 实现 group concat分组拼接列值 spark实现 join 操作的方式 spark map side join详解 spark2.3.0 操作 phoenix4.7 hbase1.1.2 数据 spark操作hive分区表 spark操作hive分区表源码bug排查 map callback jquery mysql如何优化left join和right join java直接操作chrome谷歌浏览器实现网页爬虫 spark scala map转 rdd 转 dataframe spark sql join表链接 left leftjoin leftouter leftsemi leftanti区别 spark pivot透视操作（转横表）