spark内存优化之GC优化

spark | 2019-09-13 10:02:39

Spark中,堆内存又被划分成了两块,一块是专门用来给RDD的cache,persist操作进行RDD缓存用的,另一块就是用来给Spark算子函数用的,存放函数中自己创建的对象

默认情况下,给RDD的cache操作的内存占比是0.6,即百分之六十的内存用来给RDD做缓存用,但其实RDD并不需要这么大的内存,我们可以通过查看每个stage中每个task运行的时间,GC时间等来判断是否发生了频繁的minorGC和fullGC,从而来调低这个比例

调节方法

spark.storage.memoryFraction，0.6 -> 0.5 -> 0.4 -> 0.2

Ececutor堆外内存

当Spark处理超大数据量时(数十亿,百亿级别),executor的堆外内存可能会不够用,出现shuffle file can’t find, task lost,OOM等情况

默认情况下,这个堆外内存是300M,当运行超大数据量时,通常会出现问题,因此需要调节到1G,2G,4G等大小

调节方法必须在spark-submit提交脚本中设置而不能在程序中设置

--conf spark.yarn.executor.memoryOverhead=2048

GC引起的连接等待时长

Spark在处理超大数据量时,task可能会创建很大很多的对象,频繁的让JVM内存溢满,导致频繁GC,而前面提到过executor获取数据优先的从本地关联的blockmanager获取,如果没有的话,会通过transferService去远程连接其他executor的blockmanager,如果正好碰到那个executor垃圾回收,那么程序就会卡住,spark默认网络连接时长是60s,当超过60s没有获取到数据,则直接宣告任务失败,也有可能DAGscheduler反复提交几次stage,TaskScheduler反复提交task,则会大大影响spark运行速度,所以可以考虑适当调节等待时长

调节方式同调节堆外内存一样,必须在提交spark程序的脚本中设置

--conf spark.core.connection.ack.wait.timeout=300

登录后即可回复登录 | 注册

spark on yarn参数优化配置解决spark大量多次join计算导致的内存溢出 spark savemode数据源写入模式 mysql in和not in查询速度优化方法 spark 数据倾斜导致的内存溢出 spark内存优化之gc优化 spark性能优化总结 spark submit 性能参数优化配置 spark读写数据库大表分区性能优化 linux hadoop spark环境搭建 spark性能优化基础方法 spark streaming kafka 开发案例与环境配置 spark常见内存溢出oom问题解决及内存优化方法 spark gc 垃圾回收优化 spark rdd 遍历分区输出分区内容 spark 程序执行慢卡住之shuffle优化 spark sql内置日期时间函数 spark 数据倾斜分析及 shuffle性能优化方案 spark知识培训记录文档 spark mongo Cannot cast null into a StringType