spark sql字段类型MapType和ArrayType
1.ArrayType 之前使用spark读取mongo解决嵌套数据有用到ArrayType的案例 读取mongo嵌套 val schema = StructType( A
spark sql join表链接 left leftjoin leftouter leftsemi leftanti区别
为了测试先初始化student和score这两个dataframe var score = Seq( ("student1", "001", "quest1",10), ("student
spark集群大量端口占用-BindException: Address already in use
1.异常信息 之前提交spark任务都很正常,但是最近老是执行spark任务失败:BindException: Address already in use spark ui 显示 异常信息
kafka彻底删除topic
1.查看topic命令 ./bin/kafka-topics --zookeeper 【zookeeper server】 --list 查看所有topic 2.Kafka 删除top
linux设置环境变量的文件位置和区别
1.linux环境变量起因 之所以要研究记录一下,是因为今天在/etc/profile配置java环境变量了,再次登录,环境变量就不起效了,必须再次source /etc/profile。那么lin
google guava LoadingCache本地缓存使用方法
1.需求场景 如果你要做跨系统全局缓存,高可用又性能高,存储量还大当然有memcache,redis首选,其次要求没那么高还有oscache,ehcache也可以单机使用。 但是如果只想单机简单快
spark hive Can not create the managed table('`xxx`'). The associated location('xxx') already exists
异常信息: spark计算写hive表时出现异常 Exception in thread "main" org.apache.spark.sql.AnalysisException: Can n
spark scala map转 rdd 转 dataframe
spark scala map转 rdd 然后转 dataframe的方法,主要用到seq的toDF方法 var subjectScoreLevelDetail:Seq[Map[Strin
解决spark读取数据库tikv乱码
1.问题 遇到在cdh 的spark集群上使用tispark读取数据乱码,我本地调试不乱码,我在另外一个自己搭的集群上测试也不乱码,就是在cdh的这个集群上乱码 我就怀疑是这个cdh搭建的
docker pull 指定镜像源
1.docker查看镜像源 cat /etc/docker/daemon.json 2.docker拉取镜像 docker pull houyong/centos7:v1 3.do
R语言引擎读取mysql并进行计算分析
1.安装R环境 下载地址,下载后安装-选择生成桌面快捷图标-会生成R x64 和32位的图标。 2.编写代码 打开安装的R编辑器,这个默认编辑器不是很好用,R studio好用些,可以继续安装这
cdh 安装异常JDBC driver cannot be found
出错原因: 安装cdh所有需要使用mysql的地方都出错包括hive等 JDBC driver cannot be found. Unable to find the JDBC database
cdh安装异常bad incoming host name
1.案发现场 cloudera manager安装过程中,主机安装agent后,cloudera manager界面无法显示主机,查看server的日志报错如下: ERROR avro-servl
vue搭建项目入门教程-hello world
在windows搭建vue脚手架开发环境,并编写hello world入门教程。 1.下载安装nodejs Node.js 是一个基于 Chrome V8 引擎的 JavaScript 运行环境。
POI XWPFTable设置word表格固定列宽
POI XWPFTable设置表格固定列宽,列宽度不随内容改变。 默认情况下word表格列宽是随内容变动的,除非设置固定列宽。 下面看一下使用poi在代码里面怎么设置: 1.设置表格列宽
TCP协议端口状态说明
用netstat查看linux端口状态是日常操作,但真的知道端口各种状态的含义吗? 了解TCP协议端口的连接状态,对排除和定位网络或系统故障会有很大帮助,因此了解一下是有必要的: 一、LISTEN
spark配置日志级别的方式
因为Spark的日志级别默认为INFO(log4j.rootCategory=INFO, console),这样在运行程序的时候有很多我不需要的日志信息都打印出来了,看起来比较乱,比较烦,抓不住重点,
ImageIO.read()读取图片异常Unsupported Image Type_exception Unsupported Image Type
ImageIO.read 在读取某个图片的时候报错 : javax.imageio.IIOException: Unsupported Image Type_exception Unsupporte