数据仓库如何分层
DW :data warehouse 翻译成数据仓库 使用hive作为数据仓库中的数据存储一般都是首选,数据仓库分层是指计算和存储共同的分层。 1.为什么要分层 为了不同的业务 ,也为了解耦
spark mongo Cannot cast null into a StringType
1.问题场景 df.write .format("com.mongodb.spark.sql") .mode("overwrite") .option("uri
maven shade assembly插件打包区别
今天遇到一个问题,maven项目里面配置的使用assembly插件打包,我在项目中使用同包名类名的方式覆盖依赖jar中的类,但就是自己项目的类打包不进去,改为shade就i一下就可以了,所以我想研究s
已有spark集群集成使用tispark案例
spark已有集群集成使用tispark操作tidb案例 spark和tidb的集群方式有两种,一种是完全分离,一种是spark节点和tikv节点对应安装在一起,在官方看来这会加快数据加载时间(但效
spark写入mongo 按多维度提取分层json
spark的rdd是一个二维表,二维表可以直接写入mongo,但mongo可以更灵活方便,可以存储分层结构的json类型数据。 比如 def toJsonRdd(df:DataFra
mongo常用查询命令持续笔记
mongoDb常用查询命令持续学习笔记 1.group分组统计 db.getCollection('full_score').aggregate([ {"$group" : {_id:"
linux常用命令持续笔记
#进入docker命令行 docker exec -it CONTAINER_ID sh #退出docker命令行 Ctrl+p+q # 查看有哪些进程连接了指定的端口 [root@loc
spark sql字段类型MapType和ArrayType
1.ArrayType 之前使用spark读取mongo解决嵌套数据有用到ArrayType的案例 读取mongo嵌套 val schema = StructType( A
spark sql join表链接 left leftjoin leftouter leftsemi leftanti区别
为了测试先初始化student和score这两个dataframe var score = Seq( ("student1", "001", "quest1",10), ("student
spark集群大量端口占用-BindException: Address already in use
1.异常信息 之前提交spark任务都很正常,但是最近老是执行spark任务失败:BindException: Address already in use spark ui 显示 异常信息
kafka彻底删除topic
1.查看topic命令 ./bin/kafka-topics --zookeeper 【zookeeper server】 --list 查看所有topic 2.Kafka 删除top
linux设置环境变量的文件位置和区别
1.linux环境变量起因 之所以要研究记录一下,是因为今天在/etc/profile配置java环境变量了,再次登录,环境变量就不起效了,必须再次source /etc/profile。那么lin
google guava LoadingCache本地缓存使用方法
1.需求场景 如果你要做跨系统全局缓存,高可用又性能高,存储量还大当然有memcache,redis首选,其次要求没那么高还有oscache,ehcache也可以单机使用。 但是如果只想单机简单快
spark hive Can not create the managed table('`xxx`'). The associated location('xxx') already exists
异常信息: spark计算写hive表时出现异常 Exception in thread "main" org.apache.spark.sql.AnalysisException: Can n
spark scala map转 rdd 转 dataframe
spark scala map转 rdd 然后转 dataframe的方法,主要用到seq的toDF方法 var subjectScoreLevelDetail:Seq[Map[Strin