spark sql字段类型MapType和ArrayType

spark | 2021-03-08 16:44:31

1.ArrayType

之前使用spark读取mongo解决嵌套数据有用到ArrayType的案例

读取mongo嵌套

    val schema = StructType(
      Array(
        StructField("subjectiveList",
          ArrayType(StructType(Array(
            StructField("questionNo", StringType),StructField("score", DoubleType),StructField("isEffective", BooleanType)
            ,
            StructField("fastMark",
              ArrayType(StructType(Array(
                StructField("subQuestionNo", StringType),StructField("score", DoubleType)
              )))
            )
          )))
        ),
        StructField("studentId", StringType),
        StructField("classId", StringType)
      )
    )

    spark.read.format("com.mongodb.spark.sql")
      .schema(schema)
      .option("spark.mongodb.input.uri", mongoUri)
      .option("spark.mongodb.input.partitioner", "MongoSplitVectorPartitioner")
      .option("spark.mongodb.input.partitionerOptions.partitionSizeMB",32)
      .load()

提取嵌套数组到上层

Rdd.select((questionsRdd.schema.fieldNames.map(f=>{questionsRdd(f)}):+explode($"objectiveList").as("Info")):_*)
 .withColumn("no",objectiveQuestionRdd("Info")("questionNo"))

2.MapType

MapType简单例子

scala> import spark.implicits._
import spark.implicits._
scala> val ds = Seq(
     |   (1, Map("foo" -> (1, "a"), "bar" -> (2, "b"))),
     |   (2, Map("foo" -> (3, "c"))),
     |   (3, Map("bar" -> (4, "d")))
     | ).toDF("id", "alpha")
ds: org.apache.spark.sql.DataFrame = [id: int, alpha: map<string,struct<_1:int,_2:string>>]

scala> ds.printSchema
root
 |-- id: integer (nullable = false)
 |-- alpha: map (nullable = true)
 |    |-- key: string
 |    |-- value: struct (valueContainsNull = true)
 |    |    |-- _1: integer (nullable = false)
 |    |    |-- _2: string (nullable = true)


scala> ds.show()
+---+--------------------+
| id|               alpha|
+---+--------------------+
|  1|Map(foo -> [1,a],...|
|  2|   Map(foo -> [3,c])|
|  3|   Map(bar -> [4,d])|
+---+--------------------+


scala> ds.select($"alpha['bar']").show()
org.apache.spark.sql.AnalysisException: cannot resolve '`alpha['bar']`' given input columns: [id, alpha];;
'Project ['alpha['bar']]
+- Project [_1#62 AS id#65, _2#63 AS alpha#66]
   +- LocalRelation [_1#62, _2#63]

  ......

scala> ds.select($"alpha")("bar").show()
:38: error: value show is not a member of org.apache.spark.sql.Column
       ds.select($"alpha")("bar").show()
                                  ^

scala> ds.select($"alpha"("bar")).show()
+----------+
|alpha[bar]|
+----------+
|     [2,b]|
|      null|
|     [4,d]|
+----------+
scala> ds.select($"alpha"["bar"]).show()
:1: error: identifier expected but string literal found.
ds.select($"alpha"["bar"]).show()
                   ^
scala> ds.select($"alpha.bar").show()
+-----+
|  bar|
+-----+
|[2,b]|
| null|
|[4,d]|
+-----+

登录后即可回复登录 | 注册

spark row number rank dense rank percent rank排序排名函数解析 spark on yarn 错误exitcodeexception exitcode=13 spark中cache和persist的使用及存储级别 spark sql判断一个字段是否包含另一个字段的字符串 spark sql concat ws collect set collect list 字段值拼接 spark sql 实现 group concat分组拼接列值 spark rdd写入数据到hbase nullpointerexception异常 spark shuffle原理及参数调优 spark sql内置日期时间函数 spark操作hive分区表源码bug排查 mysql 复制从sql线程状态 php ibm db2 函数 returns a string containing the sqlstate returned by an sql statement php mssql 函数打开ms sql server链接 php 手册 sql 到 mongo 的对应表 php sqlite pdo registers an aggregating user defined function for use in sql statements spark配置日志级别的方式 spark sql join表链接 left leftjoin leftouter leftsemi leftanti区别 spark sql字段类型MapType和ArrayType spark解决OutOfMemoryError: Not enough memory to build and broadcast the table to all worker nodes spark sql累积求和 accumulative sum