spark从oracle导入数据到hive

spark | 2019-09-13 10:12:05

大概步骤：

连接oracle，创建一个dataframe用来接收从oracle里面读取的数据。
将dataframe的数据写入临时表。
用hiveContext.sql语句将数据写入hive里面。

这个程序其实对于学了spark的人来说很简单，直接上代码吧：

package com.ctbri.cgs.oracle2Hive
    
    import org.apache.spark.sql.SparkSession
    import org.apache.spark.sql.types._
    import java.util.Properties
    import scala.collection.mutable.ArrayBuffer
    import org.apache.spark.sql.functions._
    
    object App {
      
      def main(args: Array[String]):Unit = {
      		//创建一个sparkcontext对象，用enableHiveSupport获取了对HIVE的支持
            val spark = SparkSession
            .builder()
            .appName("Oracle2Hive")
            .master("local")
            .config("spark.port.maxRetries","128")
            .config("spark.sql.parquet.writeLegacyFormat",true)
            .enableHiveSupport()
            .getOrCreate()
    
            //连接oracle
            val jdbcDF = spark.read.format("jdbc").options(
            Map(
            "driver" -> "oracle.jdbc.driver.OracleDriver",
            "url" -> "url路径",
            "user" -> "username",
            "password" -> "password",
            "dbtable" -> "要导出的数据表名"
            )).load()
       
            //需要转换的列名
            val colName = ArrayBuffer[String]()
            val schema = jdbcDF.schema.foreach(s => {
              if (s.dataType.equals(DecimalType(38, 10)) || s.dataType.equals(DecimalType(4, 0))) {
                colName += s.name
              }
            })
            
            //字段类型转换
            var df_int = jdbcDF
            colName.foreach(name => {
              df_int = df_int.withColumn(name, col(name).cast(IntegerType))
            })
           
            //创建临时表 
            jdbcDF.createOrReplaceTempView("records")
           
            spark.sql("use 库名")
            spark.sql("set hive.exec.dynamic.partition.mode=nonstrict")
            jdbcDF.write.mode("overwrite").saveAsTable("表名")
            }
    }

其中需要注意的就是，我第一次写的时候，没有进行字段类型的转换，导致数据可以导入，在hive里面也可以查看表属性，但是无法查出具体数据，原因就是spark导入的时候，将oracle的number类型转换成了decimal类型，导致无法查看，其他诸如data，char等都是成功的，进行一下类型转换就可以了。

登录后即可回复登录 | 注册

admin

和spark读取mysql一样的

解决spark hive插入数据异常spark currently does not populate bucketed output jdbc连接hive spark thriftserver异常unable to move source java jdbc通过spark连接hive 异常required field client protocol is unset spark hive 异常version information not found in metastore spark dataframe数据集计算案例聚合分组排序统计合并 hive on spark环境搭建官方源码编译方式 hive on spark异常failed to create spark client for spark session解决过程 hive on spark parquetdecodingexception 异常解决 java连接hive数据仓库 hive on spark集群环境搭建 linux hadoop、hbase、hive、spark大数据分布式集群环境搭建 spark jdbc分区读取数据到rdd的方式 hive 数据跨集群复制迁移 hive 数据导入导出（export import）spark从oracle导入数据到hive 如何解决spark hive 权限不够的问题 spark2.3.0 操作 phoenix4.7 hbase1.1.2 数据 spark读取kafka数据 createstream和createdirectstream的区别 spark hive 异常 could not connect to meta store using any of the uris provided php oci8 函数返回字段的原始 oracle 数据类型

spark从oracle导入数据到hive

admin