spark 读取Phoenix hbase table表到 DataFrame的方式_编程学问网

spark 读取Phoenix hbase table表到 DataFrame的方式

hbase | 2019-09-13 10:02:39

spark 读取Phoenix hbase table表到 RDD, DataFrame有通用spark读取mysql的方式，也有Phoenix自有的方式。

首先maven添加依赖

<dependency>
  <groupId>org.apache.phoenix</groupId>
  <artifactId>phoenix-spark</artifactId>
  <version>${phoenix.version}</version>
  <scope>provided</scope>
</dependency>

方式一：spark read读取各数据库的通用方式

spark.read.format("org.apache.phoenix.spark").option("table","subject_score").option("zkUrl","master,slave1,slave2,slave3,slave4").load

方式二：spark.load (此方法已标记删除)

val df = sqlContext.load(
  "org.apache.phoenix.spark",
  Map("table" -> "TABLE1", "zkUrl" -> "phoenix-server:2181")
)

方式三：phoenixTableAsDataFrame（需要指定列名,留空就可以不指定列名）

val configuration = new Configuration()
// Can set Phoenix-specific settings, requires 'hbase.zookeeper.quorum'
val sc = new SparkContext("local", "phoenix-test")
val sqlContext = new SQLContext(sc)
// Load the columns 'ID' and 'COL1' from TABLE1 as a DataFrame
val df = sqlContext.phoenixTableAsDataFrame(
  "TABLE1", Array("ID", "COL1"), conf = configuration
)

方式四：phoenixTableAsRDD （需要指定列名,留空就可以不指定列名）

val sc = new SparkContext("local", "phoenix-test")
// Load the columns 'ID' and 'COL1' from TABLE1 as an RDD
val rdd: RDD[Map[String, AnyRef]] = sc.phoenixTableAsRDD(
  "TABLE1", Seq("ID", "COL1"), zkUrl = Some("phoenix-server:2181")
)

登录后即可回复登录 | 注册

相关文章

spark读取phoenix hbase table表数据到dataframe的三种方式比较 hbase phoenix整合mybatis druiddatasource java jdbc访问hbase phoenix spark 读取phoenix hbase table表到 dataframe的方式 linux hadoop、hbase、hive、spark大数据分布式集群环境搭建 hadoop hbase phoenix 大数据集群环境安装配置 hadoop hbase phoenix jdk 版本支持对应解决spark shell 写入hbase 异常job in state define instead of running spark rdd写入数据到hbase nullpointerexception异常在spark中创建hbase表 spark dataset读写 hbase 案例代码 spark读取hbase到rdd并转换为dataset 案例 spark2.3.0 操作 phoenix4.7 hbase1.1.2 数据 spark streaming 读取kafka案例代码 spark读取kafka数据 createstream和createdirectstream的区别 java连接phoenix hbase 超时的问题 java jdbc连接phoenix hbase异常clientpath null serverpath null finished false 解决spark读取数据库tikv乱码 spark hive Can not create the managed table('`xxx`'). The associated location('xxx') already exists spark解决OutOfMemoryError: Not enough memory to build and broadcast the table to all worker nodes

关注编程学问公众号