spark sql判断一个字段是否包含另一个字段的字符串

spark | 2019-09-13 10:02:39

我的场景是要判断字符串 a字段是否包含另一个b字段，如果包含新字段的值就是1，否则就是0

instr函数

找了半天才找到 api org.apache.spark.sql.functions中有一个instr函数

/**
   * Locate the position of the first occurrence of substr column in the given string.
   *返回提供的字符串在字段中第一次出现的位置
   * Returns null if either of the arguments are null.
   *如果参数是null,就返回null
   *
   * @note The position is not zero based, but 1 based index. Returns 0 if substr
   *注意开始值不是从0开始，而是从1开始，如果不存在字符串就返回0
   * could not be found in str.
   *
   * @group string_funcs
   * @since 1.5.0
   */
  def instr(str: Column, substring: String): Column = withExpr {
    StringInstr(str.expr, lit(substring).expr)
  }

注意：虽然第二个参数只能传入字符串而不是column,但看方法的实现，第二个参数调用了lit .expr,和第一个参数一样也是会被转成column的

看一下lit这个函数的实现

 /**
   * Creates a [[Column]] of literal value.
   *根据字符创建column
   *
   * The passed in object is returned directly if it is already a [[Column]].
   *如果传入的是已经存在的字段那就返回改字段
   * If the object is a Scala Symbol, it is converted into a [[Column]] also.
   *如果是scala变量，也转成字段
   * Otherwise, a new [[Column]] is created to represent the literal value.
   *否则就创建一个新字段
   *
   * @group normal_funcs
   * @since 1.3.0
   */
  def lit(literal: Any): Column = typedLit(literal)

我的写法

新增字段判断一个字段是否包含另一个字段的字符串，如果包含值为1否则是0

Df.withColumn("newColumn",when(instr($"aColumn","bColumn")===0,0).otherwise(1))

当然我喜欢编码的方式，你也可以用sql的方式。

登录后即可回复登录 | 注册

java判断字符是否是中文的方法 mybatis xml sql 判断比较字符串作为条件的正确写法 spark sql判断一个字段是否包含另一个字段的字符串 spark sql concat ws collect set collect list 字段值拼接 spark sql内置日期时间函数 php 字符串函数函数把包含数据的二进制字符串转换为十六进制值 php bzip2 函数返回包含 bzip2 错误号和错误字符串的一个 array php ctype 函数检测字符串是否只包含十六进制字符 php 文件系统函数判断给定的文件名是否可写 php 多字节字符串函数检查字符串在指定的编码里是否有效 php mysql 函数转义 sql 语句中使用的字符串中的特殊字符，并考虑到连接的当前字符集 php oci8 函数检查字段是否为 null php reflectionfunctionabstract 判断函数是否是一个生成器函数 php reflectionfunctionabstract 判断函数是否是内置函数 php reflectionmethod 判断方法是否是抽象方法 php reflectionmethod 判断方法是否是构造方法 php reflectionmethod 判断方法是否是析构方法 spark sql join表链接 left leftjoin leftouter leftsemi leftanti区别 spark sql字段类型MapType和ArrayType spark sql累积求和 accumulative sum