Spark 中几个 join 算子

Spark 中和 join 相关的算子有这几个:joinfullOuterJoinleftOuterJoinrightOuterJoin

这几种 join 算子和 sql 中的 join 类似,join 相当于内连接,fullOuterJoin 相当于全连接,leftOuterJoin 相当于左连接,rightOuterJoin 相当于右连接。

分别解释下这几种连接在 sql 中的含义,spark 中类推:

  1. 内连接:如果表中有至少一个匹配,则返回行。
  2. 左连接:即使右表中没有匹配,也从左表返回所有的行。
  3. 右连接:即使左表中没有匹配,也从右表返回所有的行。
  4. 全连接:只要其中一个表中存在匹配,则返回行。

直观点看图:

sql join 图解