在 AWS Glue Job 中使用 Inner Join,可以使用 Dataframe API 或 Spark SQL 语法。以下是两种语法的代码示例:
from pyspark.sql.functions import *
from pyspark.sql.types import *
# 读取两个数据源的数据
df1 = spark.read.format("json").load("s3://path/to/dataset1/")
df2 = spark.read.format("json").load("s3://path/to/dataset2/")
# 设定 join 条件
join_cond = [df1["id"] == df2["id"]]
# 使用 Inner Join 进行 join 操作
join_df = df1.join(df2, join_cond, "inner")
# 展示 join 后的 dataframe
join_df.show()
from pyspark.sql.functions import *
from pyspark.sql.types import *
# 读取两个数据源的数据
df1 = spark.read.format("json").load("s3://path/to/dataset1/")
df2 = spark.read.format("json").load("s3://path/to/dataset2/")
# 将两个 dataframe 注册为临时表
df1.createOrReplaceTempView("table1")
df2.createOrReplaceTempView("table2")
# 使用 Inner Join 进行 join 操作
join_df = spark.sql("""SELECT * FROM table1
INNER JOIN table2
ON table1.id = table2.id""")
# 展示 join 后的 dataframe
join_df.show()