比较两个数据框的Spark Scala行和行，并获取差异_编程开发

比较两个数据框的Spark Scala行和行，并获取差异

创始人

2024-12-14 11:31:41

0次

要比较两个数据框的行和行，并获取差异，可以使用Spark的DataFrame API和Scala编程语言来实现。以下是一个示例代码，演示了如何实现此功能：

import org.apache.spark.sql.{DataFrame, SparkSession}
import org.apache.spark.sql.functions._

object CompareDataFrames {
  def main(args: Array[String]): Unit = {
    val spark = SparkSession.builder()
      .appName("CompareDataFrames")
      .master("local")
      .getOrCreate()

    // 创建第一个数据框
    val df1 = spark.createDataFrame(Seq(
      ("Alice", 25),
      ("Bob", 30),
      ("Charlie", 35)
    )).toDF("name", "age")

    // 创建第二个数据框
    val df2 = spark.createDataFrame(Seq(
      ("Alice", 25),
      ("Bob", 35),
      ("Dave", 40)
    )).toDF("name", "age")

    // 比较两个数据框的行和行，并获取差异
    val diff = df1.except(df2)
      .union(df2.except(df1))

    diff.show()
  }
}

在上述示例代码中，首先创建了两个数据框df1和df2，它们具有相同的模式（即列名和数据类型）。然后，使用except函数比较两个数据框的行，并获取差异。最后，使用union函数将差异行组合在一起，并使用show函数显示结果。

该示例代码的输出将为：

+-------+---+
|   name|age|
+-------+---+
|    Bob| 30|
|Charlie| 35|
|   Dave| 40|
+-------+---+

这是两个数据框之间的差异行。行"Bob"和"Charlie"在两个数据框中都存在，但年龄不同。行"Dave"只在第二个数据框中存在。

上一篇：比较两个数据框的列，并在一个数据框中添加一个新列，如果单元格数据匹配，则添加“是”或“否”。

下一篇：比较两个数据框列表中的列名。

比较两个数据框的Spark Scala行和行，并获取差异

相关内容

热门资讯