使用Apache Spark SQL的GroupBy和Max函数来筛选数据的解决方法如下:
from pyspark.sql import SparkSession
from pyspark.sql.functions import col, max
spark = SparkSession.builder.appName("SparkSQLGroupByMax").getOrCreate()
df = spark.read.csv("path/to/data.csv", header=True, inferSchema=True)
df_grouped = df.groupBy("group").agg(max("value").alias("max_value"))
df_grouped.show()
完整的示例代码如下:
from pyspark.sql import SparkSession
from pyspark.sql.functions import col, max
spark = SparkSession.builder.appName("SparkSQLGroupByMax").getOrCreate()
df = spark.read.csv("path/to/data.csv", header=True, inferSchema=True)
df_grouped = df.groupBy("group").agg(max("value").alias("max_value"))
df_grouped.show()
请确保将"path/to/data.csv"替换为实际的数据源文件路径,并根据实际情况调整列名。