在使用窗口操作的时候要注意数据可能会被重组,导致顺序不确定。可以使用orderBy操作或者sortWithinPartitions操作,将数据按照指定的顺序进行排序,再进行窗口操作。示例代码如下:
val df = Seq( ("Alice", 1), ("Bob", 2), ("Charlie", 3), ("Dave", 4), ("Eva", 5), ("Frank", 6), ("George", 7), ("Hugo", 8), ("Ivan", 9), ("Jack", 10) ).toDF("name", "value")
// 没有排序的窗口操作 df.select( $"name", avg($"value").over(Window.orderBy($"name")).as("avg") ).show()
// 按照name排序后的窗口操作 df.select( $"name", avg($"value").over(Window.orderBy($"name")).as("avg") ).orderBy($"name").show()