在读取 Blob 存储的数据时,指定日期格式,并将其转换为日期类型。
例如,在 Scala 中,可以使用如下代码解决该问题:
import java.text.SimpleDateFormat
import java.util.Locale
val dateFormat = new SimpleDateFormat("dd/MMM/yyyy:HH:mm:ss Z", Locale.ENGLISH)
val df = spark.read.format("csv").option("header", "true").option("delimiter", ";")
.option("inferSchema", "true").load("wasbs://container@account.blob.core.windows.net/path/*.csv")
.withColumn("date_column", to_utc_timestamp(to_timestamp($"date_column", dateFormat.format($"date_column")), "GMT"))
其中,dateFormat 指定日期格式,to_utc_timestamp 和 to_timestamp 函数将日期字符串转换为日期类型,通过 withColumn 将新的日期列添加到 DataFrame 中。