要将一个字符串列拆分为一个新的整数数组列,可以使用AWS Glue和pySpark来实现。以下是一个示例代码:
from pyspark.context import SparkContext
from pyspark.sql.session import SparkSession
from pyspark.sql.functions import split, col
sc = SparkContext()
spark = SparkSession(sc)
# 创建一个包含字符串列的DataFrame
data = [("1,2,3",), ("4,5,6",), ("7,8,9",)]
df = spark.createDataFrame(data, ["string_column"])
# 使用split函数将字符串列拆分为一个新的数组列
df = df.withColumn("array_column", split(col("string_column"), ",").cast("array"))
# 显示结果
df.show()
运行以上代码,将输出以下结果:
+-------------+------------+
|string_column|array_column|
+-------------+------------+
| 1,2,3| [1, 2, 3]|
| 4,5,6| [4, 5, 6]|
| 7,8,9| [7, 8, 9]|
+-------------+------------+
在代码中,首先创建一个包含字符串列的DataFrame。然后,使用split函数将字符串列拆分为一个新的数组列,并将其转换为整数类型。最后,显示结果DataFrame。
注意:在运行代码之前,请确保已经安装了AWS Glue和pySpark,并且已经配置好了相关的环境。