解决方法中的代码示例:
确认作业配置:
是否输出到正确的S3位置:
"Outputs": [
{
"Name": "output",
"S3Output": {
"S3Uri": "s3://my-bucket/output/",
"Compression": "GZIP",
"PartitionKeys": [
"date"
]
}
}
]
确认作业脚本:
作业脚本中是否正确填写S3 URI:
df.write.format('parquet').mode('overwrite').save('s3://my-bucket/output/')
确认权限:
IAM角色或策略是否有将数据写入S3的权限。
确认数据源:
数据是否具有预期的内容和格式。
确认模式:
确保作业输入和输出数据的模式在预期范围内。
input_dyf = glueContext.create_dynamic_frame.from_catalog(database=DATABASE_NAME, table_name=TABLE_NAME, transformation_ctx="input_dyf", format="parquet")
input_schema = input_dyf.schema()
output_dyf = glueContext.write_dynamic_frame.from_options(
frame = input_dyf,
connection_type = "s3",
connection_options = {
"path": S3_OUTPUT_DIR
},
format = "parquet",
transformation_ctx = "output