AWS Glue Python作业在写入S3桶时的数据量限制是由作业使用到的Spark引擎决定的。如果Spark作业在写入S3时会出现数据量限制,则可以通过在作业定义中添加以下配置参数来解决该问题:
job.commit(SparkConf().set("spark.sql.parquet.recordLevelFilter.enabled", "false"))
这将禁用Parquet文件记录级过滤器。如果仍然无法解决该问题,则可以使用AWS CLI或AWS SDK for Python等工具将大型数据集写入S3分片。