在进行AWS Glue作业时,可能会遇到“No log4j-web module available”错误。这是由于缺少必需的log4j-web模块导致的。为了解决这个问题,需要在AWS Glue作业启动脚本中添加以下代码:
packages=["org.apache.logging.log4j:log4j-web:2.0"]
# 替换自己的Glue作业名称
job_name = 'replace-with-your-job-name'
from awsglue.utils import getResolvedOptions
args = getResolvedOptions(sys.argv, ['JOB_NAME'])
from pyspark.sql import SparkSession
from awsglue.context import GlueContext
spark = SparkSession.builder.config('spark.debug.maxToStringFields', '100').appName(args['JOB_NAME']).getOrCreate()
glueContext = GlueContext(spark.sparkContext)
# 添加以下命令
sc = spark.sparkContext
for package in packages:
sc._jvm.org.apache.spark.sql.SQLContext().sparkSession().sparkContext().addJar("s3://path/log4j-web-2.0.jar")
job = Job(glueContext)
job.init(job_name, args)
在上面的代码中,我们将log4j-web包添加到SparkContext JAR路径中。确保将s3://path/log4j-web-2.0.jar
替换为您自己的log4j-web包的S3路径。通过将该代码添加到Glue作业的启动脚本中,我们应该能够成功地运行我们的AWS Glue作业。