AWS Glue Job - 将Glue目录表名作为参数传递_编程开发

AWS Glue Job - 将Glue目录表名作为参数传递

创始人

2024-11-16 05:01:13

0次

要将Glue目录表名作为参数传递给AWS Glue Job，您可以使用以下代码示例：

创建一个Python脚本，例如glue_job.py：

import sys
import boto3

def main(argv):
    # 获取Glue目录表名参数
    table_name = argv[0]
    
    # 创建Glue客户端
    glue_client = boto3.client('glue')
    
    # 获取当前Job的名称
    job_name = argv[1]
    
    try:
        # 获取Job的详细信息
        response = glue_client.get_job(JobName=job_name)
        
        # 更新Job的命令参数
        response['Job']['Command']['ScriptLocation'] = 's3://my-bucket/my-script.py'
        response['Job']['Command']['PythonVersion'] = '3'
        
        # 更新Job的连接参数
        response['Job']['Connections']['Connections'][0]['ConnectionName'] = 'my-connection'
        
        # 更新Job的脚本参数
        response['Job']['DefaultArguments']['--table-name'] = table_name
        
        # 更新Job
        glue_client.update_job(JobName=job_name, JobUpdate=response['Job'])
        
        print('Job updated successfully.')
        
    except Exception as e:
        print('Error updating job: {}'.format(str(e)))

if __name__ == '__main__':
    main(sys.argv[1:])

在AWS Glue控制台中创建一个Glue Job，并将脚本位置设置为上述Python脚本的S3路径。
在Glue Job的脚本参数中添加一个参数，例如--table-name。
在Glue Job的命令参数中添加以下参数：

--additional-python-modules "boto3==1.17.17"

这将确保存在所需的boto3库。

将上述Python脚本上传到S3存储桶中。
在AWS Glue控制台中运行该Job，并在脚本参数中为--table-name参数提供Glue目录表名。

这样，Glue Job将使用脚本参数中提供的Glue目录表名来更新Job的脚本参数。

上一篇：AWS Glue 将动态 DataFrame 转换为 Spark 时出现错误。

下一篇：AWS Glue Job - 无法将转换后的Glue数据传递给Lambda函数

AWS Glue Job - 将Glue目录表名作为参数传递

相关内容

热门资讯