在Airflow中,使用GoogleCloudStorageToS3Operator
将Google Cloud Storage中的对象复制到Amazon S3时,可能会遇到“ListObjectsV2操作: 访问被拒绝”错误。这个错误通常是由于权限配置不正确导致的。以下是解决方法的代码示例:
from airflow import DAG
from airflow.contrib.operators.gcs_to_s3 import GoogleCloudStorageToS3Operator
from datetime import datetime
default_args = {
'owner': 'airflow',
'start_date': datetime(2022, 1, 1),
# 添加其他默认参数
}
with DAG('gcs_to_s3_dag', default_args=default_args, schedule_interval='@daily') as dag:
gcs_to_s3_task = GoogleCloudStorageToS3Operator(
task_id='gcs_to_s3',
google_cloud_storage_conn_id='google_cloud_storage_default',
aws_conn_id='aws_default',
dest_aws_conn_id='aws_default', # 将目标AWS连接ID设置为相同的连接ID
dest_bucket_key='s3://your-destination-bucket',
src_bucket='your-source-bucket',
src_prefix='your-source-prefix',
replace=True,
gzip=False
)
在上面的代码中,我们需要确保以下几点:
google_cloud_storage_default
和aws_default
连接的正确配置。可以在Airflow的Web UI中的Admin -> Connections页面中进行配置。dest_aws_conn_id
设置为与aws_conn_id
相同的值,这是由于GoogleCloudStorageToS3Operator
在复制操作期间使用了两个AWS连接。希望这可以帮助你解决“ListObjectsV2操作: 访问被拒绝”错误。请根据你的实际情况修改示例代码中的连接ID和存储桶信息。