Airflow动态生成的任务(如使用循环生成)可能由于并行度等原因无法按照函数调用顺序执行。为了解决这个问题,我们可以使用任务依赖性来控制任务顺序。 代码示例:
from airflow.operators.python_operator import PythonOperator
def create_tasks(parent_dag, num_tasks): tasks = [] # 动态生成 num_tasks 个任务,添加到 parent_dag 中 for i in range(num_tasks): task_id = f"task_{i}" task = PythonOperator( task_id=task_id, python_callable=lambda: print(f"Running task {task_id}"), dag=parent_dag ) tasks.append(task) # 连接上一任务和当前任务 if i > 0: tasks[i-1] >> task return tasks
from airflow import DAG from datetime import datetime
default_args = { 'start_date': datetime(2022, 1, 1), 'owner': 'airflow', 'retries': 1, } with DAG( dag_id='my_dag', default_args=default_args, schedule_interval='@daily', ) as dag: tasks = create_tasks(dag, 5)
# 设置最后一个任务为结束任务
tasks[-1] >> 'end'
上述代码中,我们使用了 PythonOperator 来创建任务,并为每个任务添加了 task_id 和 lambda 表达式的 python_callable 参数。然后,我们将所有的任务都添加到了 parent_dag 中,并使用任务依赖性将它们连接起来,其中第 i 个任务连接上一任务和当前任务,即 tasks[i-1] >> task。最后,我们设置了最后一个任务为结束任务并连接到了 DAG 的末尾,即 tasks[-1] >> "end"。这样就可以确保任务按顺序执行,结束后再执行 end 任务。