Airflow 中的 BranchPythonOperator 可以在 DAG 中的流程控制中实现基于某些条件的分支和合并。常见的应用场景是根据所得到的结果、状态或时间点等条件,决定下一步的操作。
但是在这些分支和合并中,可能会存在一些必须执行的任务,也就是说无论条件是什么,这些任务都必须执行。这时候就需要使用 Trigger Rule 强制任务执行。
针对 BranchPythonOperator,可以使用以下代码来实现在分支中指定必须执行的任务:
from airflow.operators.python_operator import BranchPythonOperator
from airflow.utils.trigger_rule import TriggerRule
def should_task_execute(**kwargs):
# 判断是否需要执行该任务
if True:
return "my_task"
else:
return "skip_task"
my_task = DummyOperator(
task_id='my_task',
dag=dag
)
skip_task = DummyOperator(
task_id='skip_task',
dag=dag,
trigger_rule=TriggerRule.ALL_DONE
)
branching = BranchPythonOperator(
task_id='branching',
provide_context=True,
python_callable=should_task_execute,
dag=dag
)
branching >> my_task
branching >> skip_task
上述代码中,我们首先定义了一个 should_task_execute 函数来判断指定任务是否需要执行。这个函数最后返回了任务 id,然后在 BranchPythonOperator 中调用这个函数。
在 BranchPythonOperator 的调用中,我们传入了 provide_context=True 参数,以便在 python_callable 函数中可以使用 context 传递参数。在这个函数中,我们判断是否需要执行 my_task,如果需要,返回 my_task 的 task_id,如果不需要,返回 skip_task 的 task_id。
在 my_task 和 skip_task 中,我们使用了 TriggerRule.ALL_DONE 强制执行这些任务,即使这些任务所依赖的其他任务还没有执行完成。
这样就可以实现
上一篇:Airflow并行性不扩展。