在 Airflow 的 DAG 中,可以通过 schedule_interval
来为 DAG 定义执行频率。默认情况下,该参数的值为 None
,表示 DAG 不会被周期性地执行。如果需要周期性地执行 DAG,需要设置 schedule_interval
参数的值。
为了正确地定义 DAG 的执行时间,需要了解 Airflow 中的调度器。Airflow 的调度器是基于 UTC 时间的。因此,需要将本地时间转换为 UTC 时间来正确地定义执行时间。
以下是一个将 DAG 每天凌晨 1 点执行的代码示例:
from datetime import datetime, timedelta
from airflow import DAG
from airflow.operators.dummy_operator import DummyOperator
# 定义 DAG
dag = DAG(
'my_dag',
schedule_interval=timedelta(days=1), # 每天执行一次
start_date=datetime(2022, 1, 1), # DAG 的开始日期
catchup=False # 不需要回溯 DAG 的历史运行记录
)
# 定义 DAG 中的任务
task1 = DummyOperator(task_id='task1', dag=dag)
# 设置每天凌晨 1 点执行
task1.execution_date = datetime(2022, 1, 1, 1, 0, 0) # 本地时间
task1.start_date = dag.timezone.convert(task1.execution_date) # 转换为 UTC 时间
在上述代码中,schedule_interval
设置为 timedelta(days=1)
,表示每天执行一次。start_date
设置为 datetime(2022, 1, 1)
,表示 DAG 的开始日期为 2022 年 1 月 1 日。catchup
设置为 False
,表示不需要回溯 DAG 的历史运行记录。
在定义 DAG 中的任务时,可以通过 execution_date
和 start_date
来设置任务的执行时间。在上述代码中,将 task1
的执行时间