BigQuery导出CSV:我能控制输出的分区吗?
创始人
2024-12-12 12:01:04
0

可以使用BigQuery的table decorators来控制输出分区。

示例代码:

from google.cloud import bigquery

client = bigquery.Client()

table_reference = client.dataset('my_dataset').table('my_table')

destination_uri = 'gs://my_bucket/my_file*.csv'

# 控制输出分区
table = client.get_table(table_reference)
num_of_partitions = 10 # 设置分区数量
last_partition = table.time_partitioning.range.end # 最后一个分区的结束时间 

time_partitions = []
for partition_num in range(num_of_partitions):
    partition_end = last_partition - timedelta(days=partition_num*(last_partition-start_partition).days//num_of_partitions)
    partition_start = partition_end - timedelta(days=(last_partition-start_partition).days//num_of_partitions)
    time_partition = f'{partition_start.strftime("%Y%m%d")}_{partition_end.strftime("%Y%m%d")}'
    time_partitions.append(time_partition)

job_config = bigquery.ExtractJobConfig()
job_config.destination_format = bigquery.DestinationFormat.CSV
job_config.field_delimiter = ','
job_config.print_header = True

for partition in time_partitions:
    table_decorator = f"@{partition}"
    destination_uri_with_partition = f"{destination_uri[:-4]}_{partition}.csv"
    extract_job = client.extract_table(
        table_reference,
        destination_uri_with_partition,
        location='US',
        job_config=job_config,
        table_decorators=[table_decorator],
    )
    extract_job.result()

相关内容

热门资讯

Android Recycle... 要在Android RecyclerView中实现滑动卡片效果,可以按照以下步骤进行操作:首先,在项...
安装apache-beam==... 出现此错误可能是因为用户的Python版本太低,而apache-beam==2.34.0需要更高的P...
Android - 无法确定任... 这个错误通常发生在Android项目中,表示编译Debug版本的Java代码时出现了依赖关系问题。下...
Android - NDK 预... 在Android NDK的构建过程中,LOCAL_SRC_FILES只能包含一个项目。如果需要在ND...
Akka生成Actor问题 在Akka框架中,可以使用ActorSystem对象生成Actor。但是,当我们在Actor类中尝试...
Agora-RTC-React... 出现这个错误原因是因为在 React 组件中使用,import AgoraRTC from “ago...
Alertmanager在pr... 首先,在Prometheus配置文件中,确保Alertmanager URL已正确配置。例如:ale...
Aksnginxdomainb... 在AKS集群中,可以使用Nginx代理服务器实现根据域名进行路由。以下是具体步骤:部署Nginx i...
AddSingleton在.N... 在C#中创建Singleton对象通常是通过私有构造函数和静态属性来实现,例如:public cla...
Alertmanager中的基... Alertmanager中可以使用repeat_interval选项指定在一个告警重复发送前必须等待...