要使用BigQuery读取存储在Google Cloud Storage(GCS)中的Parquet文件,您可以使用BigQuery的外部表功能。下面是一个包含代码示例的解决方法:
from google.cloud import bigquery
client = bigquery.Client()
# 定义外部数据源的配置
external_config = bigquery.ExternalConfig("PARQUET")
external_config.source_uris = ["gs://bucket/path/to/parquet/file.parquet"]
external_config.schema = [
bigquery.SchemaField("column1", "STRING"),
bigquery.SchemaField("column2", "INTEGER"),
# 添加其他列
]
# 创建外部数据源
dataset_ref = client.dataset("your_dataset_id")
table_ref = dataset_ref.table("your_table_id")
table = bigquery.Table(table_ref, schema=external_config.schema)
table.external_data_configuration = external_config
client.create_table(table)
# 查询外部数据源
query = """
SELECT *
FROM your_table_id
"""
query_job = client.query(query)
results = query_job.result()
# 遍历查询结果
for row in results:
print(row)
请注意,您需要将上述代码中的bucket
替换为您的GCS存储桶名称,path/to/parquet/file.parquet
替换为您Parquet文件的路径,your_dataset_id
替换为您要将数据加载到的BigQuery数据集的ID,your_table_id
替换为您要创建的外部表的ID。
此外,您还可以根据Parquet文件的实际架构来定义外部表的模式,以适应不同的数据结构。
上一篇:BigQuery如何处理数据?