下面是一个示例代码,用于模拟用户浏览器导出数据:
from google.cloud import bigquery
# 设置你的 Google Cloud 项目 ID
project_id = "your-project-id"
# 设置 BigQuery 数据集和表的名称
dataset_name = "your-dataset-name"
table_name = "your-table-name"
# 创建 BigQuery 客户端
client = bigquery.Client(project=project_id)
# 查询数据
query = f"""
SELECT *
FROM `{project_id}.{dataset_name}.{table_name}`
WHERE user_agent LIKE "%Mozilla%" -- 根据需要设置筛选条件
LIMIT 100
"""
query_job = client.query(query)
# 导出查询结果到 GCS
destination_uri = "gs://your-bucket-name/export.csv" # 设置导出文件的 GCS 路径
job_config = bigquery.job.ExtractJobConfig(destination_format="CSV")
extract_job = client.extract_table(
query_job.destination,
destination_uri,
job_config=job_config,
)
extract_job.result()
print(f"数据已成功导出到 {destination_uri}")
请确保已安装 google-cloud-bigquery
包,并替换代码中的以下值:
your-project-id
:你的 Google Cloud 项目 IDyour-dataset-name
:你的 BigQuery 数据集名称your-table-name
:你的 BigQuery 表名称your-bucket-name
:你的 GCS 存储桶名称这段代码首先创建一个 BigQuery 客户端,并指定要查询的数据集和表名称。然后,它执行一个查询,限制结果为包含 "Mozilla" 的用户代理字符串的前 100 行数据(你可以根据需要调整查询条件)。接下来,它将查询结果导出为 CSV 文件,并将其保存到指定的 GCS 存储桶中。
在实际使用时,你可能还需要添加适当的错误处理和身份验证代码。