BigQueryAPI调用为什么会如此耗时？ _编程开发

BigQueryAPI调用为什么会如此耗时？

创始人

2024-12-12 09:30:35

0次

1.考虑使用适当的查询参数和过滤器以减少返回数据的数量。例如，使用WHERE子句、TIMESTAMP_DIFF()、TOP()等来限制返回数据的数量。

2.使用批量查询来减少调用次数和网络延迟，以提高整体性能。例如，使用jobs().query()而不是tabledata().list()。

3.考虑使用查询结果存储在 BigQuery 中的结果集，而不是每次都重新执行查询。这样可以显著减少查询调用次数和等待时间。

4.检查查询复杂性并更改体系结构或调整查询以减少计算和传输时间。例如，将查询优化为避免使用跨表JOIN或使用查询单位时间窗口（如每周查询而不是每天查询）。

代码示例：

1.使用WHERE子句、TIMESTAMP_DIFF()和TOP()来限制返回数据的数量：

query = "SELECT * FROM mydata WHERE TIMESTAMP_DIFF(CURRENT_TIMESTAMP(), timestamp, HOUR) < 24 ORDER BY timestamp DESC LIMIT 10" results = service.jobs().query(projectId=project_id, body={"query": query}).execute()

2.使用jobs().query()来执行批量查询：

queries = ["SELECT * FROM mydata WHERE timestamp > '2021-01-01'", "SELECT COUNT(*) FROM mydata WHERE value > 100"] results = [] for query in queries: job_id = str(uuid.uuid4()) job_data = {"jobReference": {"projectId": project_id, "jobId": job_id}, "configuration": {"query": {"query": query}}} service.jobs().insert(projectId=project_id, body=job_data).execute() job_complete = False while not job_complete: job = service.jobs().get(projectId=project_id, jobId=job_id).execute() if job["status"]["state"] == "DONE": results.append(service.jobs().getQueryResults(projectId=project_id, jobId=job_id).execute()) job_complete = True time.sleep(1)

3.使用 BigQuery 中的结果集：

query = "SELECT * FROM mydata" job_data = {"configuration": {"query": {"query": query, "destinationTable": {"projectId": project_id, "datasetId": "mydata_results", "tableId": "results_table"}}}} service.jobs().insert(projectId=project_id, body=job_data).execute() results = service.tabledata().list(projectId

上一篇：BigQuery按天分区（基于时间戳列）无法正常工作

下一篇：BigQueryAPI没有返回数据集最新的表格。

BigQueryAPI调用为什么会如此耗时？

相关内容

热门资讯