1.考虑使用适当的查询参数和过滤器以减少返回数据的数量。例如,使用WHERE子句、TIMESTAMP_DIFF()、TOP()等来限制返回数据的数量。
2.使用批量查询来减少调用次数和网络延迟,以提高整体性能。例如,使用jobs().query()而不是tabledata().list()。
3.考虑使用查询结果存储在 BigQuery 中的结果集,而不是每次都重新执行查询。这样可以显著减少查询调用次数和等待时间。
4.检查查询复杂性并更改体系结构或调整查询以减少计算和传输时间。例如,将查询优化为避免使用跨表JOIN或使用查询单位时间窗口(如每周查询而不是每天查询)。
代码示例:
1.使用WHERE子句、TIMESTAMP_DIFF()和TOP()来限制返回数据的数量:
query = "SELECT * FROM mydata WHERE TIMESTAMP_DIFF(CURRENT_TIMESTAMP(), timestamp, HOUR) < 24 ORDER BY timestamp DESC LIMIT 10" results = service.jobs().query(projectId=project_id, body={"query": query}).execute()
2.使用jobs().query()来执行批量查询:
queries = ["SELECT * FROM mydata WHERE timestamp > '2021-01-01'", "SELECT COUNT(*) FROM mydata WHERE value > 100"] results = [] for query in queries: job_id = str(uuid.uuid4()) job_data = {"jobReference": {"projectId": project_id, "jobId": job_id}, "configuration": {"query": {"query": query}}} service.jobs().insert(projectId=project_id, body=job_data).execute() job_complete = False while not job_complete: job = service.jobs().get(projectId=project_id, jobId=job_id).execute() if job["status"]["state"] == "DONE": results.append(service.jobs().getQueryResults(projectId=project_id, jobId=job_id).execute()) job_complete = True time.sleep(1)
3.使用 BigQuery 中的结果集:
query = "SELECT * FROM mydata" job_data = {"configuration": {"query": {"query": query, "destinationTable": {"projectId": project_id, "datasetId": "mydata_results", "tableId": "results_table"}}}} service.jobs().insert(projectId=project_id, body=job_data).execute() results = service.tabledata().list(projectId