在BigQuery中,在处理任何考虑层级关系的数据集时,层次查询特别有用。这包括具有父/子关系的任何数据,如组织结构、产品类别和地理位置。
要进行层次查询,需要具有该数据集的正确结构。假设要查询具有父项ID和子项ID的表。这里是一个示例查询,使用的是BigQuery的支持SQL WITH RECURSIVE
语法的版本。
WITH RECURSIVE category_path (category_id, path, level)
AS (
-- Root nodes
SELECT category_id, CAST(category_id AS string) AS path, 1 AS level
FROM my_categories
WHERE parent_id IS NULL
UNION ALL
-- Non-root nodes
SELECT c.category_id, CONCAT(cp.path, ',', CAST(c.category_id AS string)) AS path,
cp.level + 1 AS level
FROM my_categories c
JOIN category_path cp ON c.parent_id = cp.category_id
)
SELECT category_id, path, level
FROM category_path
ORDER BY path
这个递归的查询将展开整个层次结构,并创建一条路径列,用逗号分隔每个节点的ID。该查询还为每个节点计算了一个级别,以便可以检测给定节点的深度。
在WITH RECURSIVE
语句中,使用UNION ALL
循环迭代父节点和子节点,直到查询中不再有子节点。这是递归查询的核心:它不断地查询父节点和子节点,直到没有子节点为止。