BigQuery：在分区表中删除重复项_编程开发

BigQuery：在分区表中删除重复项

创始人

2024-12-13 03:30:42

0次

在BigQuery中，您可以使用ROW_NUMBER()函数和DELETE语句来删除分区表中的重复项。下面是一个包含代码示例的解决方法：

首先，假设您有一个名为your_project_id.your_dataset.your_table的分区表。

第一步是使用ROW_NUMBER()函数为每个分区中的重复行编号。您可以使用以下查询来创建一个临时表，其中包含带有行号的重复行：

CREATE OR REPLACE TABLE `your_project_id.your_dataset.your_temp_table` AS
SELECT *, ROW_NUMBER() OVER (PARTITION BY column1, column2, ... ORDER BY partitioning_column) AS row_number
FROM `your_project_id.your_dataset.your_table`
WHERE _PARTITIONTIME >= TIMESTAMP("start_date")
  AND _PARTITIONTIME <= TIMESTAMP("end_date")
HAVING row_number > 1

请确保将column1，column2等替换为用于识别重复行的列，并将start_date和end_date替换为所需的分区时间范围。

接下来，您可以使用以下DELETE语句从分区表中删除重复行：

DELETE FROM `your_project_id.your_dataset.your_table`
WHERE (column1, column2, ...) IN (
  SELECT column1, column2, ...
  FROM `your_project_id.your_dataset.your_temp_table`
)
AND _PARTITIONTIME >= TIMESTAMP("start_date")
AND _PARTITIONTIME <= TIMESTAMP("end_date")

同样，请确保将column1，column2等替换为用于识别重复行的列，并将start_date和end_date替换为所需的分区时间范围。

最后，您可以删除临时表：

DROP TABLE `your_project_id.your_dataset.your_temp_table`

这样，您就可以在分区表中删除重复项了。请注意，由于删除操作是不可逆的，请务必在执行之前备份数据。

上一篇：BigQuery：在创建或替换分区基表后，物化视图变得无效。

下一篇：BigQuery：在Github公共数据上没有匹配的操作符签名

BigQuery：在分区表中删除重复项

相关内容

热门资讯