BigQueryML - 数据分组？_编程开发

BigQueryML - 数据分组？

创始人

2024-12-12 16:31:52

0次

在BigQuery中使用BigQuery ML进行数据分组有多种方法，可以根据具体需求选择适合的方法。以下是一个包含代码示例的解决方法：

使用GROUP BY子句进行数据分组

CREATE MODEL mydataset.my_model
OPTIONS(model_type='linear_reg') AS
SELECT column1, column2, SUM(column3) AS total_amount
FROM `project.dataset.table`
GROUP BY column1, column2;

上述代码中，我们使用GROUP BY子句将数据按column1和column2进行分组，并计算每组的column3之和。然后，我们使用这些分组数据创建一个线性回归模型。

使用PARTITION BY子句进行数据分组

CREATE MODEL mydataset.my_model
OPTIONS(model_type='linear_reg') AS
SELECT column1, column2, column3,
  SUM(column3) OVER(PARTITION BY column1, column2) AS total_amount
FROM `project.dataset.table`;

上述代码中，我们使用PARTITION BY子句将数据按column1和column2进行分组，并使用窗口函数SUM计算每个分组的column3之和。然后，我们使用这些分组数据创建一个线性回归模型。

使用WITH子句和子查询进行数据分组

WITH grouped_data AS (
  SELECT column1, column2, SUM(column3) AS total_amount
  FROM `project.dataset.table`
  GROUP BY column1, column2
)
CREATE MODEL mydataset.my_model
OPTIONS(model_type='linear_reg') AS
SELECT column1, column2, total_amount
FROM grouped_data;

上述代码中，我们首先使用WITH子句和子查询将数据按column1和column2进行分组，并计算每组的column3之和，然后将这些分组数据存储在一个临时表中。接下来，我们使用这个临时表中的数据创建一个线性回归模型。

上一篇：BigQuery命令行'bq load'从GCS失败。回溯显示google-cloud-sdk的引导模块中缺少'ReadFileContents'属性。

下一篇：BigQueryML-线性回归器训练在一次迭代后停止

BigQueryML - 数据分组？

相关内容

热门资讯