以下是一个使用Apache Pig进行数据分组和求和的示例代码:
假设我们有一个包含以下数据的文件input.txt:
A,10
B,20
A,30
B,40
我们想要按照第一列的值进行分组,并对每个组的第二列进行求和。使用Apache Pig,可以按照以下方式解决:
-- 读取输入文件
data = LOAD 'input.txt' USING PigStorage(',') AS (col1:chararray, col2:int);
-- 按照第一列的值进行分组
grouped_data = GROUP data BY col1;
-- 对每个组的第二列进行求和
sum_data = FOREACH grouped_data GENERATE group AS col1, SUM(data.col2) AS sum_col2;
-- 输出结果
DUMP sum_data;
pig -x local group_sum.pig
(A,40)
(B,60)
结果显示了按照第一列的值进行分组后,每个组的第二列的求和结果。
这是一个简单的示例,演示了如何使用Apache Pig进行数据分组和求和。根据实际情况,你可以根据需要进行更复杂的操作。