我们可以使用Apache Pig来计算给定数据集中所有员工的薪资总和。在以下示例中,我们将使用示例数据集“employee”包含员工ID、姓名和薪资等字段。
首先,我们可以使用LOAD命令加载数据集:
employee = LOAD 'input/employee.txt' USING PigStorage(',') AS (id:int, name:chararray, salary:double);
接下来,我们可以使用GROUP命令将数据集按“salary”字段进行分组,并使用SUM命令计算每个组的薪资总和:
grouped = GROUP employee ALL; sum_salary = FOREACH grouped GENERATE SUM(employee.salary);
最后,我们可以使用STORE命令将计算结果存储在文件中:
STORE sum_salary INTO 'output/salary_sum';
运行完整代码示例:
employee = LOAD 'input/employee.txt' USING PigStorage(',') AS (id:int, name:chararray, salary:double);
grouped = GROUP employee ALL; sum_salary = FOREACH grouped GENERATE SUM(employee.salary);
STORE sum_salary INTO 'output/salary_sum';