Apache Nifi:当每行具有不同单元格长度时,将Excel解析为CSV时出现问题。
创始人
2024-09-04 13:30:48
0

如果在将Excel解析为CSV时遇到每行具有不同单元格长度的问题,可以使用Apache Nifi的Record处理器和RecordReader和RecordWriter来解决此问题。以下是一个使用Nifi解决此问题的示例流程:

  1. 使用"GetFile"处理器获取Excel文件。
  2. 使用"ConvertRecord"处理器将Excel文件转换为Record流。
  3. 在"ConvertRecord"处理器中,选择适当的RecordReader和RecordWriter。可以使用"CSVReader"作为RecordReader,以便能够处理具有不同单元格长度的行。
  4. 在"ConvertRecord"处理器中,将"Output Batch Size"属性设置为较大的值,以确保所有记录都被正确读取。
  5. 将"ConvertRecord"处理器的输出连接到"PutFile"处理器,将Record流写入CSV文件。

下面是一个使用Apache Nifi Groovy脚本的示例,用于将Excel解析为CSV:

import org.apache.commons.csv.CSVFormat
import org.apache.commons.csv.CSVPrinter
import org.apache.commons.csv.CSVRecord
import org.apache.nifi.components.PropertyDescriptor
import org.apache.nifi.flowfile.FlowFile
import org.apache.nifi.processor.AbstractProcessor
import org.apache.nifi.processor.ProcessContext
import org.apache.nifi.processor.ProcessSession
import org.apache.nifi.processor.Relationship
import org.apache.nifi.processor.io.InputStreamCallback
import org.apache.nifi.processor.io.OutputStreamCallback

import java.io.IOException
import java.io.InputStream
import java.io.OutputStream
import java.io.InputStreamReader
import java.io.OutputStreamWriter
import java.nio.charset.StandardCharsets
import java.util.ArrayList
import java.util.List

class ExcelToCsvProcessor extends AbstractProcessor {

    private static final PropertyDescriptor DESTINATION_CSV_FILE = new PropertyDescriptor.Builder()
            .name("Destination CSV file")
            .description("The destination CSV file to write the converted data.")
            .required(true)
            .addValidator(StandardValidators.NON_EMPTY_VALIDATOR)
            .build()

    private static final Relationship SUCCESS = new Relationship.Builder()
            .name("success")
            .description("Successfully converted Excel to CSV.")
            .build()

    private static final Relationship FAILURE = new Relationship.Builder()
            .name("failure")
            .description("Failed to convert Excel to CSV.")
            .build()

    @Override
    public List getSupportedPropertyDescriptors() {
        return [DESTINATION_CSV_FILE]
    }

    @Override
    public Set getRelationships() {
        return [SUCCESS, FAILURE]
    }

    @Override
    public void onTrigger(ProcessContext context, ProcessSession session) throws IOException {
        FlowFile flowFile = session.get()
        if (flowFile == null) {
            return
        }

        String destinationCsvFile = context.getProperty(DESTINATION_CSV_FILE).getValue()

        session.read(flowFile, new InputStreamCallback() {
            @Override
            void process(InputStream inputStream) throws IOException {
                List csvRecords = parseExcel(inputStream)

                if (!csvRecords.isEmpty()) {
                    session.write(flowFile, new OutputStreamCallback() {
                        @Override
                        void process(OutputStream outputStream) throws IOException {
                            writeCsv(csvRecords, outputStream)
                        }
                    })

                    session.transfer(flowFile, SUCCESS)
                } else {
                    session.transfer(flowFile, FAILURE)
                }
            }
        })
    }

    private List parseExcel(InputStream inputStream) throws IOException {
        List csvRecords = []

        Iterable records = CSVFormat.EXCEL.parse(new InputStreamReader(inputStream, StandardCharsets.UTF_8))
        for (CSVRecord record : records) {
            csvRecords.add(record)
        }

        return csvRecords
    }

    private void writeCsv(List csvRecords, OutputStream outputStream) throws IOException {
        CSVPrinter csvPrinter = new CSVPrinter(new OutputStreamWriter(outputStream, StandardCharsets.UTF_8), CSVFormat.EXCEL)

        for (CSVRecord record : csvRecords) {
            csvPrinter.printRecord(record)
        }

        csvPrinter.flush()
        csvPrinter.close()
    }
}

将此脚本保存为ExcelToCsvProcessor.groovy,并将其部署到Apache Nifi中。然后,您可以在Nifi中创建一个处理组,添加"GetFile"处理器来获取Excel文件,然后添加一个自定义处理器,选择ExcelToCsvProcessor,并配置目标CSV文件的路径。最后,将自定义处理器的输出连接到"PutFile"处理器,将Record流写入CSV文件。

这个示例

相关内容

热门资讯

安卓换鸿蒙系统会卡吗,体验流畅... 最近手机圈可是热闹非凡呢!不少安卓用户都在议论纷纷,说鸿蒙系统要来啦!那么,安卓手机换上鸿蒙系统后,...
app安卓系统登录不了,解锁登... 最近是不是你也遇到了这样的烦恼:手机里那个心爱的APP,突然就登录不上了?别急,让我来帮你一步步排查...
安卓系统拦截短信在哪,安卓系统... 你是不是也遇到了这种情况:手机里突然冒出了很多垃圾短信,烦不胜烦?别急,今天就来教你怎么在安卓系统里...
安卓系统要维护多久,安卓系统维... 你有没有想过,你的安卓手机里那个陪伴你度过了无数日夜的安卓系统,它究竟要陪伴你多久呢?这个问题,估计...
windows官网系统多少钱 Windows官网系统价格一览:了解正版Windows的购买成本Windows 11官方价格解析微软...
安卓系统如何卸载app,轻松掌... 手机里的App越来越多,是不是感觉内存不够用了?别急,今天就来教你怎么轻松卸载安卓系统里的App,让...
怎么复制照片安卓系统,操作步骤... 亲爱的手机控们,是不是有时候想把自己的手机照片分享给朋友,或者备份到电脑上呢?别急,今天就来教你怎么...
安卓系统应用怎么重装,安卓应用... 手机里的安卓应用突然罢工了,是不是让你头疼不已?别急,今天就来手把手教你如何重装安卓系统应用,让你的...
iwatch怎么连接安卓系统,... 你有没有想过,那款时尚又实用的iWatch,竟然只能和iPhone好上好?别急,今天就来给你揭秘,怎...
iphone系统与安卓系统更新... 最近是不是你也遇到了这样的烦恼?手机更新系统总是失败,急得你团团转。别急,今天就来给你揭秘为什么iP...