Apache Spark在输出rdd数据时,可以通过设置压缩格式进行压缩输出。具体实现方式如下所示:
val sparkConf = new SparkConf().setAppName("compressionTest") val sc = new SparkContext(sparkConf)
// 定义一个rdd,进行压缩输出试验 val data = Array("hello world", "hi", "hello spark", "hi spark") val rdd = sc.parallelize(data)
// 使用gzip压缩格式进行输出压缩 rdd.saveAsTextFile("/data/output", classOf[GzipCodec])
通过调用saveAsTextFile函数,可以对输出的rdd进行设置压缩格式的操作。上述代码通过使用GzipCodec压缩格式进行了压缩输出。可以根据需要选择其他的压缩格式进行试验。
上一篇:ApacheSpark在列名中包含模式的大量列的性能问题
下一篇:ApacheSpark在Windows10上出现“TheSystemcannotfindthepathspecified”错误。