AWS Spark镜像不包括 Hadoop 分发版,因此默认情况下不支持 HDFS。为了解决这个问题,需要在启动集群时为Spark容器指定Hadoop环境变量。
docker run -e HADOOP_VERSION=2.7.7 -e HADOOP_HOME=/path/to/hadoop -p 8080:8080 -d amazon/aws-glue-libs:glue_libs_1.0.0_image_01
在这个例子中,我们为 Spark 指定 Hadoop 2.7.7 版本和 Hadoop 安装路径。