在容器中使用 Amazon Deequ 时可能会遇到类似问题。通常,这种问题的原因是容器中缺失某些必要的软件包或插件。要解决这个问题,可以在容器内运行以下命令安装必要的软件包或插件:
# 安装 Java 运行时环境
apt-get update && apt-get install -y openjdk-8-jre
# 安装 Deequ 依赖的 Spark 包
wget https://archive.apache.org/dist/spark/spark-3.2.0/spark-3.2.0-bin-hadoop3.2.tgz
tar -xvf spark-3.2.0-bin-hadoop3.2.tgz
mv spark-3.2.0-bin-hadoop3.2 /opt/
echo "export SPARK_HOME=/opt/spark-3.2.0-bin-hadoop3.2" >> /home/${NB_USER}/.bashrc
export PATH=$SPARK_HOME/bin:$PATH
# 安装 Deequ 依赖的 PostgreSQL JDBC 驱动程序
wget https://jdbc.postgresql.org/download/postgresql-42.2.20.jar
mv postgresql-42.2.20.jar /opt/spark-3.2.0-bin-hadoop3.2/jars/
以上命令会安装 Java 运行时环境、Spark 和 PostgreSQL JDBC 驱动程序,这样就可以在容器内运行 Amazon Deequ 了。
另外,如果仍然无法解决问题,也可以尝试更新 Amazon Deequ 的版本或者排查其他错误。