AWSEMR集群-spark-submit，您应该能够同时运行多个作业吗？ _编程开发

AWSEMR集群-spark-submit，您应该能够同时运行多个作业吗？

创始人

2024-09-25 10:01:15

0次

AWS EMR集群中使用spark-submit提交Spark作业时，默认情况下，只能运行一个作业。如果尝试运行多个作业，将会出现资源冲突的问题。

但是，您可以通过配置Spark动态资源调度器（Dynamic Resource Scheduler，DRS）来实现同时运行多个作业。

首先，您需要在EMR集群中配置DRS。具体步骤请参考AWS文档。

然后，在spark-submit命令中添加参数来启用DRS：

spark-submit --master yarn --deploy-mode client \
    --conf spark.scheduler.mode=dynamic \
    --conf spark.dynamicAllocation.enabled=true \
    --conf spark.shuffle.service.enabled=true \
    --num-executors 2 \
    your_spark_job.py

在上面的示例中，我们将Spark调度器模式设置为动态（dynamic），启用动态资源分配（dynamic allocation），启用shuffle服务，并将执行器数量设置为2。您可以根据您的需求修改这些参数。

这样配置后，您可以同时运行多个作业，Spark将自动分配和管理资源。

注意，在使用DRS时，您需要正确配置您的Spark作业，以确保它可以适应这种资源动态变化的环境。例如，可以使用动态资源池（dynamic resource pools）来动态分配资源。

示例代码：

from pyspark.sql import SparkSession

spark = SparkSession.builder \
        .appName("my_app") \
        .config("spark.scheduler.mode", "dynamic") \
        .config("spark.dynamicAllocation.enabled", "true") \
        .config("spark.shuffle.service.enabled", "true") \
        .config("spark.executor.instances", 2) \
        .getOrCreate()

# Your Spark job code here

spark.stop()

在上面的示例中，我们使用了SparkSession对象来创建Spark应用程序，并将相关配置传递给了builder。注意，在这里，我们将执行器（executor）数量设置为2，以便可以同时运行多个作业。

上一篇：AWSEMRinprivatesubnets

下一篇：AWSEMR集群使用Flink时无法运行任何Jar，而是报错为java.lang.NoSuchMethodError

AWSEMR集群-spark-submit，您应该能够同时运行多个作业吗？

相关内容

热门资讯