当使用Amazon SageMaker进行多GPU训练时,出现“No objective found”错误通常是由于软件配置错误或训练脚本中缺少目标函数导致的。
解决这个问题,一般需要检查以下几个方面:
criterion = nn.CrossEntropyLoss()
train_loader = torch.utils.data.DataLoader(dataset=train_data, batch_size=batch_size, shuffle=True)
tensorflow_version = '2.1'
import tensorflow as tf
from sagemaker.tensorflow import TensorFlow
estimator = TensorFlow(entry_point='script.py',
role=role,
instance_count=1,
instance_type='ml.p3.16xlarge',
framework_version='2.1.0',
py_version='py3',
hyperparameters={'epochs': 10},
script_mode=True,
distributions={'mpi': {'enabled': True, 'processes_per_host': 8}})
通过上述方法检查代码配置,您可以解决Amazon SageMaker多GPU训练时“No objective found”错误。