Amazon Sagemaker Ground Truth可以帮助我们进行训练数据集的标注。但是,在进行图像标签调整作业时,可能会出现以下问题:
(1)作业进度条一直显示为0%,无法开始。
(2)作业一直处于“Queued”状态,无法开始。
(1)检查IAM角色
请检查IAM角色是否具有足够的S3访问权限。如果权限设置有误,则会导致作业无法访问S3数据集。
具体来说,IAM角色需要具有以下访问权限:
"Effect": "Allow",
"Action": [
"s3:GetObject",
"s3:PutObject",
"s3:DeleteObject"
],
"Resource": "arn:aws:s3:::/*"
(2)检查数据集
请检查数据集的文件格式是否正确。如果数据集格式有误,则会导致作业无法正常运行。
一般而言,数据集应该按照以下格式进行组织:
/
├── manifests/
│ ├── manifest1.manifest
│ └── . . .
├── images/
│ ├── image1.jpg
│ └── . . .
└── labels/
├── label1.json
└── . . .
其中,manifest文件是一个JSON格式的文件,用于描述数据集的元信息,例如数据集中有多少张图片、标注信息等等。image文件夹中存储着数据集中所有的图片。labels文件夹中存储着所有的标注信息,以JSON格式进行存储。
(3)检查作业配置
请检查作业的配置是否正确。在进行图像标签调整作业时,需要配置以下参数:
{
"PreHumanTaskLambdaArn": "lambda_arn",
"AnnotationConsolidationConfig": {
"AnnotationConsolidationLambdaArn": "lambda_arn"
},
"TaskKeywords": [
"tagging",
"labeling",
"classification",
"bounding box",
"image classification"
],
"TaskTitle": "job_title",
"TaskDescription": "job_description",
"NumberOfHumanWorkersPerDataObject": number_of_workers,