Amazon Sagemaker Ground Truth是一个自动注释和标记数据的服务,可用于机器学习模型的训练和评估。它可以通过一系列涉及人工审核的任务来定义或训练标注工作流程,例如文本分类、对象检测和语音翻译。
使用Sagemaker Ground Truth,您必须上传需要标注的数据并定义相关的数据模板。接着,您可以开始创建任务,这些任务将指定一个或多个数据标注员来进行数据标记和注释。每个任务都由一组输入数据和输出数据组成。
Sagemaker Ground Truth还支持自定义标注工具,以便您可以将特定于应用程序的数据类型标注和注释。另外,您还可以使用内置工具,例如3D点云标注和人体姿态标注。
以下是使用Sagemaker Ground Truth上传和标记数据的示例代码:
import boto3
sagemaker_client = boto3.client('sagemaker')
# Define dataset properties
dataset_name = 'my-dataset-name'
dataset_location = 's3://my-bucket/my-dataset/'
# Create Ground Truth dataset
sagemaker_client.create_dataset(
DatasetName=dataset_name,
DatasetType='GroundTruthManifest',
DataDistributionType='FullyReplicated',
InputDataConfig=[
{
'DataSource': {
'S3DataSource': {
'ManifestS3Uri': dataset_location
}
},
'ContentType': 'application/json',
'CompressionType': 'None'
}
]
)
# Create labeling job
job_name = 'my-job-name'
label_attribute_name = 'my-label-attribute'
role_arn = 'arn:aws:iam::123456789012:role/my-role'
label_category_config = '{"my-classification-task": {"attributes": [{"name": "my-label-attribute", "type": "string"}]}}'
input_manifest = 's3://my-bucket/my-manifest.json'
sagemaker_client.create_labeling_job(
LabelingJobName=job_name,
LabelAttributeName=label_attribute_name,
InputConfig={
'DataSource': {
'S3DataSource': {
'ManifestS3Uri': input_manifest
}
}
},
OutputConfig={
'S3OutputPath': 's3://my-bucket/output-path/',
'KmsKeyId': 'my-kms-key-id'
},
RoleArn=role_arn,
LabelCategoryConfig=label_category