扩大 Amazon Textract 的实例大小可能会加快处理速度。虽然这会增加成本,但可能是为了更快地完成处理所必需的。
使用 CloudWatch 监视 Textract 的吞吐量和处理时间可以帮助您定位问题并调整相应的设置。您可能会发现,例如,您的 SQS 队列被拥堵了。
您可以通过 API 控制 Textract 的最大并发数。这可以帮助您加快处理速度并更好地利用 Amazon Textract 的处理能力。
以下是 Python 的示例代码:
import boto3
textract = boto3.client('textract')
# 设置最大并发数
textract.set_endpoint('textract.us-east-1.amazonaws.com')
textract.update_configuration(
# 最大并发数
MaxConcurrentDocumentTextDetectionJobs=1000,
)
# 调用 Textract
response = textract.start_document_text_detection(
DocumentLocation={
'S3Object': {
'Bucket': 'mybucket',
'Name': 'mydocument.pdf',
}
},
NotificationChannel={
'RoleArn': 'arn:aws:iam::123456789012:role/myrole',
'SNSTopicArn': 'arn:aws:sns:us-west-2:123456789012:mytopic',
},
)
# 打印响应
print(response)
这个示例代码将最大并发数设置为 1000。您可能需要调整此设置以达到最佳效果。