首先,我们需要创建一个 JSON 分类器,用于解析我们的 JSON 数据。我们可以通过在 AWS Glue 控制台中选择“分类器”选项卡并单击“添加分类器”按钮来创建分类器。在添加分类器页面中,我们需要选择“JSON”作为分类器类型,并填写分类器的名称和描述。
接下来,我们需要在分类器中定义模式。我们可以通过添加样本 JSON 数据来自动生成模式,也可以手动定义模式。下面是一个手动定义模式的示例:
{ "type": "object", "properties": { "name": { "type": "string" }, "age": { "type": "integer" }, "country": { "type": "string" } } }
确保在分类器配置选项卡中选择“使用自定义分类器”,并选择我们刚刚创建的 JSON 分类器。保存分类器并运行作业。
如果模式仍然不正确,则需要调试分类器。我们可以通过 AWS Glue 开发端点来启用调试模式。在开发端点中运行分类器作业,并在控制台上查看日志以了解任何错误或警告信息。
修复问题后,保存分类器并重新运行作业,确保模式正确匹配我们的 JSON 数据。
通过以上步骤,我们可以解决 AWS Glue 自定义分类器在处理 JSON 时生成的模式不正确的问题。