要解决此问题,请查看文档,确保您正在向Textract发送支持的文档格式。Textract仅支持以下格式的文档:JPEG、PNG、BMP和PDF。
以下是一个示例代码,演示如何使用AWS Textract来解析PDF文档。在此示例中,我们使用AWS SDK for JavaScript中的DocumentTextDetection API:
const AWS = require('aws-sdk');
const fs = require('fs');
const Textract = new AWS.Textract({
region: ''
});
const params = {
Document: {
Bytes: fs.readFileSync('')
}
};
Textract.detectDocumentText(params, (err, data) => {
if (err) console.log(err, err.stack);
else console.log(JSON.stringify(data));
});
请注意,我们将PDF文档的字节传递给Document.Bytes属性,因此Textract可以正确读取它。请在您的应用程序中相应地修改此代码。