本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。
使用 Amazon Bedrock 数据自动化 CLI
Amazon Bedrock 数据自动化 (BDA) 功能为处理数据提供了简化的 CLI 工作流程。对于所有模式,此工作流程都包含三个主要步骤:创建项目、为自定义输出创建蓝图以及处理文档。本指南将引导您完成使用 BDA 的关键 CLI 命令。
创建您的第一个数据自动化项目
要开始使用 BDA,请先使用create-data-automation-project
命令创建一个项目。
考虑一下我们将要处理的护照样本:

创建项目时,必须为要处理的文件类型定义配置设置。以下命令代表了创建图像处理项目的最小工作示例:
aws bedrock-data-automation create-data-automation-project \ --project-name "ImageProcessingProject" \ --standard-output-configuration '{ "image": { "extraction": { "category": { "state": "ENABLED", "types": ["TEXT_DETECTION"] }, "boundingBox": { "state": "ENABLED" } }, "generativeField": { "state": "ENABLED" } } }'
该命令验证输入配置并创建具有唯一 ARN 的新项目。回应将包括项目 ARN 和阶段:
{ "projectArn": "Amazon Resource Name (ARN)", "projectStage": "DEVELOPMENT", "status": "IN_PROGRESS" }
如果创建的项目没有参数,则将应用默认设置。例如,在处理图像时,默认情况下将启用图像摘要和文本检测。
完整的参数参考
下表显示了该create-data-automation-project
命令的所有可用参数:
参数 | 必需 | 默认值 | Description |
---|---|---|---|
--project-name |
是 | 不适用 | 数据自动化项目的名称 |
--project-stage |
否 | 实时 | 项目的舞台(开发或直播) |
--standard-output-configuration |
是 | 不适用 | 用于标准输出处理的 JSON 配置 |
--custom-output-configuration |
否 | 不适用 | 用于自定义输出处理的 JSON 配置 |
--encryption-configuration |
否 | 不适用 | 项目的加密设置 |
--client-token |
否 | 自动生成 | 请求隐性的唯一标识符 |
创建蓝图
创建项目后,您可以使用create-blueprint
命令创建蓝图来定义数据处理的结构。
以下是创建专为护照处理量身定制的蓝图的最小工作示例:
aws bedrock-data-automation create-blueprint \ --blueprint-name "passport-blueprint" \ --type "IMAGE" \ --blueprint-stage "DEVELOPMENT" \ --schema '{ "class": "Passport", "description": "Blueprint for processing passport images", "properties": { "passport_number": { "type": "string", "inferenceType": "explicit", "instruction": "The passport identification number" }, "full_name": { "type": "string", "inferenceType": "explicit", "instruction": "The full name of the passport holder" } } }'
该命令使用指定架构创建新的蓝图。然后,您可以在处理文档时使用此蓝图,根据您定义的架构提取结构化数据。
使用你的蓝图
向项目添加蓝图
要向项目添加蓝图,请使用以下update-data-automation-project
命令:
aws bedrock-data-automation update-data-automation-project \ --project-arn "Amazon Resource Name (ARN)" \ --standard-output-configuration '{ "image": { "extraction": { "category": { "state": "ENABLED", "types": ["TEXT_DETECTION"] }, "boundingBox": { "state": "ENABLED" } }, "generativeField": { "state": "ENABLED", "types": ["IMAGE_SUMMARY"] } } }' \ --custom-output-configuration '{ "blueprints": [ { "blueprintArn": "Amazon Resource Name (ARN)", "blueprintVersion": "1", "blueprintStage": "LIVE" } ] }'
验证蓝图集成
您可以使用以下get-data-automation-project
命令验证蓝图集成:
aws bedrock-data-automation get-data-automation-project \ --project-arn "Amazon Resource Name (ARN)"
管理多个蓝图
使用list-blueprints
命令查看您的所有蓝图:
aws bedrock-data-automation list-blueprints
处理文档
设置完项目后,您可以使用以下invoke-data-automation-async
命令处理文档:
aws bedrock-data-automation-runtime invoke-data-automation-async \ --input-configuration '{ "s3Uri": "s3://my-bda-documents/invoices/invoice-123.pdf" }' \ --output-configuration '{ "s3Uri": "s3://my-bda-documents/output/" }' \ --data-automation-configuration '{ "dataAutomationProjectArn": "Amazon Resource Name (ARN)", "stage": "LIVE" }' \ --data-automation-profile-arn "Amazon Resource Name (ARN)"
该命令返回一个调用 ARN,你可以用它来检查处理状态:
{ "invocationArn": "Amazon Resource Name (ARN)" }
检查处理状态
要检查处理任务的状态,请使用以下get-data-automation-status
命令:
aws bedrock-data-automation-runtime get-data-automation-status \ --invocation-arn "Amazon Resource Name (ARN)"
该命令返回处理任务的当前状态:
{ "status": "COMPLETED", "creationTime": "2025-07-09T12:34:56.789Z", "lastModifiedTime": "2025-07-09T12:45:12.345Z", "outputLocation": "s3://my-bda-documents/output/efgh5678/" }
可能的状态值包括:
-
IN_PROGRESS
:处理作业当前正在运行。 -
COMPLETED
: 处理任务已成功完成。 -
FAILED
: 处理任务已失败。查看响应以了解错误详情。 -
STOPPED
: 处理作业已手动停止。
检索结果
处理完成后,您可以列出 S3 存储桶中的输出文件:
aws s3 ls s3://my-bda-documents/output/efgh5678/
要将结果下载到本地计算机,请执行以下操作:
aws s3 cp s3://my-bda-documents/output/efgh5678/ ~/Downloads/bda-results/ --recursive
输出包括基于您的项目配置和您应用的所有蓝图的结构化数据。