使用 Amazon Bedrock 数据自动化 CLI - Amazon Bedrock

本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。

使用 Amazon Bedrock 数据自动化 CLI

Amazon Bedrock 数据自动化 (BDA) 功能为处理数据提供了简化的 CLI 工作流程。对于所有模式,此工作流程都包含三个主要步骤:创建项目、为自定义输出创建蓝图以及处理文档。本指南将引导您完成使用 BDA 的关键 CLI 命令。

创建您的第一个数据自动化项目

要开始使用 BDA,请先使用create-data-automation-project命令创建一个项目。

考虑一下我们将要处理的护照样本:

创建项目时,必须为要处理的文件类型定义配置设置。以下命令代表了创建图像处理项目的最小工作示例:

aws bedrock-data-automation create-data-automation-project \ --project-name "ImageProcessingProject" \ --standard-output-configuration '{ "image": { "extraction": { "category": { "state": "ENABLED", "types": ["TEXT_DETECTION"] }, "boundingBox": { "state": "ENABLED" } }, "generativeField": { "state": "ENABLED" } } }'

该命令验证输入配置并创建具有唯一 ARN 的新项目。回应将包括项目 ARN 和阶段:

{ "projectArn": "Amazon Resource Name (ARN)", "projectStage": "DEVELOPMENT", "status": "IN_PROGRESS" }

如果创建的项目没有参数,则将应用默认设置。例如,在处理图像时,默认情况下将启用图像摘要和文本检测。

完整的参数参考

下表显示了该create-data-automation-project命令的所有可用参数:

的参数 create-data-automation-project
参数 必需 默认值 Description
--project-name 不适用 数据自动化项目的名称
--project-stage 实时 项目的舞台(开发或直播)
--standard-output-configuration 不适用 用于标准输出处理的 JSON 配置
--custom-output-configuration 不适用 用于自定义输出处理的 JSON 配置
--encryption-configuration 不适用 项目的加密设置
--client-token 自动生成 请求隐性的唯一标识符

创建蓝图

创建项目后,您可以使用create-blueprint命令创建蓝图来定义数据处理的结构。

以下是创建专为护照处理量身定制的蓝图的最小工作示例:

aws bedrock-data-automation create-blueprint \ --blueprint-name "passport-blueprint" \ --type "IMAGE" \ --blueprint-stage "DEVELOPMENT" \ --schema '{ "class": "Passport", "description": "Blueprint for processing passport images", "properties": { "passport_number": { "type": "string", "inferenceType": "explicit", "instruction": "The passport identification number" }, "full_name": { "type": "string", "inferenceType": "explicit", "instruction": "The full name of the passport holder" } } }'

该命令使用指定架构创建新的蓝图。然后,您可以在处理文档时使用此蓝图,根据您定义的架构提取结构化数据。

使用你的蓝图

向项目添加蓝图

要向项目添加蓝图,请使用以下update-data-automation-project命令:

aws bedrock-data-automation update-data-automation-project \ --project-arn "Amazon Resource Name (ARN)" \ --standard-output-configuration '{ "image": { "extraction": { "category": { "state": "ENABLED", "types": ["TEXT_DETECTION"] }, "boundingBox": { "state": "ENABLED" } }, "generativeField": { "state": "ENABLED", "types": ["IMAGE_SUMMARY"] } } }' \ --custom-output-configuration '{ "blueprints": [ { "blueprintArn": "Amazon Resource Name (ARN)", "blueprintVersion": "1", "blueprintStage": "LIVE" } ] }'

验证蓝图集成

您可以使用以下get-data-automation-project命令验证蓝图集成:

aws bedrock-data-automation get-data-automation-project \ --project-arn "Amazon Resource Name (ARN)"

管理多个蓝图

使用list-blueprints命令查看您的所有蓝图:

aws bedrock-data-automation list-blueprints

处理文档

设置完项目后,您可以使用以下invoke-data-automation-async命令处理文档:

aws bedrock-data-automation-runtime invoke-data-automation-async \ --input-configuration '{ "s3Uri": "s3://my-bda-documents/invoices/invoice-123.pdf" }' \ --output-configuration '{ "s3Uri": "s3://my-bda-documents/output/" }' \ --data-automation-configuration '{ "dataAutomationProjectArn": "Amazon Resource Name (ARN)", "stage": "LIVE" }' \ --data-automation-profile-arn "Amazon Resource Name (ARN)"

该命令返回一个调用 ARN,你可以用它来检查处理状态:

{ "invocationArn": "Amazon Resource Name (ARN)" }

检查处理状态

要检查处理任务的状态,请使用以下get-data-automation-status命令:

aws bedrock-data-automation-runtime get-data-automation-status \ --invocation-arn "Amazon Resource Name (ARN)"

该命令返回处理任务的当前状态:

{ "status": "COMPLETED", "creationTime": "2025-07-09T12:34:56.789Z", "lastModifiedTime": "2025-07-09T12:45:12.345Z", "outputLocation": "s3://my-bda-documents/output/efgh5678/" }

可能的状态值包括:

  • IN_PROGRESS:处理作业当前正在运行。

  • COMPLETED: 处理任务已成功完成。

  • FAILED: 处理任务已失败。查看响应以了解错误详情。

  • STOPPED: 处理作业已手动停止。

检索结果

处理完成后,您可以列出 S3 存储桶中的输出文件:

aws s3 ls s3://my-bda-documents/output/efgh5678/

要将结果下载到本地计算机,请执行以下操作:

aws s3 cp s3://my-bda-documents/output/efgh5678/ ~/Downloads/bda-results/ --recursive

输出包括基于您的项目配置和您应用的所有蓝图的结构化数据。