创建您的第一个数据自动化项目完整的参数参考创建蓝图使用你的蓝图处理文档检查处理状态检索结果

使用 Amazon Bedrock 数据自动化 CLI

Amazon Bedrock 数据自动化 (BDA) 功能为处理数据提供了简化的 CLI 工作流程。对于所有模式，此工作流程都包含三个主要步骤：创建项目、为自定义输出创建蓝图以及处理文档。本指南将引导您完成使用 BDA 的关键 CLI 命令。

创建您的第一个数据自动化项目

要开始使用 BDA，请先使用create-data-automation-project命令创建一个项目。

考虑一下我们将要处理的护照样本：

创建项目时，必须为要处理的文件类型定义配置设置。以下命令代表了创建图像处理项目的最小工作示例：


aws bedrock-data-automation create-data-automation-project \
    --project-name "ImageProcessingProject" \
    --standard-output-configuration '{
        "image": {
            "extraction": {
                "category": {
                    "state": "ENABLED",
                    "types": ["TEXT_DETECTION"]
                },
                "boundingBox": {
                    "state": "ENABLED"
                }
            },
            "generativeField": {
                "state": "ENABLED"
            }
        }
    }'

该命令验证输入配置并创建具有唯一 ARN 的新项目。回应将包括项目 ARN 和阶段：


{
    "projectArn": "Amazon Resource Name (ARN)",
    "projectStage": "DEVELOPMENT",
    "status": "IN_PROGRESS"
}

如果创建的项目没有参数，则将应用默认设置。例如，在处理图像时，默认情况下将启用图像摘要和文本检测。

完整的参数参考

下表显示了该create-data-automation-project命令的所有可用参数：

的参数 create-data-automation-project
参数	必需	默认值	Description
`--project-name`	是	不适用	数据自动化项目的名称
`--project-stage`	否	实时	项目的舞台（开发或直播）
`--standard-output-configuration`	是	不适用	用于标准输出处理的 JSON 配置
`--custom-output-configuration`	否	不适用	用于自定义输出处理的 JSON 配置
`--encryption-configuration`	否	不适用	项目的加密设置
`--client-token`	否	自动生成	请求隐性的唯一标识符

创建蓝图

创建项目后，您可以使用create-blueprint命令创建蓝图来定义数据处理的结构。

以下是创建专为护照处理量身定制的蓝图的最小工作示例：


aws bedrock-data-automation create-blueprint \
    --blueprint-name "passport-blueprint" \
    --type "IMAGE" \
    --blueprint-stage "DEVELOPMENT" \
    --schema '{
        "class": "Passport",
        "description": "Blueprint for processing passport images",
        "properties": {
            "passport_number": {
                "type": "string",
                "inferenceType": "explicit",
                "instruction": "The passport identification number"
            },
            "full_name": {
                "type": "string",
                "inferenceType": "explicit",
                "instruction": "The full name of the passport holder"
            }
        }
    }'

该命令使用指定架构创建新的蓝图。然后，您可以在处理文档时使用此蓝图，根据您定义的架构提取结构化数据。

使用你的蓝图

向项目添加蓝图

要向项目添加蓝图，请使用以下update-data-automation-project命令：


aws bedrock-data-automation update-data-automation-project \
    --project-arn "Amazon Resource Name (ARN)" \
    --standard-output-configuration '{
        "image": {
            "extraction": {
                "category": {
                    "state": "ENABLED",
                    "types": ["TEXT_DETECTION"]
                },
                "boundingBox": {
                    "state": "ENABLED"
                }
            },
            "generativeField": {
                "state": "ENABLED",
                "types": ["IMAGE_SUMMARY"]
            }
        }
    }' \
    --custom-output-configuration '{
        "blueprints": [
            {
                "blueprintArn": "Amazon Resource Name (ARN)",
                "blueprintVersion": "1",
                "blueprintStage": "LIVE"
            }
        ]
    }'

验证蓝图集成

您可以使用以下get-data-automation-project命令验证蓝图集成：


aws bedrock-data-automation get-data-automation-project \
    --project-arn "Amazon Resource Name (ARN)"

管理多个蓝图

使用list-blueprints命令查看您的所有蓝图：


aws bedrock-data-automation list-blueprints

处理文档

设置完项目后，您可以使用以下invoke-data-automation-async命令处理文档：


aws bedrock-data-automation-runtime invoke-data-automation-async \
    --input-configuration '{
        "s3Uri": "s3://my-bda-documents/invoices/invoice-123.pdf"
    }' \
    --output-configuration '{
        "s3Uri": "s3://my-bda-documents/output/"
    }' \
    --data-automation-configuration '{
        "dataAutomationProjectArn": "Amazon Resource Name (ARN)",
        "stage": "LIVE"
    }' \
    --data-automation-profile-arn "Amazon Resource Name (ARN)"

该命令返回一个调用 ARN，你可以用它来检查处理状态：


{
    "invocationArn": "Amazon Resource Name (ARN)"
}

检查处理状态

要检查处理任务的状态，请使用以下get-data-automation-status命令：


aws bedrock-data-automation-runtime get-data-automation-status \
    --invocation-arn "Amazon Resource Name (ARN)"

该命令返回处理任务的当前状态：


{
    "status": "COMPLETED",
    "creationTime": "2025-07-09T12:34:56.789Z",
    "lastModifiedTime": "2025-07-09T12:45:12.345Z",
    "outputLocation": "s3://my-bda-documents/output/efgh5678/"
}

可能的状态值包括：

IN_PROGRESS：处理作业当前正在运行。
COMPLETED: 处理任务已成功完成。
FAILED: 处理任务已失败。查看响应以了解错误详情。
STOPPED: 处理作业已手动停止。

检索结果

处理完成后，您可以列出 S3 存储桶中的输出文件：


aws s3 ls s3://my-bda-documents/output/efgh5678/

要将结果下载到本地计算机，请执行以下操作：


aws s3 cp s3://my-bda-documents/output/efgh5678/ ~/Downloads/bda-results/ --recursive

输出包括基于您的项目配置和您应用的所有蓝图的结构化数据。

Javascript 在您的浏览器中被禁用或不可用。

要使用 Amazon Web Services 文档，必须启用 Javascript。请参阅浏览器的帮助页面以了解相关说明。

文档惯例

使用 Bedrock 数据自动化的先决条件

蓝图操作 CLI