使用 Amazon Bedrock 資料自動化 CLI - Amazon Bedrock

本文為英文版的機器翻譯版本,如內容有任何歧義或不一致之處,概以英文版為準。

使用 Amazon Bedrock 資料自動化 CLI

Amazon Bedrock 資料自動化 (BDA) 功能提供簡化的 CLI 工作流程來處理您的資料。對於所有模式,此工作流程包含三個主要步驟:建立專案、建立自訂輸出的藍圖,以及處理文件。本指南會逐步引導您使用 BDA 的金鑰 CLI 命令。

建立您的第一個資料自動化專案

若要開始使用 BDA,請先使用 create-data-automation-project命令建立專案。

請考慮我們將處理的此護照範例:

建立專案時,您必須為要處理的檔案類型定義組態設定。下列命令代表建立映像處理專案的最低工作範例:

aws bedrock-data-automation create-data-automation-project \ --project-name "ImageProcessingProject" \ --standard-output-configuration '{ "image": { "extraction": { "category": { "state": "ENABLED", "types": ["TEXT_DETECTION"] }, "boundingBox": { "state": "ENABLED" } }, "generativeField": { "state": "ENABLED" } } }'

命令會驗證輸入組態,並使用唯一的 ARN 建立新的專案。回應將包含專案 ARN 和階段:

{ "projectArn": "Amazon Resource Name (ARN)", "projectStage": "DEVELOPMENT", "status": "IN_PROGRESS" }

如果建立的專案沒有參數,則會套用預設設定。例如,處理影像時,預設會啟用影像摘要和文字偵測。

完成參數參考

下表顯示 create-data-automation-project命令的所有可用參數:

create-data-automation-project 的參數
參數 必要 預設 描述
--project-name N/A 資料自動化專案的名稱
--project-stage LIVE 專案的階段 (DEVELOPMENT 或 LIVE)
--standard-output-configuration N/A 標準輸出處理的 JSON 組態
--custom-output-configuration N/A 自訂輸出處理的 JSON 組態
--encryption-configuration N/A 專案的加密設定
--client-token 自動產生的 請求冪等的唯一識別符

建立藍圖

建立專案之後,您可以使用 create-blueprint命令建立藍圖來定義資料處理的結構。

以下是建立專為護照處理量身打造之藍圖的最少工作範例:

aws bedrock-data-automation create-blueprint \ --blueprint-name "passport-blueprint" \ --type "IMAGE" \ --blueprint-stage "DEVELOPMENT" \ --schema '{ "class": "Passport", "description": "Blueprint for processing passport images", "properties": { "passport_number": { "type": "string", "inferenceType": "explicit", "instruction": "The passport identification number" }, "full_name": { "type": "string", "inferenceType": "explicit", "instruction": "The full name of the passport holder" } } }'

命令會使用指定的結構描述建立新的藍圖。然後,您可以在處理文件時使用此藍圖,根據您定義的結構描述擷取結構化資料。

使用您的藍圖

將藍圖新增至專案

若要將藍圖新增至您的專案,請使用 update-data-automation-project命令:

aws bedrock-data-automation update-data-automation-project \ --project-arn "Amazon Resource Name (ARN)" \ --standard-output-configuration '{ "image": { "extraction": { "category": { "state": "ENABLED", "types": ["TEXT_DETECTION"] }, "boundingBox": { "state": "ENABLED" } }, "generativeField": { "state": "ENABLED", "types": ["IMAGE_SUMMARY"] } } }' \ --custom-output-configuration '{ "blueprints": [ { "blueprintArn": "Amazon Resource Name (ARN)", "blueprintVersion": "1", "blueprintStage": "LIVE" } ] }'

驗證藍圖整合

您可以使用 get-data-automation-project命令來驗證藍圖整合:

aws bedrock-data-automation get-data-automation-project \ --project-arn "Amazon Resource Name (ARN)"

管理多個藍圖

使用 list-blueprints命令來檢視您的所有藍圖:

aws bedrock-data-automation list-blueprints

處理文件

設定專案後,您可以使用 invoke-data-automation-async命令處理文件:

aws bedrock-data-automation-runtime invoke-data-automation-async \ --input-configuration '{ "s3Uri": "s3://my-bda-documents/invoices/invoice-123.pdf" }' \ --output-configuration '{ "s3Uri": "s3://my-bda-documents/output/" }' \ --data-automation-configuration '{ "dataAutomationProjectArn": "Amazon Resource Name (ARN)", "stage": "LIVE" }' \ --data-automation-profile-arn "Amazon Resource Name (ARN)"

命令會傳回呼叫 ARN,您可以用來檢查處理狀態:

{ "invocationArn": "Amazon Resource Name (ARN)" }

檢查處理狀態

若要檢查處理任務的狀態,請使用 get-data-automation-status命令:

aws bedrock-data-automation-runtime get-data-automation-status \ --invocation-arn "Amazon Resource Name (ARN)"

命令會傳回處理任務的目前狀態:

{ "status": "COMPLETED", "creationTime": "2025-07-09T12:34:56.789Z", "lastModifiedTime": "2025-07-09T12:45:12.345Z", "outputLocation": "s3://my-bda-documents/output/efgh5678/" }

可能的狀態值包括:

  • IN_PROGRESS:處理任務目前正在執行中。

  • COMPLETED:處理任務已成功完成。

  • FAILED:處理任務失敗。檢查回應以取得錯誤詳細資訊。

  • STOPPED:處理任務已手動停止。

擷取結果

處理完成後,您可以列出 S3 儲存貯體中的輸出檔案:

aws s3 ls s3://my-bda-documents/output/efgh5678/

若要將結果下載到您的本機電腦:

aws s3 cp s3://my-bda-documents/output/efgh5678/ ~/Downloads/bda-results/ --recursive

輸出包含根據您的專案組態和您已套用的任何藍圖的結構化資料。