Amazon Bedrock Data Automation CLI の使用 - Amazon Bedrock

翻訳は機械翻訳により提供されています。提供された翻訳内容と英語版の間で齟齬、不一致または矛盾がある場合、英語版が優先します。

Amazon Bedrock Data Automation CLI の使用

Amazon Bedrock データ自動化 (BDA) 機能は、データを処理するための合理化された CLI ワークフローを提供します。すべてのモダリティについて、このワークフローは、プロジェクトの作成、カスタム出力の設計図の作成、ドキュメントの処理の 3 つの主要なステップで構成されます。このガイドでは、BDA を使用するための主要な CLI コマンドについて説明します。

最初の Data Automation プロジェクトを作成する

BDA の使用を開始するには、まず create-data-automation-project コマンドを使用してプロジェクトを作成します。

処理するこのサンプルパスポートを考えてみましょう。

プロジェクトを作成するときは、処理するファイルのタイプの構成設定を定義する必要があります。次のコマンドは、画像処理プロジェクトを作成するための最小限の作業例を示しています。

aws bedrock-data-automation create-data-automation-project \ --project-name "ImageProcessingProject" \ --standard-output-configuration '{ "image": { "extraction": { "category": { "state": "ENABLED", "types": ["TEXT_DETECTION"] }, "boundingBox": { "state": "ENABLED" } }, "generativeField": { "state": "ENABLED" } } }'

コマンドは入力設定を検証し、一意の ARN を持つ新しいプロジェクトを作成します。レスポンスには、プロジェクト ARN とステージが含まれます。

{ "projectArn": "Amazon Resource Name (ARN)", "projectStage": "DEVELOPMENT", "status": "IN_PROGRESS" }

パラメータなしでプロジェクトが作成された場合、デフォルト設定が適用されます。たとえば、画像を処理する場合、画像の要約とテキスト検出はデフォルトで有効になります。

完全なパラメータリファレンス

次の表は、 create-data-automation-project コマンドで使用可能なすべてのパラメータを示しています。

create-data-automation-project のパラメータ
[Parameter] (パラメータ) 必須 デフォルト [Description] (説明)
--project-name あり 該当なし データ自動化プロジェクトの名前
--project-stage なし LIVE プロジェクトのステージ (開発またはライブ)
--standard-output-configuration あり 該当なし 標準出力処理の JSON 設定
--custom-output-configuration なし 該当なし カスタム出力処理の JSON 設定
--encryption-configuration なし 該当なし プロジェクトの暗号化設定
--client-token なし 自動生成 リクエストべき等性の一意の識別子

設計図の作成

プロジェクトを作成したら、 ブループリントを作成して、 create-blueprint コマンドを使用してデータ処理の構造を定義できます。

パスポート処理に合わせた設計図を作成するための最小限の作業例を次に示します。

aws bedrock-data-automation create-blueprint \ --blueprint-name "passport-blueprint" \ --type "IMAGE" \ --blueprint-stage "DEVELOPMENT" \ --schema '{ "class": "Passport", "description": "Blueprint for processing passport images", "properties": { "passport_number": { "type": "string", "inferenceType": "explicit", "instruction": "The passport identification number" }, "full_name": { "type": "string", "inferenceType": "explicit", "instruction": "The full name of the passport holder" } } }'

コマンドは、指定されたスキーマを使用して新しいブループリントを作成します。その後、ドキュメントを処理するときにこのブループリントを使用して、定義されたスキーマに従って構造化データを抽出できます。

設計図の使用

プロジェクトへの設計図の追加

ブループリントをプロジェクトに追加するには、 update-data-automation-project コマンドを使用します。

aws bedrock-data-automation update-data-automation-project \ --project-arn "Amazon Resource Name (ARN)" \ --standard-output-configuration '{ "image": { "extraction": { "category": { "state": "ENABLED", "types": ["TEXT_DETECTION"] }, "boundingBox": { "state": "ENABLED" } }, "generativeField": { "state": "ENABLED", "types": ["IMAGE_SUMMARY"] } } }' \ --custom-output-configuration '{ "blueprints": [ { "blueprintArn": "Amazon Resource Name (ARN)", "blueprintVersion": "1", "blueprintStage": "LIVE" } ] }'

ブループリント統合の検証

ブループリント統合は、 get-data-automation-project コマンドを使用して確認できます。

aws bedrock-data-automation get-data-automation-project \ --project-arn "Amazon Resource Name (ARN)"

複数の設計図の管理

list-blueprints コマンドを使用して、すべてのブループリントを表示します。

aws bedrock-data-automation list-blueprints

ドキュメントの処理

プロジェクトをセットアップしたら、 invoke-data-automation-async コマンドを使用してドキュメントを処理できます。

aws bedrock-data-automation-runtime invoke-data-automation-async \ --input-configuration '{ "s3Uri": "s3://my-bda-documents/invoices/invoice-123.pdf" }' \ --output-configuration '{ "s3Uri": "s3://my-bda-documents/output/" }' \ --data-automation-configuration '{ "dataAutomationProjectArn": "Amazon Resource Name (ARN)", "stage": "LIVE" }' \ --data-automation-profile-arn "Amazon Resource Name (ARN)"

コマンドは、処理ステータスの確認に使用できる呼び出し ARN を返します。

{ "invocationArn": "Amazon Resource Name (ARN)" }

処理ステータスを確認する

処理ジョブのステータスを確認するには、 get-data-automation-status コマンドを使用します。

aws bedrock-data-automation-runtime get-data-automation-status \ --invocation-arn "Amazon Resource Name (ARN)"

コマンドは、処理ジョブの現在のステータスを返します。

{ "status": "COMPLETED", "creationTime": "2025-07-09T12:34:56.789Z", "lastModifiedTime": "2025-07-09T12:45:12.345Z", "outputLocation": "s3://my-bda-documents/output/efgh5678/" }

使用可能なステータス値は次のとおりです。

  • IN_PROGRESS: 処理ジョブは現在実行中です。

  • COMPLETED: 処理ジョブが正常に完了しました。

  • FAILED: 処理ジョブが失敗しました。エラーの詳細については、レスポンスを確認してください。

  • STOPPED: 処理ジョブが手動で停止されました。

結果の取得

処理が完了したら、S3 バケット内の出力ファイルを一覧表示できます。

aws s3 ls s3://my-bda-documents/output/efgh5678/

ローカルマシンに結果をダウンロードするには:

aws s3 cp s3://my-bda-documents/output/efgh5678/ ~/Downloads/bda-results/ --recursive

出力には、プロジェクト設定と適用したブループリントに基づく構造化データが含まれます。