AWS Glue ETL での信頼できる ID の伝播 - AWS Glue

AWS Glue ETL での信頼できる ID の伝播

IAM アイデンティセンターを使用すると、ID プロバイダー (IdP) に接続し、AWS 分析サービス全体のユーザーとグループのアクセスを一元管理できます。Okta、Ping、Microsoft Entra ID (以前は Azure Active Directory と呼ばれていました) などの ID プロバイダーを IAM アイデンティティセンターと統合すると、組織内のユーザーは、シングルサインオンエクスペリエンスを使用してデータにアクセスできるようになります。IAM アイデンティティセンターは、追加のサードパーティ ID プロバイダーとの接続もサポートしています。

AWS Glue 5.0 以降では、IAM アイデンティセンターから AWS Glue インタラクティブセッションにユーザー ID を伝播できます。AWS Glueインタラクティブセッションは、提供された ID をさらに Amazon S3 Access Grants、AWS Lake Formation、Amazon Redshift などのダウンストリームサービスに伝播し、これらのダウンストリームサービスでユーザー ID を介した安全なデータアクセスを可能にします。

概要

アイデンティティセンターは、組織の規模や種類を問わず、AWS における従業員の認証と認可に推奨されるアプローチです。Identity Center を使用すると、AWS でユーザー ID を作成・管理したり、あるいは Microsoft Active Directory、Okta、Ping Identity、JumpCloud、Google Workspace、Microsoft Entra ID (旧 Azure AD) などの既存の ID ソースを接続することができます。

信頼できる ID の伝播は、接続された AWS サービスの管理者がサービスデータへのアクセスを許可および監査するために使用できる IAM アイデンティセンターの機能です。このデータへのアクセスは、グループの関連付けなどのユーザー属性に基づいています。信頼された ID の伝播を設定するには、接続された AWS サービスの管理者と IAM アイデンティティセンターの管理者とのコラボレーションが必要です。

機能とメリット

AWS Glue インタラクティブセッションと IAM アイデンティセンターの統合による信頼できる ID の伝播には、次の利点があります。

  • Lake Formation マネージド AWS Glue データカタログテーブルのアイデンティセンター ID を使用して、テーブルレベルの認可ときめ細かなアクセスコントロールを適用する能力。

  • Amazon Redshift クラスターでアイデンティセンター ID による認可を適用する能力。

  • 監査用のユーザーアクションのエンドツーエンドの追跡の有効化。

  • Amazon S3 Access Grants が管理する Amazon S3 プレフィックスのアイデンティセンター ID を使用して Amazon S3 プレフィックスレベルの認可を適用する能力。

ユースケース

インタラクティブなデータ探索と分析

データエンジニアは、企業 ID を使用して、複数の AWS アカウントのデータにシームレスにアクセスして分析します。SageMaker Studio を介して、AWS Glue ETL 経由でインタラクティブな Spark セッションを起動し、Amazon S3 や AWS Glue データカタログなどのさまざまなデータソースに接続します。エンジニアがデータセットを調査すると、Spark は ID に基づいて Lake Formation で定義されたきめ細かなアクセスコントロールを適用し、承認されたデータのみを表示できるようにします。すべてのクエリとデータ変換はユーザーの ID と共に記録され、明確な監査証跡が作成されます。この合理化されたアプローチにより、クライアント環境全体で厳格なデータガバナンスを維持しながら、新しい分析製品の迅速なプロトタイピングが可能になります。

データの準備と特徴量エンジニアリング

複数の研究チームのデータサイエンティストが、統合されたデータプラットフォームを使用して複雑なプロジェクトで共同作業を行います。社内の認証情報を使用して SageMaker Studio にログインし、複数の AWS アカウントにまたがる膨大な共有データレイクに即座にアクセスします。新しい機械学習モデルの特徴量エンジニアリングを開始すると、AWS Glue ETL を通じて起動された Spark セッションは、伝播された ID に基づいて Lake Formation の列および行レベルのセキュリティポリシーを適用します。サイエンティストは使い慣れたツールを使用してデータやエンジニアリング機能を効率的に準備でき、コンプライアンスチームはすべてのデータインタラクションが確実に自動的に追跡および監査される体制が得られます。この安全で協調的な環境は、規制の厳しい業界で必要とされる厳格なデータ保護標準を維持しながら、研究パイプラインを加速します。

仕組み

AWS Glue インタラクティブセッションのワークフローを示すアーキテクチャ図。ユーザーは、IAM アイデンティセンターを介してクライアント向けアプリケーション (SageMaker Unified Studio、またはカスタムアプリケーション) にログインします。ユーザーの ID は AWS Glue インタラクティブセッションに伝播されます。インタラクティブセッションは、最後に S3 ストレージにアクセスする前に、IAM アイデンティティセンター、AWS Lake Formation、AWS Glue データカタログ、Amazon S3 Access Grants などのアクセスコントロールサービスに接続します。

ユーザーは、IAM アイデンティセンターを介して企業 ID を使用して、クライアント向けアプリケーション (SageMaker AI、またはカスタムアプリケーション) にログインします。その後、この ID はデータアクセスパイプライン全体に伝播されます。

認証されたユーザーは、データ処理のコンピューティングエンジンとして機能する AWS AWS Glue インタラクティブセッションを起動します。これらのセッションはワークフロー全体でユーザーの ID コンテキストを維持します。

AWS Lake Formation と AWS Glue データカタログは連携してきめ細かなアクセスコントロールを適用します。Lake Formation は、ユーザーの伝播された ID に基づいてセキュリティポリシーを適用します。一方、Amazon S3 Access Grants は追加のアクセス許可レイヤーを提供するため、ユーザーは表示が許可されているデータにのみアクセスできます。

最後に、システムは実際のデータが存在する Amazon S3 ストレージに接続します。すべてのアクセスは、統合されたセキュリティポリシーによって管理され、データガバナンスを維持しつつインタラクティブなデータ探索と分析を可能にします。このアーキテクチャにより、大規模なデータセットを扱うデータサイエンティストやエンジニアがシームレスなユーザーエクスペリエンスを維持しながら、複数の AWS サービス間で安全なアイデンティティベースのデータアクセスが可能になります。

統合

AWS マネージド開発環境

次の AWS マネージドクライアント向けアプリケーションは、AWS Glue インタラクティブセッションによる信頼できる ID 伝播をサポートしています。

Sagemaker Unified Studio

Sagemaker Unified Studio で信頼できる ID 伝播を使用するには、次を行います。

  1. クライアント向け開発環境として、信頼できる ID 伝播を有効にした Sagemaker Unified Studio プロジェクトを設定します。

  2. Lake Formation を設定して、IAM アイデンティセンターのユーザーまたはグループに基づいて AWS Glue テーブルのきめ細かなアクセスコントロールを有効にします。

  3. Amazon S3 Access Grants を設定して、Amazon S3 の基盤となるデータロケーションへの一時的なアクセスを有効にします。

  4. Sagemaker Unified Studio JupyterLab IDE スペースを開き、ノートブック実行のコンピューティングとして AWS Glue を選択します。

カスタマーマネージドセルフホスト型ノートブック環境

カスタム開発アプリケーションのユーザーに対して信頼できる ID 伝播を有効にするには、AWS セキュリティブログの「Access AWS services programmatically using trusted identity propagation」を参照してください。