へのデータの取り込み AWS Glue Data Catalog - AWS Lake Formation

翻訳は機械翻訳により提供されています。提供された翻訳内容と英語版の間で齟齬、不一致または矛盾がある場合、英語版が優先します。

へのデータの取り込み AWS Glue Data Catalog

AWS Glue Data Catalog (データカタログ) でフェデレーティッドカタログを作成し、Amazon S3 データレイクと Amazon Redshift データウェアハウス間でデータを統合できます。また、 などの運用データベースや、PostgreSQL Amazon DynamoDB、Google BigQuery、MySQL などのサードパーティーデータソースからのデータを統合することもできます。データカタログは、一元化されたメタデータリポジトリを提供し、異種システム間でのデータの管理と発見を容易にします。

データカタログは、フェデレーティッドコネクタを介して 30 個を超える外部データソースと統合されます。この統合により、 AWS データパイプラインを構築して最初にデータを に取り込むことなく、これらの外部ソースからデータをクエリできます。

外部データをカタログ化した後、 AWS Lake Formation を使用して Data Catalog 内のデータアクセス許可を一元管理できます。データレイク管理者は、タグベースのアクセスコントロール (LF タグ) と名前付きリソースメソッドを使用して、同じアカウント内またはアカウント間で、他の IAM プリンシパル (ユーザーまたはロール) にきめ細かなアクセス許可を付与できます。

LF タグを使用すると、データ管理者はドメインや機密性レベルなどの属性に基づいてリソースを論理的に整理できるため、アクセス許可管理を簡素化しながら、Athena、Amazon EMR、 AWS Glue Redshift Spectrum などの分析および機械学習サービス間で一貫したアクセスコントロールを確保できます。

データカタログは、外部データセットと外部メタストアのデータとアクセス許可を管理するために、次の方法を提供します。

  • Amazon S3 Table バケットを Data Catalog と統合する – Amazon S3 Tables を Data Catalog オブジェクトとして公開およびカタログ化し、Lake Formation コンソールまたは AWS Glue API オペレーションを使用して、カタログを Lake Formation データの場所として登録できます。

  • Amazon Redshift データウェアハウスにデータを取り込む – AWS Glue Data Catalog既存の Amazon Redshift 名前空間またはクラスターをデータカタログに登録し、データカタログにマルチレベルフェデレーティッドカタログを作成します。

    Amazon EMR Serverless や Amazon Athena などの、Apache Iceberg REST カタログ OpenAPI 仕様と互換性のある任意のクエリエンジンを使用してデータにアクセスできます。

  • リモートIceberg RESTカタログをデータカタログにフェデレーションする – リモートIceberg RESTカタログをデータカタログにフェデレーションし、 AWS 分析エンジンを使用して Amazon S3 に保存されているリモートIcebergテーブルに安全にアクセスします。

  • 外部データソースから Data Catalog にフェデレーションする – AWS Glue 接続を使用して Data Catalog を外部データソースに接続し、フェデレーションカタログを作成して Lake Formation を使用してデータセットへのアクセス許可を一元管理します。データカタログへのメタデータの移行は不要です。

  • データカタログで Amazon Redshift テーブルを管理するカタログを作成する – 現在、Amazon Redshift プロデューサークラスターや Amazon Redshift データ共有は利用できないが、データカタログで Amazon Redshift テーブルを作成して管理する必要がある場合があります。glue:CreateCatalog API オペレーションまたは AWS Lake Formation コンソールを使用して AWS Glue マネージドカタログを作成し、カタログタイプを Managed とし、Catalog sourceRedshift と設定することで開始できます。

  • Amazon Redshift データ共有をデータカタログで公開するAmazon Redshift データ共有をデータカタログに公開し、Lake Formation を使用してデータ共有のデータアクセスを一元管理し、ユーザーアクセスを制限します。

    Amazon Redshift Spectrum を使用したデータのクエリ

  • データカタログを外部 Hive メタストアに接続する - データカタログを外部メタストアに接続し、Lake Formation を使用して Amazon S3 のデータセットに対するアクセス許可を管理します。データカタログへのメタデータの移行は不要です。

  • Lake Formation と AWS Data Exchange の統合 – Lake Formation は、 を介したデータへのアクセスのライセンスをサポートしています AWS Data Exchange。Lake Formation データのライセンスを付与する場合は、「AWS Data Exchange ユーザーガイドの「AWS Data Exchangeとは」を参照してください。