AWS Lake Formation: 仕組み - AWS Lake Formation

翻訳は機械翻訳により提供されています。提供された翻訳内容と英語版の間で齟齬、不一致または矛盾がある場合、英語版が優先します。

AWS Lake Formation: 仕組み

AWS Lake Formationは、データLake Lake Lake Lake Lake Lake Lake Lake Formation、Lake Formation は、あなたが次のことを行うのに役立ちます, 直接または他の経由AWSサービス:

  • データLake Lake が存在する場所の Amazon Simple Storage Service (Amazon S3) バケットとパスを登録します。

  • 生データを取り込み、クレンジング、変換、整理するデータフローを調整します。

  • データレイク内のデータソースとデータに関するメタデータを含むデータカタログを作成および管理します。

  • 権限付与/取り消しモデルを使用して、メタデータとデータへの詳細なデータ・アクセス・ポリシーを定義します。

次の図は、Lake Formation でデータがロードされ、保護される方法を示しています。


            Amazon S3、リレーショナル、NoSQL データベースなどのソースから Amazon S3 データレイク、分析サービスまで、レイクフォーメーションを通じたデータの流れを示す図。

図が示すように、Lake Formation はAWS Glueクローラ、AWS GlueETL ジョブ、データカタログ、セキュリティ設定、およびアクセス制御 データがデータレイクに安全に保存されると、ユーザーは Amazon Athena、Amazon Redshift、Amazon EMR などの分析サービスを選択してデータにアクセスできます。

Lake Formation 用語

以下は、このガイドで遭遇するいくつかの重要な用語です。

データレイク

-データレイクは、Amazon S3 に保存され、データカタログを使用して Lake Formation によって管理される永続的なデータです。データレイクには、通常、次のものが格納されます。

  • 構造化データと非構造化データ

  • 生データと変換されたデータ

Amazon S3 パスがデータレイク内にあるためには、登録Lake Formation

データアクセス

Lake Formation は、新しい権限付与/取り消し権限モデルを通じて、データへの安全かつきめ細かなアクセスを提供します。AWS Identity and Access Management(IAM) ポリシーを使用します。

アナリストとデータサイエンティストは、AWS分析および機械学習サービス(Amazon Athena など)を使用して、データにアクセスできます。Lake Formation のセキュリティポリシーを設定することで、ユーザーは、アクセスが承認されているデータのみにアクセスできるようになります。

Blueprint

A設計図は、データレイクにデータを簡単に取り込むことができるデータ管理テンプレートです。Lake Formation には、リレーショナルデータベースやAWS CloudTrailログ。ブループリントから、ワークフローを作成できます。ワークフローは、AWS Glueデータのロードと更新を調整するために生成されるクローラ、ジョブ、トリガーです。ブループリントは、データソース、データターゲット、およびスケジュールを入力として受け取り、ワークフローを構成します。

Workflow

Aのワークフローは、関連する一連のコンテナですAWS Glueジョブ、クローラ、トリガーで構成されます。Lake Formation でワークフローを作成し、そのワークフローはAWS Glueサービス。Lake Formation では、ワークフローのステータスを単一のエンティティとして追跡できます。

ワークフローを定義するときは、ワークフローの基になるブループリントを選択します。ワークフローは、オンデマンドで、またはスケジュールで実行できます。

Lake Formation で作成したワークフローは、AWS Glueコンソールを、ディレクテッド Acyclic Graph (DAG) として追加します。DAG を使用すると、ワークフローの進行状況を追跡し、トラブルシューティングを実行できます。

データカタログ

-データカタログは永続的なメタデータストアです。これは、メタデータの保存、注釈付け、および共有ができるマネージド型サービスです。AWSApache Hive メタストアで行うのと同じようにクラウドを利用できます。これは、均一なリポジトリを備えており、異種システムがデータサイロのデータを追跡するためにメタデータを追跡するためにメタデータを見つけて保存することができます。Lake Formation は、AWS GlueデータLake Lake Lake、データソース、変換、およびターゲットについてのメタデータを保存します。

データソースとターゲットに関するメタデータは、データベースとテーブルの形式です。テーブルには、スキーマ情報、位置情報などが格納されます。データベースは、テーブルのコレクションです。Lake Formation は、データカタログ内のデータベースとテーブルへのアクセスを制御するためのアクセス許可の階層を備えています。

各AWSアカウントには、AWSリージョン。

基になるデータ

基になるデータは、データカタログテーブルが指すデータレイク内のソースデータまたはデータを指します。

Principal

Aプリンシパルである。AWS Identity and Access Management(IAM) ユーザー、ロール、または Active Directory ユーザー。

データLake Administr

Aデータレイク管理者は、任意のプリンシパル (self を含む) に任意のデータカタログリソースまたはデータの場所に対するアクセス許可を付与できるプリンシパルです。データレイク管理者を、データカタログの最初のユーザとして指定します。このユーザーは、リソースのより詳細なアクセス許可を他のプリンシパルに付与できます。

注記

IAM 管理ユーザー —AdministratorAccess AWS管理ポリシーは、自動的にデータレイク管理者ではありません。たとえば、カタログオブジェクトに対して Lake Formation のアクセス許可を付与することはできません。ただし、アクセス許可が付与されている場合を除きます。ただし、Lake Formation コンソールまたは API を使用して、自身をデータレイク管理者として指定できます。

データレイク管理者の機能の詳細については、」暗示的なLake Formation。ユーザーをデータレイク管理者として指定する方法については、」データレイク管理者の作成

Lake Formation

AWS Lake Formationは、複数のコンポーネントの相互作用に依存してデータLake Lake Lake Lake Lake を作成および管理しています。

Lake Formation

Lake Formation コンソールを使用して、データレイクを定義および管理し、レイクフォーメーション権限を付与および取り消します。コンソールでブループリントを使用して、データの検出、クレンジング、変換、取り込むことができます。Lake Formation の各ユーザーのコンソールへのアクセスを有効または無効にすることもできます。

Lake Formation APIおよびコマンドラインインターフェース

Lake Formation は、いくつかの言語に固有な SDK とAWS Command Line Interface(AWS CLI). Lake Formation API は、AWS GlueAPI. Lake Formation API は主にLake Formation 権限の管理に重点を置き、AWS GlueAPI は、データの ETL オペレーションの定義、スケジューリング、および実行のためのデータカタログ API と管理型インフラストラクチャを備えています。

の詳細については、「」を参照してください。AWS GlueAPI については、次を参照してください。AWS Glue開発者ガイド。の使用方法の詳細については、AWS CLIの詳細については、『AWS CLIコマンドリファレンス

その他の AWS サービス

Lake Formation は、以下のサービスを利用している。

  • AWS Glueを使用して、ジョブとクローラを調整してデータを変換するAWS Glueトランスフォーム。

  • IAMLake Formation プリンシパルにアクセス許可ポリシーを付与します。Lake Formation 権限モデルは、データレイクを保護するために IAM 権限モデルを強化します。