とは AWS Lake Formation - AWS Lake Formation

翻訳は機械翻訳により提供されています。提供された翻訳内容と英語版の間で齟齬、不一致または矛盾がある場合、英語版が優先します。

とは AWS Lake Formation

AWS Lake Formation デベロッパーガイドへようこそ。

AWS Lake Formation は、分析と機械学習のためにデータを一元的に管理、保護、グローバルに共有できるようにします。Lake Formation では、Amazon Simple Storage Service (Amazon S3) 上のデータレイクデータと AWS Glue Data Catalogの関連メタデータに対するきめ細かなアクセスコントロールを管理できます。

Lake Formation は、アクセス許可モデルを強化する独自のIAMアクセス許可モデルを提供します。Lake Formation アクセス許可モデルは、リレーショナルデータベース管理システム () のように、シンプルな許可または取り消しメカニズムを通じて、データレイクに保存されているデータへのきめ細かなアクセスを可能にしますRDBMS。Lake Formation のアクセス許可は、Amazon Athena 、、Amazon Redshift Spectrum、Amazon 、 などの AWS 分析および機械学習サービス全体で、列 Amazon QuickSight、行EMR、セルレベルで詳細なコントロールを使用して適用されます AWS Glue。

の Lake Formation ハイブリッドアクセスモードでは AWS Glue Data Catalog 、Amazon S3 と AWS Glue アクションの Lake Formation アクセス許可とIAMアクセス許可ポリシーの両方を使用して、カタログ化されたデータを保護およびアクセスできます。ハイブリッドアクセスモードを使用すると、データ管理者は一度に 1 つのデータレイクのユースケースに絞って、選択的かつ段階的に Lake Formation のアクセス許可をオンボーディングできます。

Lake Formation では、複数の AWS 、組織間で内部および外部でデータを共有したり AWS アカウント、別のアカウントのIAMプリンシパルと直接共有したりして、 AWS Glue Data Catalog メタデータと基盤となるデータにきめ細かなアクセスを提供したりできます。

Lake Formation の機能

Lake Formation は、データサイロを分解し、異なるタイプの構造化および非構造化データを一元化されたリポジトリに統合するために役立ちます。まず、Amazon S3 またはリレーショナルデータベースと NoSQL データベースの既存のデータストアを特定し、データをデータレイクに移動します。その後、分析のためにデータのクロール、カタログ化、および準備を行います。次に、ユーザーが選択した分析サービス経由でのデータへのセキュアなセルフサービスアクセスをユーザーに提供します。

データインジェストと管理

に既に存在するデータベースからデータをインポートする AWS

既存のデータベースの場所を指定し、アクセス認証情報を指定すると、Lake Formation がデータソースの内容を理解するためにデータとそのメタデータ (スキーマ) を読み取ります。その後、Lake Formation がデータを新しいデータレイクにインポートし、メタデータを中央カタログに記録します。Lake Formation を使用すると、Amazon で実行されている、RDSまたは Amazon でホストされている My SQL、Postgre SQL、SQLサーバー、MariaDB 、および Oracle データベースからデータをインポートできますEC2。データのロードは一括と増分の両方がサポートされています。

その他の外部ソースからデータをインポートする

Lake Formation を使用して、Java Database Connectivity () に接続することで、オンプレミスデータベースからデータを移動できますJDBC。コンソールでターゲットソースを特定し、アクセス認証情報を提供すると、Lake Formation がデータを読み取って、データレイクにロードします。上記のデータベース以外のデータベースからデータをインポートするには、 を使用してカスタムETLジョブを作成できます AWS Glue。

データをカタログ化してラベル付けする

AWS Glue クローラーを使用して Amazon S3 でデータを読み、データベースとテーブルスキーマを抽出し、そのデータを検索可能な に保存できます AWS Glue Data Catalog。次に、Lake Formation Lake Formation のタグベースのアクセス制御 (TBAC) を使用して、データベース、テーブル、列に対するアクセス許可を管理します。Data Catalog へのテーブルの追加に関する詳細については、「Data Catalog のテーブルとデータベースの作成」を参照してください。

セキュリティ管理

アクセスコントロールを定義して管理する

Lake Formation では、データレイク内のデータに対するアクセスコントロールを 1 か所で管理できます。データベース、テーブル、列、行、およびセルレベルでデータへのアクセスを制限するセキュリティポリシーを定義できます。これらのポリシーは、IAM外部 ID プロバイダーをフェデレーションするときに、ユーザーとロール、およびユーザーとグループに適用されます。きめ細かなコントロールを使用して、Amazon Redshift Spectrum、Athena AWS Glue ETL、Amazon EMR for Apache Spark 内の Lake Formation で保護されたデータにアクセスできます。IAM ID を作成するときは、必ずIAMベストプラクティスに従ってください。詳細については、IAM「 ユーザーガイド」の「セキュリティのベストプラクティス」を参照してください。

ハイブリッドアクセスモード

Lake Formation ハイブリッドアクセスモードでは、 AWS Glue Data Catalog内のデータベースとテーブルの Lake Formation 許可を柔軟かつ選択的に有効にできます。ハイブリッドアクセスモードを使用すると、他の既存のユーザーやワークロードのアクセス許可ポリシーを中断することなく、特定のユーザーのセットに Lake Formation 許可を設定できる増分パスが導入されました。詳細については、「ハイブリッドアクセスモード」を参照してください。

監査ロギングを実装する

Lake Formation は、 で包括的な監査ログ CloudTrail を提供し、アクセスをモニタリングし、一元的に定義されたポリシーへのコンプライアンスを示します。Lake Formation を介してデータレイク内のデータを読み取る分析および機械学習サービス全体のデータアクセス履歴を監査できます。この機能により、どのユーザーまたはロールが、どのサービスを使用して、どのデータにいつアクセスしようとしたのかを確認することができます。監査ログには、 APIsおよび コンソールを使用して CloudTrail他の CloudTrail ログにアクセスするのと同じ方法でアクセスできます。 CloudTrail ログの詳細については、「」を参照してくださいを使用した AWS Lake Formation API コールのログ記録 AWS CloudTrail

行およびセルレベルのセキュリティ

Lake Formation は、列と行の組み合わせに対するアクセスの制限を可能にするデータフィルターを提供します。行とセルレベルのセキュリティを使用して、個人を特定できる情報 () などの機密データを保護しますPII。行レベルのセキュリティに関する詳細については、「Lake Formation でのデータフィルタリングとセルレベルのセキュリティ」を参照してください。

タグベースのアクセスコントロール

Lake Formation タグベースのアクセスコントロールを使用して、LF タグと呼ばれるカスタムラベルを作成して、数百または数千のデータアクセス許可を管理します。LF タグを定義し、データベース、テーブル、または列にアタッチできるようになりました。次に、分析、機械学習 (ML)、および消費のための抽出、変換、ロード (ETL) サービス間で制御されたアクセスを共有します。LF タグを使用すると、数千のリソースのポリシー定義をいくつかの論理タグに置き換えることで、データガバナンスを簡単にスケーリングできます。Lake Formation は、このメタデータに対するテキストベースの検索機能を提供するため、ユーザーは分析する必要があるデータをすばやく見つけることができます。

クロスアカウントアクセス

Lake Formation のアクセス許可管理機能は、一元化されたアプローチを通じて複数の AWS アカウントにわたる分散データレイクの保護と管理を簡素化し、データカタログと Amazon S3 の場所へのきめ細かなアクセス制御を提供します。詳細については、「Lake Formation でのクロスアカウントデータ共有」を参照してください。

データ共有

データ共有機能を使用すると、データやメタデータを Amazon S3 や AWS Glue Data Catalogに移行しなくても、Amazon Redshift などのさまざまなデータソースに保存されているデータセットに対するアクセス許可を設定できます。Lake Formation のデータを共有するには、次の方法を使用できます。

詳細については、「Lake Formation でのデータ共有」を参照してください。

  • Lake Formation と Amazon Redshift データ共有の統合 – Lake Formation を使用すると、Amazon Redshift データ共有のデータベース、テーブル、列、および行レベルのアクセス許可を一元管理し、データ共有内のオブジェクトへのユーザーアクセスを制限できます。

  • 外部メタストア AWS Glue Data Catalog への接続 – Lake Formation を使用して Amazon S3 のデータセットに対するアクセス許可を管理するために、外部メタストア AWS Glue Data Catalog に接続します。メタデータを に移行 AWS Glue Data Catalog する必要はありません。

    詳細については、「外部メタストアを使用するデータセットのアクセス許可の管理」を参照してください

  • Lake Formation と AWS Data Exchange の統合 – Lake Formation は、 を介したデータへのアクセスのライセンスをサポートします AWS Data Exchange。Lake Formation データのライセンスに関心をお持ちの場合は、AWS Data Exchange ユーザーガイドの「AWS Data Exchangeとは」を参照してください。

Lake Formation の使用の開始

以下のセクションから開始することが推奨されます。