VPC エンドポイントを使用して Amazon S3 データストアをクロールする - AWS Glue

翻訳は機械翻訳により提供されています。提供された翻訳内容と英語版の間で齟齬、不一致または矛盾がある場合、英語版が優先します。

VPC エンドポイントを使用して Amazon S3 データストアをクロールする

セキュリティ、監査、またはコントロールの目的で、Amazon S3 データストアは Amazon Virtual Private Cloud 環境 (Amazon VPC) を通じてのみアクセスすることができます。このトピックでは、VPC エンドポイントで Amazon S3 データストアへの接続を作成およびテストする方法について説明します。Network接続タイプ。

データストアでクローラを実行するには、次のタスクを実行します。

Prerequisites

Amazon Virtual Private Cloud 環境 (Amazon VPC) を介して Amazon S3 データストアにアクセスするように設定するための前提条件を満たしていることを確認します。

  • 設定済みの VPC。例:vpc-01685961063b0d84b。詳細については、「」を参照してください。Amazon VPC の開始方法()Amazon VPC ユーザーガイド

  • VPC にアタッチされた Amazon S3 エンドポイント。例:vpc-01685961063b0d84b。詳細については、「」を参照してください。Amazon S3 におけるエンドポイント()Amazon VPC ユーザーガイド

    
                            VPC にアタッチされた Amazon S3 エンドポイントの例。
  • VPC エンドポイントを指すルートエントリ。たとえば、VPC エンドポイント(vpce-0ec5da4d265227786)で使用されるルートテーブルの vpce-0ec5da4d265227786。

    
                            VPC エンドポイントを指すルートエントリの例。
  • VPC にアタッチされたネットワーク ACL により、トラフィックが許可されます。

  • VPC にアタッチされたセキュリティグループは、トラフィックを許可します。

Amazon S3 への接続を作成する

通常、パブリックインターネットを通じてアクセスできないように、リソースは Amazon Virtual Private Cloud (Amazon VPC) 内に作成します。デフォルトでは、AWS Glue は VPC 内のリソースにアクセスできません。AWS Glue が VPC 内のリソースにアクセスできるようにするには、VPC サブネット ID やセキュリティグループ ID など、追加の VPC 固有設定情報を指定する必要があります。を作成するにはNetwork接続の場合、以下の情報を指定する必要があります。

  • VPC ID

  • VPC 内のサブネット

  • セキュリティグループ

をセットアップするにはNetwork接続:

  1. 選択接続を追加する[] ナビゲーションペインで、AWS Glueconsole.

  2. 接続名を入力し、ネットワークを接続タイプとして使用します。[Next] を選択します。

    
                            接続タイプ。
  3. VPC、サブネット、およびセキュリティグループの情報を設定します。

    • VPC: データストアを含む VPC 名を選択します。

    • サブネット:VPC 内のサブネットを選択します。

    • セキュリティグループ:VPC 内のデータストアへのアクセスを許可する 1 つ以上のセキュリティグループを選択します。

    
                            接続タイプ。
  4. [Next] を選択します。

  5. 接続情報を確認し、[] を選択します。完了

    
                            接続タイプ。

Amazon S3 への接続をテストします。

作成したらNetwork接続では、VPC エンドポイントの Amazon S3 データストアへの接続をテストできます。

接続のテスト時に、次のエラーが発生することがあります。

  • インターネット接続エラー:インターネット接続に問題があることを示します

  • 無効なバケットエラー:Amazon S3 バケットに問題があることを示します

  • S3 接続エラー:Amazon S3 への接続が失敗したことを示します。

  • 無効な接続タイプ:接続タイプに期待される値がないことを示します。NETWORK

  • 無効な接続テストタイプ:ネットワーク接続テストのタイプに問題があることを示します

  • 無効なターゲット:Amazon S3 バケットが正しく指定されていないことを示します。

をテストするにはNetwork接続:

  1. を選択します。ネットワークの接続AWS Glueconsole.

  2. [Test connection] を選択します。

  3. 前のステップで作成した IAM ロールを選択し、Amazon S3 バケットを指定します。

  4. 選択接続のテストをクリックしてテストを開始します。結果を表示するには少し時間がかかることがあります。


                    接続のテスト。

エラーが表示された場合は、次の点を確認してください。

  • 選択したロールに正しい権限が与えられます。

  • 正しい Amazon S3 バケットが用意されています。

  • セキュリティグループとネットワーク ACL により、必要な着信トラフィックと発信トラフィックが許可されます。

  • 指定した VPC は、Amazon S3 VPC エンドポイントに接続されています。

接続のテストに成功したら、クローラを作成できます。

クローラの作成

これで、[] を指定するクローラを作成できます。Network接続タイプ。クローラの作成の詳細については、AWS Glue コンソールでのクローラの使用

  1. まず、クローラ[] ナビゲーションペインで、AWS Glueconsole.

  2. [Add crawler (クローラの追加)] を選択します。

  3. クローラの名前を指定し、

  4. データソースを入力するプロンプトが表示されたら、[] を選択します。S3をクリックし、Amazon S3 バケットプレフィックスと前に作成した接続を指定します。

    
                            接続のテスト。
  5. 必要に応じて、同じネットワーク接続に別のデータストアを追加します。

  6. [IAM role] を選択します。IAM ロールは、AWS Glueサービスと Amazon S3 バケットです。詳細については、「AWS Glue コンソールでのクローラの使用」を参照してください。

    
                            接続のテスト。
  7. クローラのスケジュールを定義します。

  8. データカタログで既存のデータベースを選択するか、新しいデータベースエントリを作成します。

    
                            接続のテスト。
  9. 残りのセットアップを完了します。

クローラの実行

クローラを実行します。


                    オンデマンドでクローラを実行します。

Troubleshooting

VPC ゲートウェイを使用した Amazon S3 バケットに関するトラブルシューティングについては、ゲートウェイ VPC エンドポイントを使用して S3 バケットに接続できないのはなぜですか?