使用 VPC 端點網路爬取 Amazon S3 資料存放區 - AWS Glue

本文為英文版的機器翻譯版本,如內容有任何歧義或不一致之處,概以英文版為準。

使用 VPC 端點網路爬取 Amazon S3 資料存放區

出於安全性、稽核或控制目的,您可能希望 Amazon S3 資料存放區或 Amazon S3 支援的 Data Catalog 資料表只能透過 Amazon Virtual Private Cloud 環境 (Amazon VPC) 存取。本主題說明如何使用 Network 連線類型,在 VPC 端點中建立和測試 Amazon S3 資料存放區或 Amazon S3 支援的資料目錄資料表的連線。

執行下列工作,以在資料存放區上執行爬蟲程式:

必要條件

檢查您是否符合這些先決條件,以便將 Amazon S3 資料存放區或 Amazon S3 支援的資料型錄資料表設定為透過 Amazon Virtual Private Cloud 環境 (Amazon VPC) 存取。

  • 已設定的 VPC。例如:vpc-01685961063b0d84b。如需詳細資訊,請參閱 Amazon VPC 使用者指南中的 Amazon VPC 入門

  • 連接到 VPC 的 Amazon S3 端點。例如:vpc-01685961063b0d84b。如需詳細資訊,請參閱 Amazon VPC 使用者指南中的適用於 Amazon S3 的端點

    連接到 VPC 的 Amazon S3 端點範例。
  • 指向 VPC 端點的路由項目。例如,VPC 端點 (vpce-0ec5da4d265227786) 所使用的路由表中的 vpce-0ec5da4d265227786。

    指向 VPC 端點的路由項目範例。
  • 連接到 VPC 的網路 ACL 允許流量。

  • 連接至 VPC 的安全群組允許流量。

建立與 Amazon S3 的連線

通常,您是在 Amazon Virtual Private Cloud (Amazon VPC) 內部建立資源,因此無法經由公有網際網路進行存取。依預設,AWS Glue 無法存取 VPC 之內的資源。要讓 AWS Glue 存取 VPC 中的資源,您必須提供其他 VPC 特定的組態資訊,包括 VPC 子網路 ID 和安全群組 ID。建立 Network 連線時需要指定以下資訊:

  • VPC ID

  • VPC 內的子網路

  • 安全群組

設定 Network 連線:

  1. 選擇 AWS Glue 主控台導覽窗格中的 Add connection (新增連線)。

  2. 輸入連線名稱,選擇 Network (網路) 做為連線類型。選擇 Next (下一步)。

    選取連線類型。
  3. 設定 VPC、子網路和安全群組資訊。

    • VPC:選擇包含資料存放區的 VPC 名稱。

    • 子網路:選擇 VPC 中的子網路。

    • 安全群組:選擇一個或多個允許存取 VPC 中資料存放區的安全群組。

    選取連線類型。
  4. 選擇 Next (下一步)。

  5. 驗證連線資訊,然後選擇 Finish (完成)。

    選取連線類型。

測試與 Amazon S3 的連線

建立您的 Network 連線後,您可以在 VPC 端點中測試與 Amazon S3 資料存放區的連線。

測試連線時,可能會發生下列錯誤:

  • INTERNET CONNECTION ERROR:表示網際網路連線問題

  • INVALID BUCKET ERROR:表示 Amazon S3 儲存貯體發生問題

  • S3 CONNECTION ERROR:表示無法連線至 Amazon S3

  • INVALID CONNECTION TYPE:表示連線類型沒有預期的值,NETWORK

  • INVALID CONNECTION TEST TYPE:表示網路連線測試類型有問題

  • INVALID TARGET:表示尚未正確指定 Amazon S3 儲存貯體

測試 Network 連線:

  1. 在 AWS Glue 主控台中選取 Network (網路) 連線。

  2. 選擇 Test connection (測試連線)。

  3. 選擇您在上一步驟中建立的 IAM 角色,並指定 Amazon S3 儲存貯體。

  4. 選擇 Test connection (測試連線) 開始測試。可能需要幾分鐘才能顯示結果。

測試連線。

如果您收到錯誤,請檢查下列項目:

  • 系統會為所選角色提供正確的權限。

  • 已提供正確的 Amazon S3 儲存貯體。

  • 安全群組和網路 ACL 允許所需的輸入和輸出流量。

  • 您指定的 VPC 已連線到 Amazon S3 VPC 端點。

成功測試連線後,您就可以建立爬蟲程式。

為 Amazon S3 資料存放區建立爬蟲程式

您現在可以建立爬蟲程式來指定您已建立的 Network 連線。如需建立爬蟲程式的詳細資訊,請參閱設定爬行者程式

  1. 首先選擇 AWS Glue 主控台導覽窗格中的 Crawlers (爬蟲程式)

  2. 選擇 Add crawler (新增爬蟲程式)。

  3. 指定爬蟲程式名稱,然後選擇 Next (下一步)。

  4. 系統詢問資料來源時,請選擇 S3,然後指定 Amazon S3 儲存貯體字首和您先前建立的連線。

    測試連線。
  5. 如果需要,請在相同的網路連線上新增其他資料存放區。

  6. 選擇 IAM 角色。IAM 角色必須允許存取 AWS Glue 服務和 Amazon S3 儲存貯體。如需詳細資訊,請參閱 設定爬行者程式

    測試連線。
  7. 定義爬蟲程式的排程。

  8. 在 Data Catalog 中選擇既有的資料庫,或建立新的資料庫項目。

    測試連線。
  9. 完成剩餘的設定。

為 Amazon S3 支援的 Data Catalog 資料表建立爬蟲程式

您現在可以建立爬蟲程式來指定您已建立的 Network 連線和目錄來源類型。如需建立爬蟲程式的詳細資訊,請參閱 設定爬行者程式

  1. 首先選擇 AWS Glue 主控台導覽窗格中的 Crawlers (爬蟲程式)

  2. 選擇 Add crawler (新增爬蟲程式)。

  3. 指定爬蟲程式名稱,然後選擇 Next (下一步)。

  4. 當系統要求提供爬蟲程式來源類型時,選擇 Existing catalog tables (現有目錄資料表),並指定要從可用資料表清單中搜尋的現有目錄資料表。

    選擇爬蟲程式來源類型。
  5. 選擇 IAM 角色。IAM 角色必須允許存取 AWS Glue 服務和 Amazon S3 儲存貯體。如需詳細資訊,請參閱 設定爬行者程式

  6. 定義爬蟲程式的排程。

  7. 在 Data Catalog 中選擇既有的資料庫,或建立新的資料庫項目。

  8. 完成剩餘的設定並審查您的步驟。

    選擇爬蟲程式來源類型。

執行爬蟲程式

執行您的爬蟲程式。

隨需執行您的爬蟲程式。

故障診斷

如需使用 VPC 閘道與 Amazon S3 儲存貯體相關的疑難排解,請參閱為什麼我無法使用閘道 VPC 端點連接到 S3 儲存貯體?