選取您的 Cookie 偏好設定

我們使用提供自身網站和服務所需的基本 Cookie 和類似工具。我們使用效能 Cookie 收集匿名統計資料,以便了解客戶如何使用我們的網站並進行改進。基本 Cookie 無法停用,但可以按一下「自訂」或「拒絕」以拒絕效能 Cookie。

如果您同意,AWS 與經核准的第三方也會使用 Cookie 提供實用的網站功能、記住您的偏好設定,並顯示相關內容,包括相關廣告。若要接受或拒絕所有非必要 Cookie,請按一下「接受」或「拒絕」。若要進行更詳細的選擇,請按一下「自訂」。

設定 Amazon EMR 叢集的網路存取

焦點模式
設定 Amazon EMR 叢集的網路存取 - Amazon SageMaker AI

本文為英文版的機器翻譯版本,如內容有任何歧義或不一致之處,概以英文版為準。

本文為英文版的機器翻譯版本,如內容有任何歧義或不一致之處,概以英文版為準。

開始使用 Amazon EMR 或 EMR Serverless 進行 Studio 中的資料準備任務之前,請確定您或您的管理員已設定您的網路,以允許 Studio 和 Amazon EMR 之間的通訊。啟用此通訊後,您可以選擇:

注意

對於 EMR Serverless 使用者,最簡單的設定包括在 Studio UI 中建立應用程式,而不修改虛擬私有雲端 (VPC) 選項的預設設定。此方法可讓應用程式在 SageMaker 網域的 VPC 內建立,無需額外的聯網組態。如果您選擇此選項,您可以略過下列聯網設定區段。

網路指示會根據 Studio 和 Amazon EMR 部署在私有 Amazon Virtual Private Cloud (VPC) 內或透過網際網路通訊而有所不同。

根據預設,Studio 或 Studio Classic 會在具有網際網路存取的 AWS 受管 VPC 中執行。使用網際網路連線時,Studio 和 Studio Classic 會透過網際網路存取 AWS 資源,例如 Amazon S3 儲存貯體。不過,如果您有安全需求來控制對資料和任務容器的存取,建議您設定 Studio 或 Studio Classic 和 Amazon EMR,以便無法透過網際網路存取您的資料和容器。若要控制對 資源的存取,或在沒有公有網際網路存取的情況下執行 Studio 或 Studio Classic,您可以在加入 Amazon SageMaker AI 網域時指定VPC only網路存取類型。在此案例中,Studio 和 Studio Classic 都會透過私有 VPC 端點與其他 AWS 服務建立連線。如需在 VPC only 模式中設定 Studio 或 Studio Classic 的資訊,請參閱將 VPC 中的 SageMaker Studio 或 Studio Classic 筆記本連線至外部資源。

前兩個章節說明如何確保在 VPCs,無需公有網際網路存取。最後一節介紹如何使用網際網路連線確保 Studio 或 Studio Classic 與 Amazon EMR 之間的通訊。在沒有網際網路存取的情況下連接 Studio 或 Studio Classic 和 Amazon EMR 之前,請務必為 Amazon Simple Storage Service (資料儲存)、Amazon CloudWatch (記錄和監控) 和 Amazon SageMaker 執行期 (精細的角色型存取控制 (RBAC)) 建立端點。

若要連接 Studio 或 Studio Classic 和 Amazon EMR:

Studio 和 Amazon EMR 位於不同的 VPCs中

若要允許 Studio 或 Studio Classic 與 Amazon EMR 在個別 VPCs中部署時進行通訊:

  1. 首先,透過 VPC 對等連線連線您的 VPC。

  2. 更新每個 VPC 中的路由表,以雙向路由 Studio 或 Studio Classic 子網路與 Amazon EMR 子網路之間的網路流量。

  3. 設定您的安全群組以允許傳入和傳出流量。

無論資源部署在單一 AWS 帳戶 (單一帳戶使用案例) 中或跨多個 AWS 帳戶 (跨帳戶使用案例),連線 Studio 或 Studio Classic 和 Amazon EMR 的步驟都相同。

  1. VPC 對等互連

    建立 VPC 對等互連,以促進兩個 VPCs(Studio 或 Studio Classic 和 Amazon EMR) 之間的聯網。

    1. 從 Studio 或 Studio Classic 帳戶,在 VPC 儀表板上,選擇對等連線,然後選擇建立對等連線

    2. 建立您的請求,將 Studio 或 Studio Classic VPC 與 Amazon EMR VPC 對等。在另一個 AWS 帳戶中請求對等互連時,請在選取要對等互連的另一個 VPC 中選擇另一個帳戶

      對於跨帳戶對等互連,管理員必須接受來自 Amazon EMR 帳戶的請求。

      當對等私有子網路時,您應該在 VPC 對等連線層級啟用私有 IP DNS 解析。

  2. 路由表

    以兩種方式傳送 Studio 或 Studio Classic 子網路與 Amazon EMR 子網路之間的網路流量。

    建立對等連線後,管理員 (在每個帳戶上進行跨帳戶存取) 可以將路由新增至私有子網路路由表,以在 Studio 或 Studio Classic 與 Amazon EMR 子網路之間路由流量。您可以透過前往 VPC 儀表板每個 VPC 的路由表區段來定義這些路由。

    Studio VPC 子網路的路由表下圖顯示透過對等連線從 Studio 帳戶到 Amazon EMR VPC IP 範圍 (此處為 2.0.1.0/24) 的傳出路由範例。

    Studio VPC 子網路的路由表,顯示透過對等連線從 Studio 帳戶到 Amazon EMR VPC IP 範圍 (此處2.0.1.0/24) 的傳出路由

    下列 Amazon EMR VPC 子網路的路由表示透過對等連線從 Amazon EMR VPC 到 Studio VPC IP 範圍 (此處 10.0.20.0/24) 的傳回路由範例。

    Amazon EMR VPC 子網路的路由表,顯示透過對等連線從 Amazon EMR 帳戶到 Studio VPC IP 範圍 (此處為 10.0.20.0/24) 的傳回路由
  3. 安全群組

    最後,Studio 或 Studio Classic 網域的安全群組必須允許傳出流量,Amazon EMR 主節點的安全群組必須允許來自 Studio 或 Studio Classic 執行個體安全群組的 Apache LivyHivePresto TCP 連接埠 (分別是 8998100008889) 上的傳入流量。Apache Livy 是一種服務,可透過 REST 界面與 Amazon EMR 互動。

下圖顯示 Amazon VPC 設定的範例,該設定可讓 JupyterLab 或 Studio Classic 筆記本從 Service Catalog 中的 AWS CloudFormation 範本佈建 Amazon EMR 叢集,然後連線到相同 AWS 帳戶中的 Amazon EMR 叢集。當 VPCs 沒有網際網路存取時,圖表提供直接連線至各種 AWS 服務所需的端點額外圖解,例如 Amazon S3 或 Amazon CloudWatch。或者,必須使用 NAT 閘道,允許多個 VPC 私有子網路中的執行個體在存取網際網路時共用網際網路閘道所提供的單一公有 IP 地址。

架構圖說明簡單的 Amazon VPC 設定範例,該設定可讓 Studio 或 Studio Classic 筆記本從 Service Catalog 中的 AWS CloudFormation 範本佈建 Amazon EMR 叢集,然後連線到相同 AWS 帳戶中的 Amazon EMR 叢集。當 VPCs 沒有網際網路存取時,圖表提供直接連線至各種 AWS 服務所需的端點額外圖解,例如 Amazon S3 或 Amazon CloudWatch。或者,必須使用 NAT 閘道,允許多個 VPC 私有子網路中的執行個體在存取網際網路時共用網際網路閘道所提供的單一公有 IP 地址。

Studio 和 Amazon EMR 位於相同的 VPC 中

如果 Studio 或 Studio Classic 和 Amazon EMR 位於不同的子網路中,請將路由新增至每個私有子網路路由表,以在 Studio 或 Studio Classic 與 Amazon EMR 子網路之間路由流量。您可以透過前往 VPC 儀表板每個 VPC 的路由表區段來定義這些路由。如果您在相同的 VPC 和相同的子網路中部署 Studio 或 Studio Classic 和 Amazon EMR,則不需要在 Studio 和 Amazon EMR 之間路由流量。

無論您是否需要更新路由表,Studio 或 Studio Classic 網域的安全群組都必須允許傳出流量,Amazon EMR 主節點的安全群組都必須允許來自 Studio 或 Studio Classic 執行個體安全群組的 Apache LivyHivePresto TCP 連接埠 (分別是 8998100008889) 上的傳入流量。Apache Livy 是一種服務,可透過 REST 界面與 Amazon EMR 互動。

Studio 和 Amazon EMR 透過公有網際網路進行通訊

根據預設,Studio 和 Studio Classic 提供網路介面,允許透過與 SageMaker 網域相關聯的 VPC 中的網際網路閘道與網際網路通訊。如果您選擇透過公有網際網路連線至 Amazon EMR,Amazon EMR 需要接受來自其網際網路閘道的 Apache LivyHivePresto TCP 連接埠 (分別是 1000089988889) 上的傳入流量。Apache Livy 是一種服務,可透過 REST 界面與 Amazon EMR 互動。

請注意,允許傳入流量的任何連接埠都代表潛在安全漏洞。請詳閱自訂安全群組,以確保您將漏洞數量降至最低。如需更多資訊,請參閱使用安全群組控制網路流量

或者,請參閱部落格和白皮書以取得如何在 Amazon EMR 啟用 Kerberos、在私有子網路設定叢集,以及使用 Network Load Balancer (NLB) 存取叢集以僅公開特定連接埠 (透過安全群組進行存取控制) 的詳細演練。

注意

透過公有網際網路連線至 Apache Livy 端點時,建議您使用 TLS 保護 Studio 或 Studio Classic 與 Amazon EMR 叢集之間的通訊。

如需使用 Apache Livy 設定 HTTPS 的相關資訊,請參閱使用 Apache Livy 啟用 HTTPS。如需設定啟用傳輸加密的 Amazon EMR 叢集的相關資訊,請參閱提供用於使用 Amazon EMR 加密對傳輸中的資料進行加密的憑證。此外,您需要設定 Studio 或 Studio Classic 以存取 中指定的憑證金鑰透過 HTTPS 連線至 Amazon EMR 叢集

隱私權網站條款Cookie 偏好設定
© 2025, Amazon Web Services, Inc.或其附屬公司。保留所有權利。