本文為英文版的機器翻譯版本,如內容有任何歧義或不一致之處,概以英文版為準。
開始使用 Amazon EMR 或 EMR Serverless 進行 Studio 中的資料準備任務之前,請確定您或您的管理員已設定您的網路,以允許 Studio 和 Amazon EMR 之間的通訊。啟用此通訊後,您可以選擇:
注意
對於 EMR Serverless 使用者,最簡單的設定包括在 Studio UI 中建立應用程式,而不修改虛擬私有雲端 (VPC) 選項的預設設定。此方法可讓應用程式在 SageMaker 網域的 VPC 內建立,無需額外的聯網組態。如果您選擇此選項,您可以略過下列聯網設定區段。
網路指示會根據 Studio 和 Amazon EMR 部署在私有 Amazon Virtual Private Cloud (VPC) 內或透過網際網路通訊而有所不同。
根據預設,Studio 或 Studio Classic 會在具有網際網路存取的 AWS 受管 VPC 中執行。使用網際網路連線時,Studio 和 Studio Classic 會透過網際網路存取 AWS 資源,例如 Amazon S3 儲存貯體。不過,如果您有安全需求來控制對資料和任務容器的存取,建議您設定 Studio 或 Studio Classic 和 Amazon EMR,以便無法透過網際網路存取您的資料和容器。若要控制對 資源的存取,或在沒有公有網際網路存取的情況下執行 Studio 或 Studio Classic,您可以在加入 Amazon SageMaker AI 網域時指定VPC only
網路存取類型。在此案例中,Studio 和 Studio Classic 都會透過私有 VPC 端點與其他 AWS 服務建立連線。如需在 VPC only
模式中設定 Studio 或 Studio Classic 的資訊,請參閱將 VPC 中的 SageMaker Studio 或 Studio Classic 筆記本連線至外部資源。
前兩個章節說明如何確保在 VPCs,無需公有網際網路存取。最後一節介紹如何使用網際網路連線確保 Studio 或 Studio Classic 與 Amazon EMR 之間的通訊。在沒有網際網路存取的情況下連接 Studio 或 Studio Classic 和 Amazon EMR 之前,請務必為 Amazon Simple Storage Service (資料儲存)、Amazon CloudWatch (記錄和監控) 和 Amazon SageMaker 執行期 (精細的角色型存取控制 (RBAC)) 建立端點。
若要連接 Studio 或 Studio Classic 和 Amazon EMR:
-
如果 Studio 或 Studio Classic 和 Amazon EMR 位於不同的 VPCs 中,無論是在同一 AWS 帳戶或不同帳戶中,請參閱 Studio 和 Amazon EMR 位於不同的 VPCs中。
-
如果 Studio 或 Studio Classic 和 Amazon EMR 位於相同的 VPC 中,請參閱 Studio 和 Amazon EMR 位於相同的 VPC 中。
-
如果您選擇透過公有網際網路連接 Studio 或 Studio Classic 和 Amazon EMR,請參閱 Studio 和 Amazon EMR 透過公有網際網路進行通訊。
Studio 和 Amazon EMR 位於不同的 VPCs中
若要允許 Studio 或 Studio Classic 與 Amazon EMR 在個別 VPCs中部署時進行通訊:
-
首先,透過 VPC 對等連線連線您的 VPC。
-
更新每個 VPC 中的路由表,以雙向路由 Studio 或 Studio Classic 子網路與 Amazon EMR 子網路之間的網路流量。
-
設定您的安全群組以允許傳入和傳出流量。
無論資源部署在單一 AWS 帳戶 (單一帳戶使用案例) 中或跨多個 AWS 帳戶 (跨帳戶使用案例),連線 Studio 或 Studio Classic 和 Amazon EMR 的步驟都相同。
-
VPC 對等互連
建立 VPC 對等互連,以促進兩個 VPCs(Studio 或 Studio Classic 和 Amazon EMR) 之間的聯網。
-
從 Studio 或 Studio Classic 帳戶,在 VPC 儀表板上,選擇對等連線,然後選擇建立對等連線。
-
建立您的請求,將 Studio 或 Studio Classic VPC 與 Amazon EMR VPC 對等。在另一個 AWS 帳戶中請求對等互連時,請在選取要對等互連的另一個 VPC 中選擇另一個帳戶。
對於跨帳戶對等互連,管理員必須接受來自 Amazon EMR 帳戶的請求。
當對等私有子網路時,您應該在 VPC 對等連線層級啟用私有 IP DNS 解析。
-
-
路由表
以兩種方式傳送 Studio 或 Studio Classic 子網路與 Amazon EMR 子網路之間的網路流量。
建立對等連線後,管理員 (在每個帳戶上進行跨帳戶存取) 可以將路由新增至私有子網路路由表,以在 Studio 或 Studio Classic 與 Amazon EMR 子網路之間路由流量。您可以透過前往 VPC 儀表板每個 VPC 的路由表區段來定義這些路由。
Studio VPC 子網路的路由表下圖顯示透過對等連線從 Studio 帳戶到 Amazon EMR VPC IP 範圍 (此處為
2.0.1.0/24
) 的傳出路由範例。下列 Amazon EMR VPC 子網路的路由表示透過對等連線從 Amazon EMR VPC 到 Studio VPC IP 範圍 (此處
10.0.20.0/24
) 的傳回路由範例。 -
安全群組
最後,Studio 或 Studio Classic 網域的安全群組必須允許傳出流量,Amazon EMR 主節點的安全群組必須允許來自 Studio 或 Studio Classic 執行個體安全群組的 Apache Livy、Hive 或 Presto TCP 連接埠 (分別是
8998
、10000
和8889
) 上的傳入流量。Apache Livy是一種服務,可透過 REST 界面與 Amazon EMR 互動。
下圖顯示 Amazon VPC 設定的範例,該設定可讓 JupyterLab 或 Studio Classic 筆記本從 Service Catalog 中的 AWS CloudFormation 範本佈建 Amazon EMR 叢集,然後連線到相同 AWS 帳戶中的 Amazon EMR 叢集。當 VPCs 沒有網際網路存取時,圖表提供直接連線至各種 AWS 服務所需的端點額外圖解,例如 Amazon S3 或 Amazon CloudWatch。或者,必須使用 NAT 閘道,允許多個 VPC 私有子網路中的執行個體在存取網際網路時共用網際網路閘道所提供的單一公有 IP 地址。

Studio 和 Amazon EMR 位於相同的 VPC 中
如果 Studio 或 Studio Classic 和 Amazon EMR 位於不同的子網路中,請將路由新增至每個私有子網路路由表,以在 Studio 或 Studio Classic 與 Amazon EMR 子網路之間路由流量。您可以透過前往 VPC 儀表板每個 VPC 的路由表區段來定義這些路由。如果您在相同的 VPC 和相同的子網路中部署 Studio 或 Studio Classic 和 Amazon EMR,則不需要在 Studio 和 Amazon EMR 之間路由流量。
無論您是否需要更新路由表,Studio 或 Studio Classic 網域的安全群組都必須允許傳出流量,Amazon EMR 主節點的安全群組都必須允許來自 Studio 或 Studio Classic 執行個體安全群組的 Apache Livy、Hive 或 Presto TCP 連接埠 (分別是 8998
、 10000
和 8889
) 上的傳入流量。Apache Livy
Studio 和 Amazon EMR 透過公有網際網路進行通訊
根據預設,Studio 和 Studio Classic 提供網路介面,允許透過與 SageMaker 網域相關聯的 VPC 中的網際網路閘道與網際網路通訊。如果您選擇透過公有網際網路連線至 Amazon EMR,Amazon EMR 需要接受來自其網際網路閘道的 Apache Livy、Hive 或 Presto TCP 連接埠 (分別是 10000
、 8998
和 8889
) 上的傳入流量。Apache Livy
請注意,允許傳入流量的任何連接埠都代表潛在安全漏洞。請詳閱自訂安全群組,以確保您將漏洞數量降至最低。如需更多資訊,請參閱使用安全群組控制網路流量。
或者,請參閱部落格和白皮書以取得如何在 Amazon EMR 啟用 Kerberos、在私有子網路設定叢集,以及使用 Network Load Balancer (NLB) 存取叢集以僅公開特定連接埠 (透過安全群組進行存取控制) 的詳細演練。
注意
透過公有網際網路連線至 Apache Livy 端點時,建議您使用 TLS 保護 Studio 或 Studio Classic 與 Amazon EMR 叢集之間的通訊。
如需使用 Apache Livy 設定 HTTPS 的相關資訊,請參閱使用 Apache Livy 啟用 HTTPS。如需設定啟用傳輸加密的 Amazon EMR 叢集的相關資訊,請參閱提供用於使用 Amazon EMR 加密對傳輸中的資料進行加密的憑證。此外,您需要設定 Studio 或 Studio Classic 以存取 中指定的憑證金鑰透過 HTTPS 連線至 Amazon EMR 叢集。