Netzwerk konfigurieren - Amazon SageMaker

Die vorliegende Übersetzung wurde maschinell erstellt. Im Falle eines Konflikts oder eines Widerspruchs zwischen dieser übersetzten Fassung und der englischen Fassung (einschließlich infolge von Verzögerungen bei der Übersetzung) ist die englische Fassung maßgeblich.

Netzwerk konfigurieren

Bevor Sie mit der Verwendung von Amazon EMR oder EMR Serverless für Ihre Datenvorbereitungsaufgaben in Studio beginnen, stellen Sie sicher, dass Sie oder Ihr Administrator Ihr Netzwerk so konfiguriert haben, dass die Kommunikation zwischen Studio und Amazon EMR möglich ist. Sobald diese Kommunikation aktiviert ist, können Sie Folgendes wählen:

Anmerkung

Für EMR serverlose Benutzer besteht die einfachste Einrichtung darin, Ihre Anwendung in der Studio-Benutzeroberfläche zu erstellen, ohne die Standardeinstellungen für die Option Virtual Private Cloud (VPC) zu ändern. Mit diesem Ansatz kann die Anwendung innerhalb Ihrer SageMaker Domain erstellt werdenVPC, sodass keine zusätzliche Netzwerkkonfiguration erforderlich ist. Wenn Sie diese Option wählen, können Sie den folgenden Abschnitt zur Netzwerkkonfiguration überspringen.

Die Netzwerkanweisungen variieren je nachdem, ob Studio und Amazon in einer privaten Amazon Virtual Private Cloud (VPC) bereitgestellt EMR werden oder über das Internet kommunizieren.

Standardmäßig laufen Studio oder Studio Classic in einem AWS VPCmit Internetzugang verwaltet. Bei Verwendung einer Internetverbindung greifen Studio und Studio Classic darauf zu AWS Ressourcen, wie Amazon S3 S3-Buckets, über das Internet. Wenn Sie jedoch Sicherheitsanforderungen haben, um den Zugriff auf Ihre Daten- und Jobcontainer zu kontrollieren, empfehlen wir Ihnen, Studio oder Studio Classic und Amazon EMR so zu konfigurieren, dass Ihre Daten und Container nicht über das Internet zugänglich sind. Um den Zugriff auf Ihre Ressourcen zu kontrollieren oder Studio oder Studio Classic ohne öffentlichen Internetzugang auszuführen, können Sie den VPC only Netzwerkzugriffstyp angeben, wenn Sie sich in die SageMaker Amazon-Domain einbinden. In diesem Szenario stellen sowohl Studio als auch Studio Classic Verbindungen zu anderen her AWS Dienste über private VPCEndpunkte. Informationen zur Konfiguration von Studio oder Studio Classic im VPC only Modus finden Sie unter SageMaker Studio- oder Studio Classic-Notizbücher in a VPC mit externen Ressourcen Connect. .

In den ersten beiden Abschnitten wird beschrieben, wie die Kommunikation zwischen Studio oder Studio Classic und Amazon EMR VPCs ohne öffentlichen Internetzugang sichergestellt werden kann. Im letzten Abschnitt wird beschrieben, wie Sie die Kommunikation zwischen Studio oder Studio Classic und Amazon EMR über eine Internetverbindung sicherstellen können. Bevor Sie Studio oder Studio Classic und Amazon EMR ohne Internetzugang verbinden, stellen Sie sicher, dass Sie Endpunkte für Amazon Simple Storage Service (Datenspeicherung), Amazon CloudWatch (Protokollierung und Überwachung) und Amazon SageMaker Runtime (detaillierte rollenbasierte Zugriffskontrolle ()) einrichten. RBAC

Um Studio oder Studio Classic und Amazon zu verbindenEMR:

Studio und Amazon EMR sind getrennt VPCs

Um die Kommunikation zwischen Studio oder Studio Classic und Amazon zu ermöglichenEMR, wenn sie separat bereitgestellt werdenVPCs:

  1. Stellen Sie zunächst eine Verbindung VPCs über eine VPC Peering-Verbindung her.

  2. Aktualisieren Sie Ihre Routing-Tabellen jeweilsVPC, um den Netzwerkverkehr zwischen Studio- oder Studio Classic-Subnetzen und Amazon-Subnetzen in beide EMR Richtungen weiterzuleiten.

  3. Konfigurieren Sie Ihre VPC-Sicherheitsgruppen so, dass ein- und ausgehender Datenverkehr zugelassen sind.

Die Schritte zum Verbinden von Studio oder Studio Classic und Amazon EMR sind dieselben, unabhängig davon, ob die Ressourcen in einer einzigen bereitgestellt werden. AWS Konto (Anwendungsfall für ein einzelnes Konto) oder für mehrere AWS Konten (kontenübergreifender Anwendungsfall).

  1. VPCPeering

    Stellen Sie eine VPCPeering-Verbindung her, um die Vernetzung zwischen den beiden VPCs (Studio oder Studio Classic und AmazonEMR) zu erleichtern.

    1. Wählen Sie in Ihrem Studio- oder Studio Classic-Konto im VPC Dashboard Peering-Verbindungen und dann Peering-Verbindung erstellen aus.

    2. Erstellen Sie Ihre Anfrage, um das Studio oder Studio Classic VPC mit Amazon zu vergleichen EMRVPC. Wenn Sie ein Peering in einem anderen anfordern AWS Wählen Sie unter Wählen Sie ein anderes Konto, mit dem Sie eine Verbindung herstellen möchtenVPC, die Option Anderes Konto aus.

      Für kontoübergreifendes Peering muss der Administrator die Anfrage vom EMR Amazon-Konto akzeptieren.

      Beim Peering privater Subnetze sollten Sie die private DNS IP-Auflösung auf der Peering-Verbindungsebene aktivieren. VPC

  2. Routing-Tabellen

    Senden Sie den Netzwerkverkehr zwischen Studio- oder Studio Classic-Subnetzen und EMR Amazon-Subnetzen in beide Richtungen.

    Nachdem Sie die Peering-Verbindung hergestellt haben, kann der Administrator (für jedes Konto für kontoübergreifenden Zugriff) Routen zu den privaten Subnetz-Routentabellen hinzufügen, um den Verkehr zwischen Studio oder Studio Classic und den Amazon-Subnetzen weiterzuleiten. EMR Sie können diese Routen definieren, indem Sie im Dashboard jeweils VPC den Abschnitt Routentabellen aufrufen. VPC

    Die folgende Abbildung der Routing-Tabelle eines VPC Studio-Subnetzes zeigt ein Beispiel für eine ausgehende Route vom Studio-Konto zum EMR VPC Amazon-IP-Bereich (hier2.0.1.0/24) über die Peering-Verbindung.

    Routentabelle eines VPC Studio-Subnetzes mit den ausgehenden Routen vom Studio-Konto zum EMR VPC Amazon-IP-Bereich (hier2.0.1.0/24) über die Peering-Verbindung

    Die folgende Abbildung einer Routing-Tabelle eines EMR VPC Amazon-Subnetzes zeigt ein Beispiel für Rückrouten vom VPC IP-Bereich von Amazon EMR VPC zum Studio (hier10.0.20.0/24) über die Peering-Verbindung.

    Routentabelle eines EMR VPC Amazon-Subnetzes, in der die Rückwege vom EMR Amazon-Konto zum VPC Studio-IP-Bereich (hier10.0.20.0/24) über die Peering-Verbindung angezeigt werden
  3. Sicherheitsgruppen

    Schließlich muss die Sicherheitsgruppe Ihrer Studio- oder Studio Classic-Domain ausgehenden Datenverkehr zulassen, und die Sicherheitsgruppe des EMR primären Amazon-Nodes muss eingehenden Datenverkehr auf Apache Livy -, Hive - oder TCPPresto-Ports (bzw. 899810000, und8889) von der Studio- oder Studio Classic-Instance-Sicherheitsgruppe zulassen. Apache Livy ist ein Dienst, der die Interaktion mit Amazon EMR über eine REST Schnittstelle ermöglicht.

Das folgende Diagramm zeigt ein Beispiel für ein VPC Amazon-Setup, das es unseren Studio Classic-Notebooks ermöglicht JupyterLab, EMR Amazon-Cluster bereitzustellen von AWS CloudFormation Vorlagen im Service Catalog und stellen Sie dann eine Verbindung zu einem EMR Amazon-Cluster innerhalb desselben her AWS Konto. Das Diagramm bietet eine zusätzliche Veranschaulichung der erforderlichen Endpunkte für eine direkte Verbindung zu verschiedenen AWS Dienste wie Amazon S3 oder Amazon CloudWatch, wenn sie keinen Internetzugang VPCs haben. Alternativ muss ein NATGateway verwendet werden, um es Instances in privaten Subnetzen mit mehreren VPCs zu ermöglichen, sich beim Zugriff auf das Internet eine einzige öffentliche IP-Adresse zu teilen, die vom Internet-Gateway bereitgestellt wird.

Architekturdiagramm, das ein Beispiel für ein einfaches VPC Amazon-Setup veranschaulicht, mit dem Studio- oder Studio Classic-Notebooks EMR Amazon-Cluster bereitstellen können AWS CloudFormation Vorlagen im Service Catalog und stellen Sie dann eine Verbindung zu einem EMR Amazon-Cluster innerhalb desselben her AWS Konto. Das Diagramm bietet eine zusätzliche Veranschaulichung der erforderlichen Endpunkte für eine direkte Verbindung zu verschiedenen AWS Dienste wie Amazon S3 oder Amazon CloudWatch, wenn sie keinen Internetzugang VPCs haben. Alternativ muss ein NATGateway verwendet werden, um es Instances in privaten Subnetzen mit mehreren VPCs zu ermöglichen, sich beim Zugriff auf das Internet eine einzige öffentliche IP-Adresse zu teilen, die vom Internet-Gateway bereitgestellt wird.

Studio und Amazon EMR sind im selben VPC

Wenn sich Studio oder Studio Classic und Amazon in unterschiedlichen Subnetzen EMR befinden, fügen Sie Routen zu jeder privaten Subnetz-Routentabelle hinzu, um den Verkehr zwischen Studio oder Studio Classic und den EMR Amazon-Subnetzen weiterzuleiten. Sie können diese Routen definieren, indem Sie im Dashboard jeweils VPC den Abschnitt Routentabellen aufrufen. VPC Wenn Sie Studio oder Studio Classic und Amazon EMR im selben VPC Subnetz bereitgestellt haben, müssen Sie den Datenverkehr zwischen Studio und Amazon EMR nicht weiterleiten.

Unabhängig davon, ob Sie Ihre Routing-Tabellen aktualisieren mussten oder nicht, muss die Sicherheitsgruppe Ihrer Studio- oder Studio Classic-Domain ausgehenden Datenverkehr zulassen, und die Sicherheitsgruppe des EMR primären Amazon-Nodes muss eingehenden Datenverkehr auf Apache Livy -, Hive - oder TCPPresto-Ports (bzw. 899810000, und8889) aus der Studio- oder Studio Classic-Instance-Sicherheitsgruppe zulassen. Apache Livy ist ein Dienst, der die Interaktion mit einem Amazon EMR über eine REST Schnittstelle ermöglicht.

Studio und Amazon EMR kommunizieren über das öffentliche Internet

Standardmäßig bieten Studio und Studio Classic eine Netzwerkschnittstelle, die die Kommunikation mit dem Internet über ein Internet-Gateway in der mit der SageMaker Domain VPC verknüpften Domäne ermöglicht. Wenn Sie sich dafür entscheiden, EMR über das öffentliche Internet eine Verbindung zu Amazon herzustellen, EMR muss Amazon eingehenden Datenverkehr an den Apache Livy -, Hive - oder TCPPresto-Ports (bzw. 899810000, und8889) von seinem Internet-Gateway akzeptieren. Apache Livy ist ein Dienst, der die Interaktion mit Amazon EMR über eine REST Schnittstelle ermöglicht.

Beachten Sie, dass jeder Port, an dem Sie eingehenden Datenverkehr zulassen, eine potenzielle Sicherheitslücke darstellt. Überprüfen Sie sorgfältig die benutzerdefinierten Sicherheitsgruppen, um Schwachstellen zu minimieren. Weitere Informationen finden Sie unter Netzwerkverkehr mit Hilfe von Sicherheitsgruppen steuern.

Alternativ finden Sie unter Blogs und Whitepapers eine detaillierte Anleitung, wie Sie Kerberos auf Amazon aktivierenEMR, den Cluster in einem privaten Subnetz einrichten und mit einem Network Load Balancer (NLB) auf den Cluster zugreifen, um nur bestimmte Ports verfügbar zu machen, deren Zugriff über Sicherheitsgruppen gesteuert wird.

Anmerkung

Wenn Sie über das öffentliche Internet eine Verbindung zu Ihrem Apache Livy-Endpunkt herstellen, empfehlen wir Ihnen, die Kommunikation zwischen Studio oder Studio Classic und Ihrem EMR Amazon-Cluster mithilfe von TLS zu sichern.

Informationen zur Einrichtung HTTPS mit Apache Livy finden Sie unter Aktivierung HTTPS mit Apache Livy. Informationen zur Einrichtung eines EMR Amazon-Clusters mit aktivierter Übertragungsverschlüsselung finden Sie unter Bereitstellen von Zertifikaten für die Verschlüsselung von Daten bei der Übertragung mit EMR Amazon-Verschlüsselung. Darüber hinaus müssen Sie Studio oder Studio Classic für den Zugriff auf Ihren Zertifikatsschlüssel konfigurieren, wie unter beschriebenStellen Sie eine Connect zu einem EMR Amazon-Cluster her über HTTPS.