Die vorliegende Übersetzung wurde maschinell erstellt. Im Falle eines Konflikts oder eines Widerspruchs zwischen dieser übersetzten Fassung und der englischen Fassung (einschließlich infolge von Verzögerungen bei der Übersetzung) ist die englische Fassung maßgeblich.
EMR Studio unterstützt die folgenden Git-basierten Services:
Damit EMR-Studio-Benutzer ein Git-Repository mit einem Workspace verknüpfen können, richten Sie die folgenden Zugriffs- und Berechtigungsanforderungen ein. Sie können auch Git-basierte Repositorys konfigurieren, die Sie in einem privaten Netzwerk hosten, indem Sie den Anweisungen unter Ein privat gehostetes Git-Repository für EMR Studio konfigurieren folgen.
- Cluster-Internetzugang
-
Sowohl Amazon EMR-Cluster, die auf Amazon EC2 ausgeführt werden, als auch Amazon EMR auf EKS-Clustern, die an Studio Workspaces angeschlossen sind, müssen sich in einem privaten Subnetz befinden, das ein Network Address Translation (NAT) -Gateway verwendet, oder sie müssen über ein Virtual Private Gateway auf das Internet zugreifen können. Weitere Informationen finden Sie unter Amazon VPC-Optionen beim Starten eines Clusters.
Die Sicherheitsgruppen, die Sie mit EMR Studio verwenden, müssen auch eine ausgehende Regel enthalten, die es Workspaces ermöglicht, Datenverkehr von einem angeschlossenen EMR-Cluster ins Internet weiterzuleiten. Weitere Informationen finden Sie unter Definieren Sie Sicherheitsgruppen zur Steuerung des Netzwerkverkehrs in EMR Studio.
Wichtig
Wenn die Netzwerkschnittstelle in einem öffentlichem Subnetz befindet, kann sie nicht über ein Internet-Gateway (IGW) mit dem Internet kommunizieren.
- Berechtigungen für AWS Secrets Manager
-
Um EMR-Studio-Benutzern den Zugriff auf Git-Repositorys mit in AWS Secrets Manager gespeicherten Geheimnissen zu ermöglichen, fügen Sie der Servicerolle für EMR Studio eine Berechtigungsrichtlinie hinzu, die den Vorgang
secretsmanager:GetSecretValue
ermöglicht.
Informationen zum Verknüpfen von Git-basierten Repositorys mit Workspaces finden Sie unter Git-basierte Repositorys mit einem EMR Studio Workspace verknüpfen.
Ein privat gehostetes Git-Repository für EMR Studio konfigurieren
Verwenden Sie die folgenden Anweisungen, um privat gehostete Repositorys für Amazon EMR Studio zu konfigurieren. Sie müssen eine Konfigurationsdatei mit Informationen zu Ihren DNS- und Git-Servern bereitstellen. EMR Studio verwendet diese Informationen, um Workspaces zu konfigurieren, die den Datenverkehr an Ihre selbstverwalteten Repositorys weiterleiten können.
Anmerkung
Wenn Sie DnsServerIpV4
konfigurieren, verwendet EMR Studio Ihren DNS-Server, um sowohl Ihren GitServerDnsName
als auch Ihren Amazon-EMR-Endpunkt aufzulösen, z. B. elasticmapreduce.us-east-1.amazonaws.com
Um einen Endpunkt für Amazon EMR einzurichten, stellen Sie über die VPC, die Sie mit Ihrem Studio verwenden, eine Verbindung zu Ihrem Endpunkt her. Dadurch wird sichergestellt, dass der Amazon-EMR-Endpunkt zu einer privaten IP aufgelöst wird. Weitere Informationen finden Sie unter Herstellen einer Verbindung mit Amazon EMR über einen Schnittstellen-VPC-Endpunkt.
Voraussetzungen
Bevor Sie ein privat gehostetes Git-Repository für EMR Studio konfigurieren, benötigen Sie einen Amazon-S3-Speicherort, an dem EMR Studio die Workspaces und Notebook-Dateien im Studio sichern kann. Verwenden Sie denselben S3-Bucket, den Sie beim Erstellen eines Studios angegeben haben.
Wie Sie ein oder mehrere privat gehostete Git-Repositorys für EMR Studio zu konfigurieren
-
Erstellen Sie eine Konfigurationsdatei mithilfe der folgenden Vorlage. Geben Sie für jeden Git-Server, den Sie in Ihrer Konfiguration angeben möchten, die folgenden Werte an:
-
DnsServerIpV4
- Die IPv4 Adresse Ihres DNS-Servers. Wenn Sie Werte für sowohlDnsServerIpV4
als auch fürGitServerIpV4List
angeben, hat der Wert fürDnsServerIpV4
Vorrang und EMR Studio verwendetDnsServerIpV4
, um IhrGitServerDnsName
zu lösen.Anmerkung
Um privat gehostete Git-Repositorys verwenden zu können, muss Ihr DNS-Server eingehenden Zugriff von EMR Studio zulassen. Wir bitten Sie dringend, Ihren DNS-Server vor anderen, unbefugten Zugriffen zu schützen.
-
GitServerDnsName
– Der DNS-Name Ihres Git-Servers. Zum Beispiel"git.example.com"
. -
GitServerIpV4List
- Eine Liste von IPv4 Adressen, die zu deinen Git-Servern gehören.
[ { "Type": "PrivatelyHostedGitConfig", "Value": [ { "DnsServerIpV4": "
<10.24.34.xxx>
", "GitServerDnsName": "<enterprise.git.com>
", "GitServerIpV4List": [ "<xxx.xxx.xxx.xxx>
", "<xxx.xxx.xxx.xxx>
" ] }, { "DnsServerIpV4": "<10.24.34.xxx>
", "GitServerDnsName": "<git.example.com>
", "GitServerIpV4List": [ "<xxx.xxx.xxx.xxx>
", "<xxx.xxx.xxx.xxx>
" ] } ] } ] -
-
Speichern Sie Ihre Konfigurationsdatei unter
configuration.json
. -
Laden Sie die Konfigurationsdatei in Ihren standardmäßigen Amazon S3 S3-Speicherort in einem Ordner mit dem Namen hoch
life-cycle-configuration
. Wenn Ihr Standard-S3-Speicherort beispielsweises3://
lautet, befindet sich Ihre Konfigurationsdatei inamzn-s3-demo-bucket
/workspaces3://
.amzn-s3-demo-bucket
/workspace/life-cycle-configuration/configuration.jsonWichtig
Wir bitten Sie dringend, den Zugriff auf Ihren
life-cycle-configuration
-Ordner auf Studio-Administratoren und Ihre EMR-Studio-Servicerolle zu beschränken undconfiguration.json
vor unbefugtem Zugriff zu schützen. Anweisungen finden Sie unter Steuern des Zugriffs auf einen Bucket mit Benutzerrichtlinien oder Bewährte Sicherheitsmethoden für Amazon S3.Anweisungen zum Hochladen finden Sie unter Erstellen eines Ordners und Hochladen von Objekten im Benutzerhandbuch für Amazon Simple Storage Service. Um Ihre Konfiguration auf einen vorhandenen Workspace anzuwenden, schließen Sie den Workspace und starten Sie ihn neu, nachdem Sie Ihre Konfigurationsdatei auf Amazon S3 hochgeladen haben.