Die vorliegende Übersetzung wurde maschinell erstellt. Im Falle eines Konflikts oder eines Widerspruchs zwischen dieser übersetzten Fassung und der englischen Fassung (einschließlich infolge von Verzögerungen bei der Übersetzung) ist die englische Fassung maßgeblich.
Holen Sie sich Daten mit EMR Serverless in S3 Express One Zone
Mit den Amazon EMR-Versionen 7.2.0 und höher können Sie EMR Serverless mit der Amazon S3 Express One Zone-Speicherklasse verwenden, um die Leistung bei der Ausführung von Jobs und Workloads zu verbessern. S3 Express One Zone ist eine leistungsstarke Amazon S3 S3-Speicherklasse mit einer Zone, die für die meisten latenzempfindlichen Anwendungen einen konsistenten Datenzugriff im einstelligen Millisekundenbereich bietet. Zum Zeitpunkt seiner Veröffentlichung bietet S3 Express One Zone den Cloud-Objektspeicher mit der niedrigsten Latenz und der höchsten Leistung in Amazon S3.
Voraussetzungen
-
S3 Express One Zone-Berechtigungen — Wenn S3 Express One Zone anfänglich eine Aktion wie
GET
, oder für ein S3-Objekt ausführtLIST
, ruft die Speicherklasse in Ihrem NamenPUT
auf.CreateSession
Ihre IAM-Richtlinie muss dies3express:CreateSession
Genehmigung zulassen, damit S3A Der Connector kann dieCreateSession
API aufrufen. Ein Beispielrichtlinie mit dieser Berechtigung finden Sie unter Erste Schritte mit S3 Express One Zone. -
S3A connector — Um Spark für den Zugriff auf Daten aus einem Amazon S3 S3-Bucket zu konfigurieren, der die Speicherklasse S3 Express One Zone verwendet, müssen Sie den Apache Hadoop-Connector verwenden S3A. Um den Connector zu verwenden, stellen Sie sicher, dass alle S3 das
s3a
Schema URIs verwenden. Wenn dies nicht der Fall ist, können Sie die Dateisystemimplementierung, die Sie fürs3
- unds3n
-Schemata verwenden, ändern.
Um das s3
-Schema zu ändern, geben Sie die folgenden Clusterkonfigurationen an:
[ { "Classification": "core-site", "Properties": { "fs.s3.impl": "org.apache.hadoop.fs.s3a.S3AFileSystem", "fs.AbstractFileSystem.s3.impl": "org.apache.hadoop.fs.s3a.S3A" } } ]
Um das s3n
-Schema zu ändern, geben Sie die folgenden Clusterkonfigurationen an:
[ { "Classification": "core-site", "Properties": { "fs.s3n.impl": "org.apache.hadoop.fs.s3a.S3AFileSystem", "fs.AbstractFileSystem.s3n.impl": "org.apache.hadoop.fs.s3a.S3A" } } ]
Erste Schritte mit S3 Express One Zone
Folgen Sie diesen Schritten, um mit S3 Express One Zone zu beginnen.
-
Erstellen Sie einen VPC-Endpunkt. Fügen Sie den Endpunkt
com.amazonaws.us-west-2.s3express
zum VPC-Endpunkt hinzu. -
Folgen Sie Getting started with Amazon EMR Serverless, um eine Anwendung mit der Amazon EMR-Versionsbezeichnung 7.2.0 oder höher zu erstellen.
-
Konfigurieren Sie Ihre Anwendung so, dass sie den neu erstellten VPC-Endpunkt, eine private Subnetzgruppe und eine Sicherheitsgruppe verwendet.
-
Fügen Sie die
CreateSession
Berechtigung zu Ihrer Jobausführungsrolle hinzu.{ "Version": "2012-10-17", "Statement": [ { "Effect": "Allow", "Resource": "*", "Action": [ "s3express:CreateSession" ] } ] }
-
Führen Sie Ihren Job aus. Beachten Sie, dass Sie das
S3A
Schema verwenden müssen, um auf S3 Express One Zone-Buckets zuzugreifen.aws emr-serverless start-job-run \ --application-id
<application-id>
\ --execution-role-arn<job-role-arn>
\ --name<job-run-name>
\ --job-driver '{ "sparkSubmit": { "entryPoint": "s3a://<DOC-EXAMPLE-BUCKET>
/scripts/wordcount.py", "entryPointArguments":["s3a://<DOC-EXAMPLE-BUCKET>
/emr-serverless-spark/output"], "sparkSubmitParameters": "--conf spark.executor.cores=4 --conf spark.executor.memory=8g --conf spark.driver.cores=4 --conf spark.driver.memory=8g --conf spark.executor.instances=2 --conf spark.hadoop.fs.s3a.change.detection.mode=none --conf spark.hadoop.fs.s3a.endpoint.region={<AWS_REGION>
} --conf spark.hadoop.fs.s3a.select.enabled=false --conf spark.sql.sources.fastS3PartitionDiscovery.enabled=false }'