Voraussetzungen Erste Schritte mit S3 Express One Zone

Holen Sie sich Daten mit EMR Serverless in S3 Express One Zone

Mit den Amazon EMR-Versionen 7.2.0 und höher können Sie EMR Serverless mit der Amazon S3 Express One Zone-Speicherklasse verwenden, um die Leistung bei der Ausführung von Jobs und Workloads zu verbessern. S3 Express One Zone ist eine leistungsstarke Amazon S3 S3-Speicherklasse mit einer Zone, die für die meisten latenzempfindlichen Anwendungen einen konsistenten Datenzugriff im einstelligen Millisekundenbereich bietet. Zum Zeitpunkt seiner Veröffentlichung bietet S3 Express One Zone den Cloud-Objektspeicher mit der niedrigsten Latenz und der höchsten Leistung in Amazon S3.

Voraussetzungen

S3 Express One Zone-Berechtigungen — Wenn S3 Express One Zone anfänglich eine Aktion wieGET, oder für ein S3-Objekt ausführtLIST, ruft die Speicherklasse in Ihrem Namen PUT auf. CreateSession Ihre IAM-Richtlinie muss die s3express:CreateSession-Genehmigung zulassen, damit der S3A-Konnektor die CreateSession-API aufrufen kann. Ein Beispielrichtlinie mit dieser Berechtigung finden Sie unter Erste Schritte mit S3 Express One Zone.
S3Aconnector — Um Spark für den Zugriff auf Daten aus einem Amazon S3 S3-Bucket zu konfigurieren, der die Speicherklasse S3 Express One Zone verwendet, müssen Sie den Apache Hadoop-Connector S3A verwenden. Um den Connector zu verwenden, stellen Sie sicher, dass alle S3 das s3a Schema URIs verwenden. Wenn dies nicht der Fall ist, können Sie die Dateisystemimplementierung, die Sie für s3- und s3n-Schemata verwenden, ändern.

Um das s3-Schema zu ändern, geben Sie die folgenden Clusterkonfigurationen an:


[
  {
    "Classification": "core-site",
    "Properties": {
      "fs.s3.impl": "org.apache.hadoop.fs.s3a.S3AFileSystem",
      "fs.AbstractFileSystem.s3.impl": "org.apache.hadoop.fs.s3a.S3A"
    }
  }
]

Um das s3n-Schema zu ändern, geben Sie die folgenden Clusterkonfigurationen an:


[
  {
    "Classification": "core-site",
    "Properties": {
      "fs.s3n.impl": "org.apache.hadoop.fs.s3a.S3AFileSystem",
      "fs.AbstractFileSystem.s3n.impl": "org.apache.hadoop.fs.s3a.S3A"
    }
  }
]

Erste Schritte mit S3 Express One Zone

Folgen Sie diesen Schritten, um mit S3 Express One Zone zu beginnen.

Erstellen Sie einen VPC-Endpunkt. Fügen Sie den Endpunkt com.amazonaws.us-west-2.s3express zum VPC-Endpunkt hinzu.
Folgen Sie Getting started with Amazon EMR Serverless, um eine Anwendung mit der Amazon EMR-Versionsbezeichnung 7.2.0 oder höher zu erstellen.
Konfigurieren Sie Ihre Anwendung so, dass sie den neu erstellten VPC-Endpunkt, eine private Subnetzgruppe und eine Sicherheitsgruppe verwendet.

Fügen Sie die CreateSession Berechtigung zu Ihrer Jobausführungsrolle hinzu.

Führen Sie Ihren Job aus. Beachten Sie, dass Sie das S3A Schema verwenden müssen, um auf S3 Express One Zone-Buckets zuzugreifen.


aws emr-serverless start-job-run \      
--application-id <application-id> \          
--execution-role-arn <job-role-arn> \
--name <job-run-name> \
--job-driver '{
 "sparkSubmit": {                                                                                                                                                                                      
 "entryPoint": "s3a://<DOC-EXAMPLE-BUCKET>/scripts/wordcount.py", 
 "entryPointArguments":["s3a://<DOC-EXAMPLE-BUCKET>/emr-serverless-spark/output"],
 "sparkSubmitParameters": "--conf spark.executor.cores=4 
 --conf spark.executor.memory=8g --conf spark.driver.cores=4 
 --conf spark.driver.memory=8g --conf spark.executor.instances=2 
 --conf spark.hadoop.fs.s3a.change.detection.mode=none 
 --conf spark.hadoop.fs.s3a.endpoint.region={<AWS_REGION>}
 --conf spark.hadoop.fs.s3a.select.enabled=false 
 --conf spark.sql.sources.fastS3PartitionDiscovery.enabled=false 
 }'

Warnung JavaScript ist in Ihrem Browser nicht verfügbar oder deaktiviert.

Zur Nutzung der AWS-Dokumentation muss JavaScript aktiviert sein. Weitere Informationen finden auf den Hilfe-Seiten Ihres Browsers.

Dokumentkonventionen

Parallelität von Aufträgen und Warteschlangen

Ausführen von Aufgaben