Import von Massendaten in Amazon Personalize mit einem Datensatz-Importjob - Amazon Personalize

Modi importieren Einen Job zum Importieren von Datensätzen erstellen (Konsole)Einen Job zum Importieren von Datensätzen erstellen (AWS CLI)Einen Job zum Importieren von Datensätzen erstellen (AWS SDKs)

Die vorliegende Übersetzung wurde maschinell erstellt. Im Falle eines Konflikts oder eines Widerspruchs zwischen dieser übersetzten Fassung und der englischen Fassung (einschließlich infolge von Verzögerungen bei der Übersetzung) ist die englische Fassung maßgeblich.

Import von Massendaten in Amazon Personalize mit einem Datensatz-Importjob

Nachdem Sie Ihre Eingabedaten formatiert (sieheVorbereiten von Trainingsdaten für Amazon Personalize) und den Vorgang abgeschlossen habenErstellen eines Schemas und eines Datensatzes, können Sie Ihre Massendaten mit einem Datensatz-Importauftrag importieren. Ein Datensatz-Importjob ist ein Massenimport-Tool, das einen Datensatz mit Daten aus Amazon S3 füllt.

Um Daten aus Amazon S3 zu importieren, müssen sich Ihre CSV Dateien in einem Amazon S3 S3-Bucket befinden und Sie müssen Amazon Personalize die Erlaubnis erteilen, auf Ihre Amazon S3 S3-Ressourcen zuzugreifen:

Informationen zum Hochladen von Dateien auf Amazon S3 finden Sie unter Hochladen von Dateien und Ordnern mithilfe von Drag & Drop im Amazon Simple Storage Service-Benutzerhandbuch.
Informationen darüber, wie Sie Amazon Personalize Zugriff auf Ihre Dateien in Amazon S3 gewähren, finden Sie unterAmazon Personalize Zugriff auf Amazon S3 S3-Ressourcen gewähren.

Wenn Sie AWS Key Management Service (AWS KMS) für die Verschlüsselung verwenden, müssen Sie Amazon Personalize und Ihrer Amazon IAM Personalize-Servicerolle die Erlaubnis zur Verwendung Ihres Schlüssels erteilen. Weitere Informationen finden Sie unter Amazon Personalize die Erlaubnis geben, Ihren AWS KMS Schlüssel zu verwenden.

Sie können einen Datensatz-Importauftrag mit der Amazon Personalize Personalize-Konsole AWS Command Line Interface (AWS CLI) oder AWS SDKs erstellen. Wenn Sie zuvor einen Datensatz-Importauftrag für einen Datensatz erstellt haben, können Sie einen neuen Datensatz-Importjob verwenden, um die vorhandenen Massendaten zu ergänzen oder zu ersetzen. Weitere Informationen finden Sie unter Aktualisierung von Daten in Datensätzen nach dem Training.

Wenn Sie einen Artikel, einen Benutzer oder eine Aktion mit derselben ID wie ein Datensatz importieren, der sich bereits in Ihrem Datensatz befindet, ersetzt Amazon Personalize ihn durch den neuen Datensatz. Wenn Sie zwei Artikelinteraktionen oder Aktionsinteraktionsereignisse mit exakt demselben Zeitstempel und identischen Eigenschaften aufzeichnen, speichert Amazon Personalize nur eines der Ereignisse.

Nachdem Sie Ihre Daten importiert haben, können Sie Domain-Empfehlungen (für Domain-Datensatzgruppen) oder benutzerdefinierte Ressourcen (für benutzerdefinierte Datensatzgruppen) erstellen, um ein Modell anhand Ihrer Daten zu trainieren. Sie verwenden diese Ressourcen, um Empfehlungen zu generieren. Weitere Informationen finden Sie unter Domain-Empfehlungen in Amazon Personalize oder Maßgeschneiderte Ressourcen für das Training und die Bereitstellung von Amazon Personalize Personalize-Modellen.

Themen

Modi importieren
Einen Job zum Importieren von Datensätzen erstellen (Konsole)
Einen Job zum Importieren von Datensätzen erstellen (AWS CLI)
Einen Job zum Importieren von Datensätzen erstellen (AWS SDKs)

Modi importieren

Wenn Sie bereits einen Importauftrag für den Datensatz erstellt haben, können Sie konfigurieren, wie Amazon Personalize Ihre neuen Datensätze hinzufügt. Dazu geben Sie einen Importmodus für Ihren Datensatz-Importjob an. Wenn Sie keine Massendatensätze importiert haben, ist das Feld Importmodus in der Konsole nicht verfügbar und Sie können es nur während des CreateDatasetImportJob API Vorgangs angebenFULL. Die Standardeinstellung ist ein vollständiger Ersatz.

Um alle vorhandenen Massendaten in Ihrem Datensatz zu überschreiben, wählen Sie Bestehende Daten ersetzen in der Amazon Personalize Personalize-Konsole oder geben Sie dies FULL im CreateDatasetImportJob API Vorgang an. Dadurch werden keine Daten ersetzt, die Sie einzeln importiert haben, einschließlich Ereignisse, die in Echtzeit aufgezeichnet wurden.
Um die Datensätze an die vorhandenen Daten in Ihrem Datensatz anzuhängen, wählen Sie Zu vorhandenen Daten hinzufügen oder INCREMENTAL im CreateDatasetImportJob API Vorgang angeben aus. Amazon Personalize ersetzt jeden Datensatz mit derselben ID durch den neuen.

Anmerkung
Um mit einem Datensatz-Importjob Daten an einen Datensatz mit Artikelinteraktionen oder Aktionsinteraktionen anzuhängen, benötigen Sie mindestens 1000 neue Datensätze für Artikelinteraktionen oder Aktionsinteraktionen.

Einen Job zum Importieren von Datensätzen erstellen (Konsole)

Wichtig

Standardmäßig ersetzt ein Datensatz-Importjob alle vorhandenen Daten in dem Datensatz, den Sie in großen Mengen importiert haben. Wenn Sie bereits Massendaten importiert haben, können Sie Daten anhängen, indem Sie den Importmodus des Jobs ändern.

Um mit der Amazon Personalize-Konsole Massendatensätze in einen Datensatz zu importieren, erstellen Sie einen Datensatz-Import-Job mit einem Namen, der IAM Servicerolle und dem Speicherort Ihrer Daten.

Wenn Sie Ihren Datensatz gerade in erstellt habenErstellen eines Schemas und eines Datensatzes, fahren Sie mit Schritt 5 fort.

Um Massendatensätze zu importieren (Konsole)

Öffnen Sie zu https://console.aws.amazon.com/personalize/Hause die Amazon Personalize Personalize-Konsole und melden Sie sich bei Ihrem Konto an.
Wählen Sie auf der Seite Datensatzgruppen Ihre Datensatzgruppe aus. Die Übersicht der Datensatzgruppe wird angezeigt.
Wählen Sie im Navigationsbereich Datensätze und dann den Datensatz aus, in den Sie Massendaten importieren möchten.
Wählen Sie unter Datensatz-Importaufträge die Option Datensatz-Importjob erstellen aus.
Wenn dies Ihr erster Datensatz-Importauftrag ist, wählen Sie für Datenimportquelle die Option Daten aus S3 importieren aus.
Geben Sie unter Name des Datensatz-Import-Jobs einen Namen für Ihren Importjob an.
Wenn Sie bereits Massendaten importiert haben, wählen Sie im Importmodus aus, wie der Datensatz aktualisiert werden soll. Wählen Sie entweder Bestehende Daten ersetzen oder Zu vorhandenen Daten hinzufügen. Diese Option wird nicht angezeigt, wenn es sich um Ihren ersten Job für den Datensatz handelt. Weitere Informationen finden Sie unter Aktualisierung von Daten in Datensätzen nach dem Training.
Geben Sie unter Datenimportquelle für Datenstandort an, wo Ihre Datendatei in Amazon S3 gespeichert ist. Verwenden Sie die folgende Syntax:

s3:/amzn-s3-demo-bucket/<folder path>/<CSV filename>

Wenn sich Ihre CSV Dateien in einem Ordner in Ihrem Amazon S3 S3-Bucket befinden und Sie mit einem Datensatz-Importjob mehrere CSV Dateien in einen Datensatz hochladen möchten, können Sie den Pfad zu dem Ordner angeben. Amazon Personalize verwendet nur die Dateien in der ersten Ebene Ihres Ordners, es verwendet keine Daten in Unterordnern. Verwenden Sie die folgende Syntax mit einem / nach dem Ordnernamen:

s3:/amzn-s3-demo-bucket/<folder path>/
Wählen Sie unter IAMRolle aus, ob Sie entweder eine neue Rolle erstellen oder eine vorhandene verwenden möchten. Wenn Sie die Voraussetzungen erfüllt haben, wählen Sie Bestehende Servicerolle verwenden aus und geben Sie die Rolle an, in der Sie sie erstellt habenEine IAM-Rolle für Amazon Personalize erstellen.
Wenn Sie eine Metrik-Attribution erstellt haben und Metriken zu diesem Job in Amazon S3 veröffentlichen möchten, wählen Sie unter Event-Metriken in S3 veröffentlichen die Option Metriken für diesen Importjob veröffentlichen aus.

Wenn Sie noch keine erstellt haben und Metriken für diesen Job veröffentlichen möchten, wählen Sie Metrik-Attribution erstellen aus, um eine neue Zuordnung auf einer anderen Registerkarte zu erstellen. Nachdem Sie die Metrik-Attribution erstellt haben, können Sie zu diesem Bildschirm zurückkehren und die Erstellung des Importjobs abschließen.

Weitere Informationen zu metrischen Attributionen finden Sie unter. Messung der Wirkung von Amazon Personalize Personalize-Empfehlungen
Fügen Sie für Tags optional beliebige Tags hinzu. Weitere Informationen zum Taggen von Amazon Personalize Personalize-Ressourcen finden Sie unter. Taggen von Amazon Personalize Personalize-Ressourcen
Wählen Sie Start import (Import starten). Der Datenimportauftrag beginnt und die Seite Dashboard Overview (Dashboard-Übersicht) wird angezeigt. Der Datensatz-Import ist abgeschlossen, wenn der Status als angezeigt wird. ACTIVE Nachdem Sie Daten in einen Amazon Personalize Personalize-Datensatz importiert haben, können Sie ihn analysieren, in einen Amazon S3 S3-Bucket exportieren, aktualisieren oder löschen, indem Sie den Datensatz löschen.

Nachdem Sie Ihre Daten importiert haben, können Sie Domain-Empfehlungen (für Domain-Datensatzgruppen) oder benutzerdefinierte Ressourcen (für benutzerdefinierte Datensatzgruppen) erstellen, um ein Modell anhand Ihrer Daten zu trainieren. Sie verwenden diese Ressourcen, um Empfehlungen zu generieren. Weitere Informationen finden Sie unter Domain-Empfehlungen in Amazon Personalize oder Maßgeschneiderte Ressourcen für das Training und die Bereitstellung von Amazon Personalize Personalize-Modellen.

Einen Job zum Importieren von Datensätzen erstellen (AWS CLI)

Wichtig

Um Massendatensätze mit dem zu importieren AWS CLI, erstellen Sie mit dem CreateDatasetImportJob Befehl einen Job zum Importieren von Datensätzen. Wenn Sie zuvor einen Datensatz-Importauftrag für einen Datensatz erstellt haben, können Sie mithilfe des Importmodus-Parameters angeben, wie die neuen Daten hinzugefügt werden sollen. Weitere Informationen zum Aktualisieren vorhandener Massendaten finden Sie unterAktualisierung von Daten in Datensätzen nach dem Training.

Massendatensätze importieren (AWS CLI)

Erstellen Sie den Dataset-Importauftrag, indem Sie den folgenden Befehl ausführen. Geben Sie den Amazon-Ressourcennamen (ARN) für Ihren Datensatz an und geben Sie den Pfad zu Ihrem Amazon S3-Bucket an, in dem Sie die Trainingsdaten gespeichert haben. Verwenden Sie die folgende Syntax für den Pfad:

s3:/amzn-s3-demo-bucket/<folder path>/<CSV filename>

Wenn sich Ihre CSV Dateien in einem Ordner in Ihrem Amazon S3 S3-Bucket befinden und Sie mit einem Datensatz-Importjob mehrere CSV Dateien in einen Datensatz hochladen möchten, können Sie den Pfad zu dem Ordner angeben. Amazon Personalize verwendet nur die Dateien in der ersten Ebene Ihres Ordners, es verwendet keine Daten in Unterordnern. Verwenden Sie die folgende Syntax mit einem / nach dem Ordnernamen:

s3:/amzn-s3-demo-bucket/<folder path>/

Geben Sie die Rolle AWS Identity and Access Management (IAM) Amazon Resource Name (ARN) an, in der Sie erstellt habenEine IAM-Rolle für Amazon Personalize erstellen. Der Standardwert import-mode ist FULL. Weitere Informationen finden Sie unter Aktualisierung von Daten in Datensätzen nach dem Training. Weitere Informationen über den Vorgang finden Sie im Abschnitt CreateDatasetImportJob.
```
aws personalize create-dataset-import-job \
--job-name dataset import job name \
--dataset-arn dataset arn \
--data-source dataLocation=s3://amzn-s3-demo-bucket/filename \
--role-arn roleArn \
--import-mode FULL
```
Der Job zum Importieren von Datensätzen ARN wird angezeigt, wie im folgenden Beispiel gezeigt.
```
{
  "datasetImportJobArn": "arn:aws:personalize:us-west-2:acct-id:dataset-import-job/DatasetImportJobName"
}
```
Überprüfen Sie mit dem Befehl describe-dataset-import-job den Status. Geben Sie den Job zum Importieren von Datensätzen anARN, der im vorherigen Schritt zurückgegeben wurde. Weitere Informationen über den Vorgang finden Sie im Abschnitt DescribeDatasetImportJob.
```
aws personalize describe-dataset-import-job \
--dataset-import-job-arn dataset import job arn
```
Die Eigenschaften des Dataset-Importauftrags, einschließlich des Erstellungsstatus, werden angezeigt. Anfänglich wird das als status angezeigt CREATEPENDING.
```
{
  "datasetImportJob": {
      "jobName": "Dataset Import job name",
      "datasetImportJobArn": "arn:aws:personalize:us-west-2:acct-id:dataset-import-job/DatasetImportJobArn",
      "datasetArn": "arn:aws:personalize:us-west-2:acct-id:dataset/DatasetGroupName/INTERACTIONS",
      "dataSource": {
          "dataLocation": "s3://amzn-s3-demo-bucket/ratings.csv"
      },
      "importMode": "FULL",
      "roleArn": "role-arn",
      "status": "CREATE PENDING",
      "creationDateTime": 1542392161.837,
      "lastUpdatedDateTime": 1542393013.377
  }
}
```
Der Dataset-Import ist abgeschlossen, wenn der Status als angezeigt wirdACTIVE. Nachdem Sie Daten in einen Amazon Personalize Personalize-Datensatz importiert haben, können Sie ihn analysieren, in einen Amazon S3 S3-Bucket exportieren, aktualisieren oder löschen, indem Sie den Datensatz löschen.

Nachdem Sie Ihre Daten importiert haben, können Sie Domain-Empfehlungen (für Domain-Datensatzgruppen) oder benutzerdefinierte Ressourcen (für benutzerdefinierte Datensatzgruppen) erstellen, um ein Modell anhand Ihrer Daten zu trainieren. Sie verwenden diese Ressourcen, um Empfehlungen zu generieren. Weitere Informationen finden Sie unter Domain-Empfehlungen in Amazon Personalize oder Maßgeschneiderte Ressourcen für das Training und die Bereitstellung von Amazon Personalize Personalize-Modellen.

Einen Job zum Importieren von Datensätzen erstellen (AWS SDKs)

Wichtig

Um Daten zu importieren, erstellen Sie mit der CreateDatasetImportJob Operation einen Datensatz-Importauftrag. Der folgende Code zeigt, wie Sie einen Datensatz-Importjob erstellen.

Geben Sie den Jobnamen, datasetArn den Amazon-Ressourcennamen (ARN) Ihres Datensatzes und den Pfad dataLocation zu Ihrem Amazon S3-Bucket ein, in dem Sie die Trainingsdaten gespeichert haben. Verwenden Sie die folgende Syntax für den Pfad:

s3:/amzn-s3-demo-bucket/<folder path>/<CSV filename>.csv

Wenn sich Ihre CSV Dateien in einem Ordner in Ihrem Amazon S3 S3-Bucket befinden und Sie mit einem Datensatz-Importjob mehrere CSV Dateien in einen Datensatz hochladen möchten, können Sie den Pfad zu dem Ordner angeben. Amazon Personalize verwendet nur die Dateien in der ersten Ebene Ihres Ordners, es verwendet keine Daten in Unterordnern. Verwenden Sie die folgende Syntax mit einem / nach dem Ordnernamen:

s3:/amzn-s3-demo-bucket/<folder path>/

Geben Sie für die roleArn die Rolle AWS Identity and Access Management (IAM) an, die Amazon Personalize Berechtigungen für den Zugriff auf Ihren S3-Bucket erteilt. Siehe Eine IAM-Rolle für Amazon Personalize erstellen. Der Standardwert importMode ist FULL. Dadurch werden alle Massendaten im Datensatz ersetzt. Um Daten anzuhängen, setzen Sie sie aufINCREMENTAL. Weitere Informationen zum Aktualisieren vorhandener Massendaten finden Sie unterAktualisierung von Daten in Datensätzen nach dem Training.

SDK for Python (Boto3)


import boto3

personalize = boto3.client('personalize')

response = personalize.create_dataset_import_job(
    jobName = 'YourImportJob',
    datasetArn = 'dataset_arn',
    dataSource = {'dataLocation':'s3://amzn-s3-demo-bucket/filename.csv'},
    roleArn = 'role_arn',
    importMode = 'FULL'
)

dsij_arn = response['datasetImportJobArn']

print ('Dataset Import Job arn: ' + dsij_arn)

description = personalize.describe_dataset_import_job(
    datasetImportJobArn = dsij_arn)['datasetImportJob']

print('Name: ' + description['jobName'])
print('ARN: ' + description['datasetImportJobArn'])
print('Status: ' + description['status'])

SDK for Java 2.x


public static String createPersonalizeDatasetImportJob(PersonalizeClient personalizeClient,
                                                      String jobName,
                                                      String datasetArn,
                                                      String s3BucketPath,
                                                      String roleArn,
                                                      ImportMode importMode) {

  long waitInMilliseconds = 60 * 1000;
  String status;
  String datasetImportJobArn;
  
  try {
      DataSource importDataSource = DataSource.builder()
              .dataLocation(s3BucketPath)
              .build();
      
      CreateDatasetImportJobRequest createDatasetImportJobRequest = CreateDatasetImportJobRequest.builder()
              .datasetArn(datasetArn)
              .dataSource(importDataSource)
              .jobName(jobName)
              .roleArn(roleArn)
              .importMode(importMode)
              .build();
  
      datasetImportJobArn = personalizeClient.createDatasetImportJob(createDatasetImportJobRequest)
              .datasetImportJobArn();
      
      DescribeDatasetImportJobRequest describeDatasetImportJobRequest = DescribeDatasetImportJobRequest.builder()
              .datasetImportJobArn(datasetImportJobArn)
              .build();
  
      long maxTime = Instant.now().getEpochSecond() + 3 * 60 * 60;
  
      while (Instant.now().getEpochSecond() < maxTime) {
  
          DatasetImportJob datasetImportJob = personalizeClient
                  .describeDatasetImportJob(describeDatasetImportJobRequest)
                  .datasetImportJob();
  
          status = datasetImportJob.status();
          System.out.println("Dataset import job status: " + status);
  
          if (status.equals("ACTIVE") || status.equals("CREATE FAILED")) {
              break;
          }
          try {
              Thread.sleep(waitInMilliseconds);
          } catch (InterruptedException e) {
              System.out.println(e.getMessage());
          }
      }
      return datasetImportJobArn;
  
  } catch (PersonalizeException e) {
      System.out.println(e.awsErrorDetails().errorMessage());
  }
  return "";
}

SDK for JavaScript v3


// Get service clients and commands using ES6 syntax.
import { CreateDatasetImportJobCommand, PersonalizeClient } from
  "@aws-sdk/client-personalize";

// create personalizeClient
const personalizeClient = new PersonalizeClient({
  region: "REGION"
});

// Set the dataset import job parameters.
export const datasetImportJobParam = {
  datasetArn: 'DATASET_ARN', /* required */
  dataSource: {  
    dataLocation: 's3://amzn-s3-demo-bucket/<folderName>/<CSVfilename>.csv'  /* required */
  },
  jobName: 'NAME',           /* required */
  roleArn: 'ROLE_ARN',       /* required */
  importMode: "FULL"         /* optional, default is FULL */
};

export const run = async () => {
  try {
    const response = await personalizeClient.send(new CreateDatasetImportJobCommand(datasetImportJobParam));
    console.log("Success", response);
    return response; // For unit tests.
  } catch (err) {
    console.log("Error", err);
  }
};
run();

anchor anchor anchor


import boto3

personalize = boto3.client('personalize')

response = personalize.create_dataset_import_job(
    jobName = 'YourImportJob',
    datasetArn = 'dataset_arn',
    dataSource = {'dataLocation':'s3://amzn-s3-demo-bucket/filename.csv'},
    roleArn = 'role_arn',
    importMode = 'FULL'
)

dsij_arn = response['datasetImportJobArn']

print ('Dataset Import Job arn: ' + dsij_arn)

description = personalize.describe_dataset_import_job(
    datasetImportJobArn = dsij_arn)['datasetImportJob']

print('Name: ' + description['jobName'])
print('ARN: ' + description['datasetImportJobArn'])
print('Status: ' + description['status'])

Die Antwort des DescribeDatasetImportJob Vorgangs beinhaltet den Status des Vorgangs.

Sie müssen warten, bis sich der Status ändert, ACTIVE bevor Sie die Daten zum Trainieren eines Modells verwenden können.

Der Import des Datensatzes ist abgeschlossen, wenn der Status als angezeigt wirdACTIVE. Nachdem Sie Daten in einen Amazon Personalize Personalize-Datensatz importiert haben, können Sie ihn analysieren, in einen Amazon S3 S3-Bucket exportieren, aktualisieren oder löschen, indem Sie den Datensatz löschen.

Warnung JavaScript ist in Ihrem Browser nicht verfügbar oder deaktiviert.

Zur Nutzung der AWS-Dokumentation muss JavaScript aktiviert sein. Weitere Informationen finden auf den Hilfe-Seiten Ihres Browsers.

Dokumentkonventionen

Trainingsdaten importieren

Vorbereiten und Importieren von Massendaten mit Amazon SageMaker AI Data Wrangler

Wählen Sie Ihre Cookie-Einstellungen aus

Cookie-Einstellungen anpassen

Essenziell

Leistung

Funktional

Werbung

Cookie-Einstellungen konnten nicht gespeichert werden

Import von Massendaten in Amazon Personalize mit einem Datensatz-Importjob

Themen

Modi importieren

Anmerkung

Einen Job zum Importieren von Datensätzen erstellen (Konsole)

Wichtig

Um Massendatensätze zu importieren (Konsole)

Einen Job zum Importieren von Datensätzen erstellen (AWS CLI)

Wichtig

Massendatensätze importieren (AWS CLI)

Einen Job zum Importieren von Datensätzen erstellen (AWS SDKs)

Wichtig

Hat Ihnen diese Seite geholfen?

Nächstes Thema:

Vorheriges Thema:

Brauchen Sie Hilfe?