Erforderliche Parameter für den Assistenten Datenquelle erstellen - Amazon Machine Learning

Wir aktualisieren den Amazon Machine Learning Learning-Service nicht mehr und akzeptieren keine neuen Benutzer mehr dafür. Diese Dokumentation ist für bestehende Benutzer verfügbar, wir aktualisieren sie jedoch nicht mehr. Weitere Informationen finden Sie unterWas Amazon Machine Learning.

Die vorliegende Übersetzung wurde maschinell erstellt. Im Falle eines Konflikts oder eines Widerspruchs zwischen dieser übersetzten Fassung und der englischen Fassung (einschließlich infolge von Verzögerungen bei der Übersetzung) ist die englische Fassung maßgeblich.

Erforderliche Parameter für den Assistenten Datenquelle erstellen

Damit Amazon ML eine Verbindung zu Ihrer Amazon Redshift Redshift-Datenbank aufbauen und Daten in Ihrem Auftrag lesen kann, müssen Sie Folgendes angeben:

  • Der Amazon RedshiftClusterIdentifier

  • Der Name der Amazon Redshift Redshift-Datenbank

  • Die Anmeldeinformationen für die Amazon Redshift Redshift-Datenbank (Benutzername und Passwort) für die Datenbank

  • Der Amazon ML Amazon RedshiftAWS Identity and Access Management(IAM) -Rolle

  • Die Amazon Redshift SQL-Abfrage

  • (Optional) Den Speicherort des Amazon-ML-Schemas

  • Den Amazon S3 S3-Staging-Standort (wobei Amazon ML die Daten vor dem Erstellen der Datenquelle ablegt)

Darüber hinaus müssen Sie sicherstellen, dass die IAM-Benutzer oder -Rollen, die Amazon Redshift -Datenquellen erstellen (über die Konsole oder mithilfe derCreateDatasourceFromRedshiftaction) habe dasiam:PassRoleDie Erlaubnis.

Amazon RedshiftClusterIdentifier

Verwenden Sie bei diesem Parameter, bei dem die Groß- und Kleinschreibung beachtet werden muss, um Ihren Cluster zu finden und eine Die Cluster-ID (Name) können Sie über Ihre Amazon Redshift Redshift-Konsole abrufen. Weitere Informationen zu Clustern finden Sie unterAmazon-Redshift-Clusteraus.

Amazon-Redshift-Datenbankname

Verwenden Sie diesen Parameter, um Amazon ML mitzuteilen, welche Datenbank im Amazon Redshift -Cluster die Daten enthält, die Sie als Datenquelle verwenden möchten.

Anmeldeinformationen für Amazon Redshift Redshift-Datenbank

Verwenden Sie diesen Parameter, um den Benutzernamen und das Passwort des Amazon Redshift Redshift-Datenbankbenutzers anzugeben, in dessen Kontext die Sicherheitsabfrage ausgeführt wird.

Anmerkung

Amazon ML benötigt einen Amazon Redshift Redshift-Benutzernamen und ein -Passwort, um eine Verbindung zu Ihrer Amazon Redshift Redshift-Datenbank aufzubauen. Nach dem Entladen der Daten auf Amazon S3 verwendet Amazon ML Ihr Passwort nie wieder, und das Passwort wird auch nicht gespeichert.

Amazon ML Amazon Redshift Redshift-Rolle

Verwenden Sie diesen Parameter, um den Namen der IAM-Rolle anzugeben, den Amazon ML zum Konfigurieren der Sicherheitsgruppen für den Amazon Redshift Redshift--Cluster und der Bucket-Richtlinie für den Amazon S3 S3-Staging-Speicherort verwenden soll.

Wenn Sie nicht über eine IAM-Rolle verfügen, die auf Amazon Redshift zugreifen kann, kann Amazon ML eine Rolle für Sie erstellen. Wenn Amazon ML eine Rolle erstellt, wird eine Kundenverwaltete Richtlinie erstellt und an eine IAM-Rolle angefügt. Die Richtlinie, die Amazon ML erstellt, erteilt Amazon ML die Berechtigung für den Zugriff auf die von Ihnen angegebenen Cluster.

Wenn Sie bereits eine IAM-Rolle für den Zugriff auf Amazon Redshift besitzen, können Sie den ARN der Rolle eingeben oder die Rolle aus der Dropdown-Liste wählen. IAM-Rollen mit Amazon Redshift Redshift-Zugriff finden Sie oben in der Dropdown-Liste.

Die IAM-Rolle muss den folgenden Inhalt haben:

{ "Version": "2012-10-17", "Statement": [ { "Effect": "Allow", "Principal": { "Service": "machinelearning.amazonaws.com" }, "Action": "sts:AssumeRole", "Condition": { "StringEquals": { "aws:SourceAccount": "123456789012" }, "ArnLike": { "aws:SourceArn": "arn:aws:machinelearning:us-east-1:123456789012:datasource/*" } } }] }

Weitere Informationen zu kundenverwalteten Richtlinien finden Sie unterVom Kunden verwaltete RichtlinienimIAM User Guideaus.

Amazon-Redshift-SQL-Abfrage

Verwenden Sie diesen Parameter, um die SQL SELECT-Abfrage anzugeben, die Amazon ML auf Ihrer Amazon Redshift Redshift-Datenbank ausführt, um Ihre Daten auszuwählen. Amazon ML verwendet Amazon RedshiftENTLADEN-Aktion, um die Ergebnisse Ihrer Abfrage sicher in einen Amazon S3 S3-Speicherort zu kopieren.

Anmerkung

Amazon ML eignet sich hervorragend dann, wenn Eingabedatensätze in zufälliger Reihenfolge (gemischt) bereitgestellt werden. Sie können problemlos die Ergebnisse Ihrer Amazon Redshift -SQL-Abfrage mischen, indem Sie Amazon Redshift verwenden.random ()Funktion. Beispiel: Angenommen, dies ist die ursprüngliche Abfrage:

"SELECT col1, col2, … FROM training_table"

Sie können durch Aktualisierung der Abfrage zufällig mischen:

"SELECT col1, col2, … FROM training_table ORDER BY random()"
Schemaspeicherort (Optional)

Verwenden Sie diesen Parameter, um den Amazon S3-Pfad zu Ihrem Schema für die Amazon Redshift Redshift-Daten, die Amazon ML exportieren wird, anzugeben.

Wenn Sie kein Schema für Ihre Datenquelle angeben, erstellt die Amazon ML-Konsole automatisch ein Amazon ML-Schema, das auf dem Datenschema der Amazon Redshift -SQL-Abfrage basiert. Amazon ML-Schemata verfügen über weniger Datentypen als Amazon Redshift Redshift-Schemata, sodass es sich nicht um eine Eins-zu-Eins-Konvertierung handelt. Die Amazon ML-Konsole konvertiert Amazon Redshift -Datentypen nach dem folgenden Konvertierungsschema in Amazon ML-Datentypen.

Amazon Redshift-Datentypen Amazon Redshift Redshift-Aliase Amazon ML-Datentyp
SMALLINT INT2 NUMERIC
INTEGER INT, INT4 NUMERIC
BIGINT INT8 NUMERIC
DECIMAL NUMERIC NUMERIC
REAL FLOAT4 NUMERIC
DOUBLE PRECISION FLOAT8, FLOAT NUMERIC
BOOLEAN BOOL BINARY
CHAR CHARACTER, NCHAR, BPCHAR CATEGORICAL
VARCHAR CHARACTER VARYING, NVARCHAR, TEXT TEXT
DATUM TEXT
TIMESTAMP TIMESTAMP WITHOUT TIME ZONE TEXT

Wird in Amazon ML konvertiertBinary-Datentypen, müssen die Werte der Amazon Redshift Booleschen in Ihren Daten unterstützte Amazon ML Binärwerte sein. Wenn Ihr boolescher Datentyp nicht unterstützte Werte besitzt, konvertiert Amazon ML diese in einen möglichst spezifischen Datentyp. Wenn beispielsweise ein Amazon Redshift Boolean die Werte hat0,1, und2konvertiert Amazon ML den booleschen Wert in eineNumeric-Datentyp. Weitere Informationen zu unterstützten binären Werten finden Sie unter Verwenden des Felds AttributeType.

Wenn Amazon ML keinen Datentyp herausfinden kann, lautet der StandardwertTextaus.

Nachdem Amazon ML das Schema konvertiert hat, können Sie die zugewiesenen Amazon ML-Datentypen im Assistenten Datenquelle erstellen überprüfen und korrigieren und das Schema überarbeiten, bevor Amazon ML die Datenquelle erstellt.

Speicherort für Amazon S3 Staging

Verwenden Sie diesen Parameter, um den Namen des Amazon S3 S3-Staging-Speicherorts anzugeben, an dem Amazon ML die Ergebnisse der Amazon Redshift -SQL-Abfrage speichert. Nach dem Erstellen der Datenquelle verwendet Amazon ML die Daten im Staging-Speicherort anstatt zu Amazon Redshift zurückzukehren.

Anmerkung

Da Amazon ML die von der Amazon ML Amazon Redshift definierte IAM-Rolle voraussetzt, besitzt Amazon ML die Berechtigungen, auf alle am Amazon S3 S3-Staging-Speicherort angegebenen Objekte zuzugreifen. Aus diesem Grund empfehlen wir, dass Sie nur Dateien im Amazon S3 S3-Staging-Speicherort speichern, die keine sensiblen Informationen enthalten. Zum Beispiel, wenn Ihr Root-Buckets3://mybucket/empfehlen wir, dass Sie einen Speicherort erstellen, in dem Sie nur die Dateien speichern, auf die Amazon ML Zugriff erhalten soll, z. B.s3://mybucket/AmazonMLInput/aus.