Parametri obbligatori per la procedura guidata Crea origine dati - Amazon Machine Learning

Non aggiorniamo più il servizio Amazon Machine Learning né accettiamo nuovi utenti. Questa documentazione è disponibile per gli utenti esistenti, ma non la aggiorneremo più. Per ulteriori informazioni, consulta la paginaCos'è Amazon Machine Learning.

Le traduzioni sono generate tramite traduzione automatica. In caso di conflitto tra il contenuto di una traduzione e la versione originale in Inglese, quest'ultima prevarrà.

Parametri obbligatori per la procedura guidata Crea origine dati

Affinché Amazon ML si connetta al database Amazon Redshift e legga i dati per conto dell'utente, è necessario fornire quanto segue:

  • Amazon RedshiftClusterIdentifier

  • Il nome del database Amazon Redshift

  • Le credenziali del database Amazon Redshift (nome utente e password)

  • Amazon ML Amazon RedshiftAWS Identity and Access Management(IAM) ruolo

  • La query SQL Amazon Redshift

  • (Facoltativo) La posizione dello schema Amazon ML

  • Il percorso di gestione temporanea di Amazon S3 (dove Amazon ML colloca i dati prima di creare l'origine dati)

Inoltre, è necessario accertarsi che gli utenti o i ruoli IAM che creano le origini dati Amazon Redshift (tramite la console o utilizzando ilCreateDatasourceFromRedshiftazione) avere iliam:PassRoleautorizzazione.

Amazon RedshiftClusterIdentifier

Utilizzare questo parametro che distingue tra maiuscole e minuscole per consentire ad Amazon ML di trovare e connettersi al cluster. È possibile ottenere l'identificatore del cluster (nome) dalla console Amazon Redshift. Per ulteriori informazioni sui cluster, consultaCluster Amazon Redshift.

Nome del database Amazon Redshift

Utilizzare questo parametro per indicare ad Amazon ML quale database del cluster Amazon Redshift contiene i dati che si desidera utilizzare come origine dati.

Credenziali del database Amazon Redshift

Utilizzare questi parametri per specificare il nome utente e la password dell'utente del database Amazon Redshift nel cui contesto sarà eseguita la query di sicurezza.

Nota

Amazon ML richiede un nome utente e una password Amazon Redshift per connettersi al database Amazon Redshift. Dopo aver scaricato i dati in Amazon S3, Amazon ML non riutilizza mai la password, né la memorizza.

Ruolo Amazon ML Amazon Redshift

Utilizzare questo parametro per specificare il nome del ruolo IAM che Amazon ML deve utilizzare per configurare i gruppi di sicurezza per il cluster Amazon Redshift e il bucket della policy per il percorso di gestione temporanea di Amazon S3.

Se non si dispone di un ruolo IAM in grado di accedere ad Amazon Redshift, Amazon ML può crearne uno. Quando Amazon ML crea un ruolo, crea e attribuisce una policy gestita dal cliente a un ruolo IAM. La policy che Amazon ML crea concede ad Amazon ML l'autorizzazione per accedere solo al cluster specificato dall'utente.

Se si dispone già di un ruolo IAM per accedere ad Amazon Redshift, è possibile digitare l'ARN del ruolo oppure scegliere il ruolo dall'elenco a discesa. I ruoli IAM con accesso Amazon Redshift sono elencati nella parte superiore dell'elenco a discesa.

Il ruolo IAM deve avere i seguenti contenuti:

{ "Version": "2012-10-17", "Statement": [ { "Effect": "Allow", "Principal": { "Service": "machinelearning.amazonaws.com" }, "Action": "sts:AssumeRole", "Condition": { "StringEquals": { "aws:SourceAccount": "123456789012" }, "ArnLike": { "aws:SourceArn": "arn:aws:machinelearning:us-east-1:123456789012:datasource/*" } } }] }

Per ulteriori informazioni sulle policy gestite dal cliente, consultaPolicy gestite dal clientenellaIAM User Guide.

Query SQL Amazon Redshift

Utilizzare questo parametro per specificare la query SQL SELECT che Amazon ML esegue nel database Amazon Redshift per selezionare i dati. Amazon ML utilizza Amazon RedshiftSCARICAREazione per copiare in modo sicuro i risultati della query in una posizione Amazon S3.

Nota

Amazon ML funziona meglio quando i record di input sono in ordine casuale (mischiati). È possibile mischiare i risultati della query SQL Amazon Redshift utilizzando Amazon Redshift.casuale ()funzione. Ad esempio, supponiamo che questa sia la query originale:

"SELECT col1, col2, … FROM training_table"

È possibile incorporare un mescolamento casuale aggiornando la query in questo modo:

"SELECT col1, col2, … FROM training_table ORDER BY random()"
Posizione
Posizione dello schema (facoltativa)

Utilizzare questo parametro per specificare il percorso Amazon S3 dello schema per i dati Amazon Redshift che Amazon ML esporterà.

Se non si fornisce uno schema per l'origine dati, la console di Amazon ML crea automaticamente uno schema Amazon ML in base allo schema dati della query SQL Amazon Redshift. Gli schemi Amazon ML dispongono di un minor numero di tipi di dati rispetto agli schemi Amazon Redshift, perciò non si tratta di una conversione uno-a-uno. La console Amazon ML converte i tipi di dati Amazon Redshift in tipi di dati Amazon ML utilizzando il seguente schema di conversione.

Tipi di dati Amazon Redshift Alias di Amazon Redshift Tipo di dati Amazon ML
SMALLINT INT2 NUMERIC
INTEGER INT, INT4 NUMERIC
BIGINT INT8 NUMERIC
DECIMAL NUMERIC NUMERIC
REAL FLOAT4 NUMERIC
DOUBLE PRECISION FLOAT8, FLOAT NUMERIC
BOOLEAN BOOL BINARY
CHAR CHARACTER, NCHAR, BPCHAR CATEGORICAL
VARCHAR CHARACTER VARYING, NVARCHAR, TEXT TEXT
DATE TEXT
TIMESTAMP TIMESTAMP WITHOUT TIME ZONE TEXT

Da convertire in Amazon MLBinaryI tipi di dati, i valori Booleans Amazon Redshift nei dati devono essere valori Binary Amazon ML Binary supportati. Se il tipo di dati Boolean ha valori non supportati, Amazon ML li converte nel tipo di dati più specifico che riesce a trovare. Ad esempio, se un booleano Amazon Redshift ha i valori0,1, e2, Amazon ML converte il valore booleano in unNumerictipo di dati. Per ulteriori informazioni sui valori binari supportati, consultare Utilizzo del campo AttributeType.

Se Amazon ML non è in grado di individuare un tipo di dati, l'impostazione predefinita èText.

Dopo che Amazon ML ha convertito lo schema, è possibile esaminare e correggere i tipi di dati assegnati da Amazon ML nella procedura guidata Crea origine dati e rivedere lo schema prima che Amazon ML crei l'origine dati.

Posizione temporanea di Amazon S3

Utilizzare questo parametro per specificare il nome del percorso di gestione temporanea di Amazon S3 in cui Amazon ML archivia i risultati della query SQL Amazon Redshift. Dopo aver creato l'origine dati, Amazon ML utilizza i dati nel percorso di gestione temporanea anziché tornare ad Amazon Redshift.

Nota

Poiché Amazon ML assume il ruolo IAM definito dal ruolo Amazon Redshift Amazon ML, Amazon ML dispone delle autorizzazioni per accedere a eventuali oggetti nel percorso specificato di gestione temporanea di Amazon S3. Per questo motivo, consigliamo di archiviare nel percorso di gestione temporanea di Amazon S3 solo i file che non contengono informazioni sensibili. Ad esempio, se il bucket root ès3://mybucket/, consigliamo di creare una posizione per archiviare solo i file a cui si desidera che Amazon ML abbia accesso, comes3://mybucket/AmazonMLInput/.