Importa - Amazon SageMaker

Le traduzioni sono generate tramite traduzione automatica. In caso di conflitto tra il contenuto di una traduzione e la versione originale in Inglese, quest'ultima prevarrà.

Importa

Puoi utilizzare Amazon SageMaker Data Wrangler per importare dati dalle seguenti fonti di dati: Amazon Simple Storage Service (Amazon S3), Amazon Athena, Amazon Redshift e Snowflake. Il set di dati che importi può includere fino a 1000 colonne.

Alcune fonti di dati consentono di aggiungere più connessioni dati:

  • È possibile connettersi a più cluster Amazon Redshift. Ogni cluster diventa un'origine dati.

  • Puoi effettuare una query a qualsiasi database Athena del tuo account per importare dati da quel database.

Quando importi un set di dati da un'origine dati, questo viene visualizzato nel flusso di dati. Data Wrangler deduce automaticamente il tipo di dati di ogni colonna del set di dati. Per modificare questi tipi, seleziona la fase Tipi di dati e poi Modifica tipi di dati.

Quando importi dati da Athena o Amazon Redshift, i dati importati vengono automaticamente archiviati nel bucket S3 SageMaker predefinito per AWS la regione in cui utilizzi Studio Classic. Inoltre, Athena archivia i dati visualizzati in anteprima in Data Wrangler in questo bucket. Per ulteriori informazioni, consulta Archiviazione di dati importati.

Importante

Il bucket Amazon S3 predefinito potrebbe non avere le impostazioni di sicurezza meno permissive, come la policy del bucket e la crittografia lato server (). SSE Ti consigliamo vivamente di aggiungere una policy sui bucket per limitare l'accesso ai set di dati importati in Data Wrangler.

Importante

Inoltre, se utilizzi la policy gestita per SageMaker, ti consigliamo vivamente di limitarla alla policy più restrittiva che ti consenta di eseguire il tuo caso d'uso. Per ulteriori informazioni, consulta Concedi l'autorizzazione a utilizzare IAM Data Wrangler a un ruolo.

Tutte le fonti di dati ad eccezione di Amazon Simple Storage Service (Amazon S3) richiedono di specificare SQL una query per importare i dati. Per ogni query, è necessario specificare quanto segue:

  • Catalogo dati

  • Database

  • Tabella

Puoi specificare il nome del database o del catalogo dati nei menu a discesa o all'interno della query. Di seguito vengono mostrati esempi di query.

  • select * from example-data-catalog-name.example-database-name.example-table-name: la query non utilizza nulla di quanto specificato nei menu a discesa dell'interfaccia utente (UI) per l'esecuzione. Interroga example-table-name all'interno di example-database-name dentro example-data-catalog-name

  • select * from example-database-name.example-table-name: la query utilizza il catalogo di dati specificato nel menu a discesa Data catalog per l'esecuzione. Esegue una query example-table-name all'interno di example-database-name dentro il catalogo di dati che hai specificato.

  • select * from example-table-name: la query richiede di selezionare i campi dei menu a discesa Data catalog e Database name. Esegue una query example-table-name all'interno del catalogo, dentro il detabase e il catalogo di dati che hai specificato.

Il collegamento tra Data Wrangler e l'origine dati è una connessione. La connessione viene utilizzata per importare dati dalla propria origine dati.

Esistono i seguenti tipi di connessioni:

  • Diretta

  • Catalogata

Data Wrangler ha sempre accesso ai dati più recenti tramite una connessione diretta. Se i dati in origine dati sono stati aggiornati, è possibile utilizzare la connessione per importare i dati. Ad esempio, se qualcuno aggiunge un file a uno dei tuoi bucket Amazon S3, puoi importare il file.

Una connessione catalogata è il risultato di un trasferimento di dati. I dati nella connessione catalogata non contengono necessariamente i dati più recenti. Ad esempio, potresti configurare un trasferimento di dati tra Salesforce e Amazon S3. Se è disponibile un aggiornamento dei dati di Salesforce, devi trasferirli nuovamente. Puoi automatizzare il processo di trasferimento dei dati. Per ulteriori informazioni sul trasferimento di dati, consultare Importare dati da piattaforme Software as a Service (SaaS).

Importa i dati da Amazon S3

È possibile utilizzare Amazon Simple Storage Service (Amazon S3) per memorizzare e recuperare qualsiasi volume di dati, in qualunque momento e da qualunque luogo tramite il Web. È possibile eseguire queste attività utilizzando AWS Management Console l'interfaccia Web semplice e intuitiva e Amazon API S3. Se hai archiviato il set di dati localmente, ti consigliamo di aggiungerlo a un bucket S3 per l'importazione in Data Wrangler. Per sapere come fare, consulta Caricamento di un oggetto nel bucket nella Guida per l'utente di Amazon Simple Storage Service.

Data Wrangler utilizza S3 Select per consentirti di visualizzare in anteprima i tuoi file Amazon S3 in Data Wrangler. Sono previsti costi standard per ogni anteprima del file. Per ulteriori informazioni sui prezzi, consulta la scheda Richieste e recupero dati sui Prezzi di Amazon S3.

Importante

Se prevedi di esportare un flusso di dati e avviare un job Data Wrangler, importare dati in un SageMaker feature store o creare una SageMaker pipeline, tieni presente che queste integrazioni richiedono che i dati di input di Amazon S3 si trovino nella stessa regione. AWS

Importante

Se stai importando un CSV file, assicurati che soddisfi i seguenti requisiti:

  • Un record nel set di dati non può contenere più di una riga.

  • Una barra rovesciata, \, è l'unico carattere di escape valido.

  • Il set di dati deve utilizzare uno dei seguenti delimitatori:

    • Virgola – ,

    • Due punti – :

    • Punto e virgola – ;

    • Pipeline – |

    • Scheda – [TAB]

Per risparmiare spazio, puoi importare file compressi. CSV

Data Wrangler ti dà la possibilità di importare l'intero set di dati o di campionarne una parte. Per Amazon S3 sono disponibili le seguenti opzioni di campionamento:

  • Nessuno: importa l'intero set di dati.

  • First K: campiona le prime righe K del set di dati, dove K è un numero intero specificato.

  • Randomizzato: preleva un campione a caso della dimensione specificata dall'utente.

  • Stratificato: preleva un campione a caso stratificato. Un campione stratificato mantiene il rapporto dei valori di una colonna.

Dopo aver importato i dati, puoi anche utilizzare il trasformatore di campionamento per prelevare uno o più campioni dall'intero set di dati. Per ulteriori informazioni sul trasformatore di campionamento, consulta Campionamento.

Puoi utilizzare uno dei seguenti identificatori di risorse per importare i dati:

  • Un Amazon S3 URI che utilizza un bucket Amazon S3 o un punto di accesso Amazon S3

  • Un alias del punto di accesso Amazon S3

  • Un Amazon Resource Name (ARN) che utilizza un punto di accesso Amazon S3 o un bucket Amazon S3

I punti di accesso Amazon S3 sono endpoint di rete denominati che vengono collegati ai bucket. Ogni punto di accesso dispone di autorizzazioni e controlli di rete distinti che puoi configurare. Per maggiori informazioni sui punti di accesso, vedi Gestione dell'accesso ai dati con Punti di accesso Amazon S3.

Importante

Se utilizzi un Amazon Resource Name (ARN) per importare i tuoi dati, deve trattarsi di una risorsa situata nella stessa Regione AWS che stai utilizzando per accedere ad Amazon SageMaker Studio Classic.

Puoi importare un singolo file o più file come set di dati. Puoi utilizzare l'operazione di importazione multifile quando si dispone di un set di dati suddiviso in file separati. Prende tutti i file da una directory Amazon S3 e li importa come un unico set di dati. Per informazioni sui tipi di file che puoi importare e su come importarli, consulta le seguenti sezioni.

Single File Import

È possibile importare singoli file nei seguenti formati:

  • Valori separati da virgole (CSV)

  • Parquet

  • Notazione di oggetti Javascript () JSON

  • Riga colonnare ottimizzata () ORC

  • Immagine: Data Wrangler utilizza OpenCV per importare immagini. Per ulteriori informazioni sui formati di immagine supportati, consulta Lettura e scrittura di file immagine.

Per i file formattati inJSON, Data Wrangler supporta sia JSON le righe (.jsonl) che i documenti (.json). JSON Quando visualizzi in anteprima i tuoi dati, li mostra automaticamente in formato tabulare. JSON Per JSON i documenti annidati di dimensioni superiori a 5 MB, Data Wrangler mostra lo schema per la struttura e gli array come valori nel set di dati. Utilizza gli operatori Flatten structured e Explode array per visualizzare i valori annidati in formato tabulare. Per ulteriori informazioni, consulta Unnest Data JSON e Esplodi array.

Quando scegli un set di dati, puoi rinominarlo, specificare il tipo di file e identificare la prima riga come intestazione.

Puoi importare un set di dati che hai suddiviso in più file in un bucket Amazon S3 in un'unica fase di importazione.

Per importare un set di dati in Data Wrangler da un singolo file archiviato in Amazon S3:
  1. Se al momento non sei nella scheda Import(Importa), seleziona Import.

  2. In Available (Disponibile), seleziona Amazon S3.

  3. Dalla sezione Import tabular, image, or time-series data from S3 (Importa dati tabulari, di immagini o di serie temporali da S3), esegui una delle seguenti operazioni:

    • Scegli un bucket Amazon S3 dalla visualizzazione tabulare e vai al file che stai importando.

    • Per l'origine S3, specifica un bucket Amazon S3 o Amazon S3 e seleziona Vai. URI Amazon S3 URIs può essere in uno dei seguenti formati:

      • s3://amzn-s3-demo-bucket/example-prefix/example-file

      • example-access-point-aqfqprnstn7aefdfbarligizwgyfouse1a-s3alias/datasets/example-file

      • s3://arn:aws:s3:AWS-Region:111122223333:accesspoint/example-prefix/example-file

  4. Scegli il set di dati per aprire il riquadro delle impostazioni di importazione.

  5. Se il CSV file ha un'intestazione, seleziona la casella di controllo accanto a Aggiungi intestazione alla tabella.

  6. Usa la Preview (Anteprima) della tabella per visualizzare l'anteprima del set di dati. Questa tabella mostra fino a 100 righe.

  7. Nel riquadro Details (Dettagli), verifica o modifica il Name (Nome) e il File Type (tipo di file) per il set di dati. Se aggiungi un Name che contiene spazi, questi spazi vengono sostituiti da caratteri di sottolineatura quando il set di dati viene importato.

  8. Specificare la configurazione di campionamento che si desidera utilizzare.

  9. Seleziona Importa.

Multifile Import

Di seguito sono riportati i requisiti per l'importazione di più file:

  • I file devono trovarsi nella stessa cartella del bucket Amazon S3.

  • I file devono condividere la stessa intestazione o non averne alcuna.

Ogni file deve essere in uno dei seguenti formati:

  • CSV

  • Parquet

  • Colonna a righe ottimizzata () ORC

  • Immagine: Data Wrangler utilizza OpenCV per importare immagini. Per ulteriori informazioni sui formati di immagine supportati, consulta Lettura e scrittura di file immagine.

Utilizza la procedura seguente per importare più file.

Per importare un set di dati in Data Wrangler da più file archiviati nella directory Amazon S3:
  1. Se al momento non sei nella scheda Import(Importa), seleziona Import.

  2. In Available (Disponibile), seleziona Amazon S3.

  3. Dalla sezione Import tabular, image, or time-series data from S3 (Importa dati tabulari, di immagini o di serie temporali da S3), esegui una delle seguenti operazioni:

    • Scegli un bucket Amazon S3 dalla visualizzazione tabulare e vai alla cartella contente i file che stai importando.

    • Per l'origine S3, specifica il bucket Amazon S3 o un Amazon URI S3 con i tuoi file e seleziona Vai. Sono valide le seguenti opzioni: URIs

      • s3://amzn-s3-demo-bucket/example-prefix/example-prefix

      • example-access-point-aqfqprnstn7aefdfbarligizwgyfouse1a-s3alias/example-prefix/

      • s3://arn:aws:s3:AWS-Region:111122223333:accesspoint/example-prefix

  4. Seleziona la cartella contenente i file da importare. Ogni file deve essere in uno dei formati supportati. I file devono essere dello stesso tipo di dati.

  5. Se la cartella contiene CSV file con intestazioni, seleziona la casella di controllo accanto a La prima riga è intestazione.

  6. Se i tuoi file sono nidificati all'interno di altre cartelle, seleziona la casella di controllo accanto a Include nested directories (Includi directory nidificate)

  7. (Facoltativo) Scegliete Add filename column (Aggiungi colonna nome file ) e aggiungi una colonna al set di dati che mostri il nome del file per ogni osservazione.

  8. (Facoltativo) Per impostazione predefinita, Data Wrangler non mostra l'anteprima di una cartella. È possibile attivare l'anteprima selezionando il pulsante blu Preview off (Anteprima disattivata). Un'anteprima mostra le prime 10 righe dei primi 10 file nella cartella.

  9. Nel riquadro Details (Dettagli), verifica o modifica il Name (Nome) e il File Type (tipo di file) per il set di dati. Se aggiungi un Name che contiene spazi, questi spazi vengono sostituiti da caratteri di sottolineatura quando il set di dati viene importato.

  10. Specificare la configurazione di campionamento che si desidera utilizzare.

  11. Scegliere Import dataset (Importa set di dati).

Puoi anche utilizzare i parametri per importare un sottoinsieme di file che corrispondono a un modello. I parametri consentono di scegliere in modo più selettivo i file da importare. Per iniziare a utilizzare i parametri, modifica l'origine dati e applicali al percorso che stai utilizzando per importare i dati. Per ulteriori informazioni, consulta Riutilizzo dei flussi di dati per set di dati diversi.

Importazione dei dati da Athena

Usa Amazon Athena per importare dati da Amazon Simple Storage Service (Amazon S3) in Data Wrangler. In Athena, scrivi SQL query standard per selezionare i dati che stai importando da Amazon S3. Per ulteriori informazioni, consulta Che cos'è Amazon Athena?

Puoi usare il AWS Management Console per configurare Amazon Athena. È necessario creare almeno un database in Athena prima di iniziare a eseguire le query. Per maggiori informazioni su come iniziare a lavorare con Athena, consulta la sezione Nozioni di base.

Athena è direttamente integrata con Data Wrangler. Puoi scrivere query Athena senza dover uscire dall'interfaccia utente di Data Wrangler.

Oltre a scrivere semplici query Athena in Data Wrangler, puoi anche usare:

Esegui una query su Athena all'interno di Data Wrangler

Nota

Data Wrangler non supporta le query federate.

Se lo usi AWS Lake Formation con Athena, assicurati che le autorizzazioni di Lake Formation non abbiano la precedenza IAM IAM sulle autorizzazioni per il database. sagemaker_data_wrangler

Data Wrangler ti dà la possibilità di importare l'intero set di dati o di campionarne una parte. Per Athena sono disponibili le seguenti opzioni di campionamento:

  • Nessuno: importa l'intero set di dati.

  • First K: campiona le prime righe K del set di dati, dove K è un numero intero specificato.

  • Randomizzato: preleva un campione a caso della dimensione specificata dall'utente.

  • Stratificato: preleva un campione a caso stratificato. Un campione stratificato mantiene il rapporto dei valori di una colonna.

La procedura seguente mostra come importare un set di dati da Athena in Data Wrangler.

Per importare un set di dati in Data Wrangler da Athena
  1. Accedi ad Amazon SageMaker Console.

  2. Scegli Studio

  3. Scegli Launch app.

  4. Dall'elenco a discesa, seleziona Studio.

  5. Scegli l'icona Home.

  6. Selezionare Data (Dati).

  7. Scegli Data Wrangler.

  8. Scegli Import data (Importa dati).

  9. In Available (Disponibile), seleziona Amazon Athena.

  10. Per Data Catalog, scegli un catalogo di dati.

  11. Utilizza l'elenco a discesa Database per selezionare il database su cui eseguire le query. Quando si seleziona un database, è possibile visualizzare in anteprima tutte le tabelle del database utilizzando le tabelle elencate in Details (Dettagli).

  12. (Opzionale) Scegli Advanced configuration (Advanced configuration (Configurazione avanzata).

    1. Scegli un Workgroup (Gruppo di lavoro).

    2. Se il tuo gruppo di lavoro non ha imposto la posizione di output di Amazon S3 o se non utilizzi un gruppo di lavoro, specifica un valore per Amazon S3 location of query results (Posizione Amazon S3 dei risultati delle query).

    3. (Facoltativo) Per Data retention period, (Periodo di conservazione dei dati) seleziona la casella di controllo per impostare un periodo di conservazione dei dati e specifica il numero di giorni in cui archiviare i dati prima che vengano eliminati.

    4. (Facoltativo) Per impostazione predefinita, Data Wrangler salva la connessione. È possibile scegliere di deselezionare la casella di controllo e non salvare la connessione.

  13. Per Sampling (Campionamento), scegliete un metodo di campionamento. Scegliete None (Nessuno) per disattivare il campionamento.

  14. Inserisci la tua query nell'editor di query e usa il pulsante Esegui (Run) per eseguire la query. Dopo una query riuscita, puoi visualizzare l'anteprima del risultato nell'editor.

    Nota

    I dati di Salesforce utilizzano il tipo timestamptz. Se staieseguendo una query sulla colonna del timestamp che hai importato in Athena da Salesforce, trasmetti i dati nella colonna al tipo timestamp. La seguente query imposta la colonna del timestamp nel tipo corretto.

    # cast column timestamptz_col as timestamp type, and name it as timestamp_col select cast(timestamptz_col as timestamp) as timestamp_col from table
  15. Per importare i risultati della query, seleziona Import (Importa).

Dopo aver completato la procedura precedente, il set di dati che hai interrogato e importato viene visualizzato nel flusso di Data Wrangler.

Per impostazione predefinita, Data Wrangler salva le impostazioni di connessione come nuova connessione. Quando importi i tuoi dati, la query che hai già specificato appare come una nuova connessione. Le connessioni salvate memorizzano informazioni sui gruppi di lavoro Athena e sui bucket Amazon S3 che stai utilizzando. Quando ti connetti nuovamente alla origine dati, puoi scegliere la connessione salvata.

Gestione dei risultati di query

Data Wrangler supporta l'utilizzo dei gruppi di lavoro Athena per gestire i risultati delle query all'interno di un account AWS . Puoi specificare una posizione di output Amazon S3 per ogni gruppo di lavoro. Puoi anche specificare se l'output della query può essere inviato a diverse ubicazioni Amazon S3. Per ulteriori informazioni, consulta Uso dei gruppi di lavoro per controllare l'accesso alle query e i costi.

Il tuo gruppo di lavoro potrebbe essere configurato per applicare la posizione di output delle query di Amazon S3. Non puoi modificare la posizione di output dei risultati delle query per tali gruppi di lavoro.

Se non utilizzi un gruppo di lavoro o non specifichi una posizione di output per le tue query, Data Wrangler utilizza il bucket Amazon S3 predefinito nella stessa AWS regione in cui si trova l'istanza di Studio Classic per archiviare i risultati delle query Athena. Crea tabelle temporanee in questo database per spostare l'output della query in questo bucket Amazon S3. Elimina queste tabelle dopo l'importazione dei dati; tuttavia il database, sagemaker_data_wrangler, persiste. Per ulteriori informazioni, consulta Archiviazione di dati importati.

Per utilizzare i gruppi di lavoro Athena, imposta la IAM politica che consente l'accesso ai gruppi di lavoro. Se utilizzi un SageMaker-Execution-Role, ti consigliamo di aggiungere la policy al ruolo. Per ulteriori informazioni sulle IAM politiche per i gruppi di lavoro, consulta le politiche per l'accesso ai gruppi IAMdi lavoro. Per esempi di policy per i gruppi di lavoro, consulta Esempi di policy per i gruppi di lavoro.

Impostazione dei periodi di conservazione dei dati

Data Wrangler imposta automaticamente un periodo di conservazione dei dati per i risultati della query. I risultati vengono eliminati dopo la durata del periodo di conservazione. Ad esempio, il periodo di conservazione predefinito è di cinque giorni. I risultati della query vengono eliminati dopo cinque giorni. Questa configurazione è progettata per aiutarti a ripulire i dati che non utilizzi più. La pulizia dei dati impedisce l'accesso agli utenti non autorizzati. Inoltre, aiuta a controllare i costi di archiviazione dei dati su Amazon S3.

Se non imposti un periodo di conservazione, la configurazione del ciclo di vita di Amazon S3 determina la durata di archiviazione degli oggetti. Il criterio di conservazione dei dati che hai specificato per la configurazione del ciclo di vita rimuove i risultati delle query che sono più vecchi della configurazione del ciclo di vita che hai specificato. Per ulteriori informazioni, consulta Impostazione della configurazione del ciclo di vita in un bucket.

Data Wrangler utilizza le configurazioni del ciclo di vita di Amazon S3 per gestire la conservazione e la scadenza dei dati. È necessario concedere le autorizzazioni del ruolo di IAM esecuzione di Amazon SageMaker Studio Classic per gestire le configurazioni del ciclo di vita dei bucket. Utilizza la seguente procedura per concedere le autorizzazioni.

Per concedere le autorizzazioni a gestire la configurazione del ciclo di vita, procedi come segue.

  1. Accedi a AWS Management Console e apri la console all'indirizzo. IAM https://console.aws.amazon.com/iam/

  2. Scegli Ruoli.

  3. Nella barra di ricerca, specifica il ruolo di SageMaker esecuzione di Amazon utilizzato da Amazon SageMaker Studio Classic.

  4. Seleziona il ruolo.

  5. Scegli Aggiungi autorizzazioni.

  6. Scegli Create inline policy (Crea policy in linea).

  7. Per Service (Servizio), specifica S3 e sceglilo.

  8. Nella sezione Leggi, scegli GetLifecycleConfiguration.

  9. Nella sezione Scrittura, scegli PutLifecycleConfiguration.

  10. In Risorse, scegli Specifiche.

  11. Per Azioni, seleziona l'icona a forma di freccia accanto a Gestione delle autorizzazioni.

  12. Scegli PutResourcePolicy.

  13. In Risorse, scegli Specifiche.

  14. Scegli la casella di controllo accanto a Qualsiasi in questo account.

  15. Scegli Verifica policy.

  16. Per Nome, specificare un nome.

  17. Scegli Create Policy (Crea policy).

Importazione di dati da Amazon Redshift

Amazon Redshift è un servizio di data warehouse nel cloud in scala petabyte interamente gestito. La prima fase necessaria per creare un data warehouse è avviare un set di nodi, detto cluster Amazon Redshift. Dopo avere effettuato il provisioning del cluster, puoi caricare il set di dati e quindi eseguire query di analisi dei dati.

Puoi connetterti e eseguire query su uno o più cluster Amazon Redshift in Data Wrangler. Per utilizzare questa opzione di importazione, devi creare almeno un cluster in Amazon Redshift. Per scoprire come, consulta la pagina Nozioni di base su Amazon Redshift.

Puoi generare i risultati della query Amazon Redshift in una delle seguenti posizioni:

  • Il bucket Amazon S3 predefinito

  • Una posizione di output Amazon S3 specificata

Puoi importare l'intero set di dati o campionarne una parte. Per Amazon Redshift sono disponibili le seguenti opzioni di campionamento:

  • Nessuno: importa l'intero set di dati.

  • First K: campiona le prime righe K del set di dati, dove K è un numero intero specificato.

  • Randomizzato: preleva un campione a caso della dimensione specificata dall'utente.

  • Stratificato: preleva un campione a caso stratificato. Un campione stratificato mantiene il rapporto dei valori di una colonna.

Il bucket Amazon S3 predefinito si trova nella stessa AWS regione in cui si trova l'istanza di Studio Classic per archiviare i risultati delle query di Amazon Redshift. Per ulteriori informazioni, consulta Archiviazione di dati importati.

Per il bucket Amazon S3 predefinito o per il bucket specificato, sono disponibili le seguenti opzioni di crittografia:

  • La crittografia AWS lato servizio predefinita con una chiave gestita Amazon S3 (-S3) SSE

  • Una chiave AWS Key Management Service () specificata AWS KMS

Una AWS KMS chiave è una chiave di crittografia che puoi creare e gestire. Per ulteriori informazioni sulle KMS chiavi, vedere AWS Key Management Service.

Puoi specificare una AWS KMS chiave utilizzando la chiave ARN o la chiave ARN del tuo AWS account.

Se utilizzi la policy IAM gestitaAmazonSageMakerFullAccess, per concedere a un ruolo l'autorizzazione a utilizzare Data Wrangler in Studio Classic, il nome utente del database deve avere il prefisso. sagemaker_access

Utilizza le seguenti procedure per scoprire come aggiungere un nuovo cluster.

Nota

Data Wrangler utilizza Amazon Redshift API Data con credenziali temporanee. Per ulteriori informazioniAPI, consulta Using the Amazon Redshift Data API in the Amazon Redshift Management Guide.

Per connettere a un cluster Amazon Redshift
  1. Accedi ad Amazon SageMaker Console.

  2. Scegli Studio

  3. Scegli Launch app.

  4. Dall'elenco a discesa, seleziona Studio.

  5. Scegli l'icona Home.

  6. Selezionare Data (Dati).

  7. Scegli Data Wrangler.

  8. Scegli Import data (Importa dati).

  9. In Available (Disponibile), seleziona Amazon Athena.

  10. Scegli Amazon Redshift.

  11. Scegli Credenziali temporanee (IAM) per Tipo.

  12. Inserisci un Nome di connessione. Questo è un nome usato da Data Wrangler per identificare questa connessione.

  13. Inserisci l'identificatore del cluster per specificare a quale cluster desideri connetterti. Nota: inserisci solo l'identificatore del cluster e non l'endpoint completo del cluster Amazon Redshift.

  14. Inserisci il Database Name (Nome del database) a cui vuoi collegarti.

  15. Inserisci un Database User (utente del database) per identificare l'utente che desideri utilizzare per connetterti al database.

  16. Per UNLOADIAMRuolo, inserisci il IAM ruolo ARN che il cluster Amazon Redshift deve assumere per spostare e scrivere dati su Amazon S3. Per ulteriori informazioni su questo ruolo, consulta Autorizzazione di Amazon Redshift ad accedere ad AWS altri servizi per tuo conto nella Amazon Redshift Management Guide.

  17. Scegli Connetti.

  18. (Facoltativo) Per la posizione di output di Amazon S3, specifica S3 URI per archiviare i risultati della query.

  19. (Facoltativo) Per l'ID ARN della KMS chiave, specifica la AWS KMS chiave o l'alias. L'immagine seguente mostra dove è possibile trovare entrambe le chiavi in AWS Management Console.

    La posizione dell' AWS KMS aliasARN, del nome dell'alias e della chiave ARN nella console. AWS KMS

L'immagine seguente mostra tutti i campi della procedura precedente.

Il pannello di connessione Aggiungi Amazon Redshift.

Una volta stabilita con successo, la connessione viene visualizzata come origine dati in Data Import (Importazione dati). Seleziona questa origine dati eseguire una query sul tuo database e importare i dati.

Per eseguire una query e importare i dati da Amazon Redshift
  1. Seleziona la connessione sulla quale vuoi effettuare la query da Data Sources (Origine dati).

  2. Seleziona uno Schema. Per saperne di più sugli schemi di Amazon Redshift, vedi Schemi nella Guida per gli sviluppatori di database di Amazon Redshift.

  3. (Facoltativo) In Advanced configuration (Configurazione avanzata), specifica il metodo di Sampling (Campionamento) che desideri utilizzare.

  4. Inserisci la tua query nell'editor di query e scegli Run (Esegui) per eseguire la query. Dopo una query riuscita, puoi visualizzare l'anteprima del risultato nell'editor.

  5. Seleziona Import dataset (Importa set di dati) per importare il set di dati che è stato interrogato.

  6. Inserire un Dataset name (Nome set di dati). Se aggiungi un Dataset name che contiene spazi, questi spazi vengono sostituiti da caratteri di sottolineatura quando il set di dati viene importato.

  7. Scegli Aggiungi.

Per modificare un set di dati, esegui le operazioni descritte di seguito.

  1. Accedi al tuo flusso Data Wrangler.

  2. Scegli la + accanto a Source - Sampled.

  3. Modifica i dati che stai importando.

  4. Seleziona Apply (Applica)

Importazione di dati da Amazon EMR

Puoi usare Amazon EMR come fonte di dati per il tuo flusso Amazon SageMaker Data Wrangler. Amazon EMR è una piattaforma di cluster gestita che puoi utilizzare, elaborare e analizzare grandi quantità di dati. Per ulteriori informazioni su AmazonEMR, consulta What is AmazonEMR? . Per importare un set di datiEMR, devi connetterti ad esso e interrogarlo.

Importante

È necessario soddisfare i seguenti prerequisiti per connettersi a un EMR cluster Amazon:

Prerequisiti
  • Configurazioni di rete
    • Hai un Amazon VPC nella regione che stai utilizzando per avviare Amazon SageMaker Studio Classic e AmazonEMR.

    • EMRSia Amazon che Amazon SageMaker Studio Classic devono essere avviati in sottoreti private. Possono trovarsi nella stessa sottorete o in diverse sottoreti.

    • Amazon SageMaker Studio Classic deve essere in modalità VPC solo.

      Per ulteriori informazioni sulla creazione di un fileVPC, consulta Create a VPC.

      Per ulteriori informazioni sulla creazione di un notebookVPC, consulta Connect SageMaker Studio Classic Notebooks in a External VPC Resources.

    • I EMR cluster Amazon che stai utilizzando devono trovarsi nella stessa AmazonVPC.

    • I EMR cluster Amazon e Amazon VPC devono avere lo stesso AWS account.

    • I tuoi EMR cluster Amazon utilizzano Hive o Presto.

      • I cluster Hive devono consentire il traffico in entrata dai gruppi di sicurezza di Studio Classic sulla porta 10000.

      • I cluster Presto devono consentire il traffico in entrata dai gruppi di sicurezza Studio Classic sulla porta 8889.

        Nota

        Il numero di porta è diverso per i EMR cluster Amazon che utilizzano i IAM ruoli. Passa alla fine della sezione dei prerequisiti per ulteriori informazioni.

  • SageMaker Studio Classic
    • Amazon SageMaker Studio Classic deve eseguire Jupyter Lab versione 3. Per informazioni sull'aggiornamento della versione di Jupyter Lab, consulta Visualizza e aggiorna la JupyterLab versione di un'applicazione dalla console.

    • Amazon SageMaker Studio Classic ha un IAM ruolo che controlla l'accesso degli utenti. Il IAM ruolo predefinito che utilizzi per eseguire Amazon SageMaker Studio Classic non prevede policy che ti consentano di accedere ai EMR cluster Amazon. È necessario allegare la politica di concessione delle autorizzazioni al ruolo. IAM Per ulteriori informazioni, consulta Configura l'elenco dei EMR cluster Amazon.

    • Al IAM ruolo deve inoltre essere allegata la seguente politica. secretsmanager:PutResourcePolicy

    • Se utilizzi un dominio Studio Classic che hai già creato, assicurati che AppNetworkAccessType sia in modalità VPC solo. Per informazioni sull'aggiornamento di un dominio per utilizzare la modalità VPC -only, consulta. Chiudi e aggiorna SageMaker Studio Classic

  • EMRCluster Amazon
    • Devi avere Hive o Presto installato nel cluster.

    • La versione di Amazon EMR deve essere la 5.5.0 o successiva.

      Nota

      Amazon EMR supporta la terminazione automatica. La terminazione automatica impedisce ai cluster inattivi di funzionare e ti evita di incorrere in costi. Le seguenti sono le versioni che supportano la terminazione automatica:

      • Per le versioni 6.x, 6.1.0 o successive.

      • Per le versioni 5.x, versione 5.30.0 o successive.

  • EMRCluster Amazon che utilizzano ruoli IAM di runtime

Amazon VPC è una rete virtuale logicamente isolata dalle altre reti sul AWS cloud. Amazon SageMaker Studio Classic e il tuo EMR cluster Amazon esistono solo all'interno di AmazonVPC.

Utilizza la seguente procedura per avviare Amazon SageMaker Studio Classic su AmazonVPC.

Per avviare Studio Classic all'interno di unVPC, procedi come segue.

  1. Accedi alla SageMaker console all'indirizzo https://console.aws.amazon.com/sagemaker/.

  2. Scegli Launch SageMaker Studio Classic.

  3. Scegli Configurazione standard.

  4. Per il ruolo di esecuzione predefinito, scegli il IAM ruolo per configurare Studio Classic.

  5. Scegli VPC dove hai lanciato i EMR cluster Amazon.

  6. In Subnet (Sottorete), scegli una sottorete privata.

  7. Per i gruppi di sicurezza, specifica i gruppi di sicurezza che stai utilizzando per controllare tra i tuoiVPC.

  8. Scegli VPCSolo.

  9. (Facoltativo) AWS utilizza una chiave di crittografia predefinita. Puoi anche specificare una chiave AWS Key Management Service per crittografare i dati.

  10. Scegli Next (Successivo).

  11. In Studio settings (Impostazioni Studio), scegli le configurazioni più adatte a te.

  12. Scegli Avanti per saltare le impostazioni di SageMaker Canvas.

  13. Scegli Avanti per saltare le RStudio impostazioni.

Se non disponi di un EMR cluster Amazon pronto, puoi utilizzare la seguente procedura per crearne uno. Per ulteriori informazioni su AmazonEMR, consulta What is AmazonEMR?

Per creare un cluster, effettua quanto segue:

  1. Passare alla AWS Management Console.

  2. Nella barra di ricerca, specificare Amazon EMR.

  3. Scegli Create cluster (Crea cluster).

  4. Per Cluster name (Nome cluster inserisci un nome per il tuo cluster.

  5. Per Release, seleziona la versione di rilascio del cluster.

    Nota

    Amazon EMR supporta la terminazione automatica per le seguenti versioni:

    • Per le versioni 6.x, versioni 6.1.0 o versioni successive

    • Per le versioni 5.x, versioni 5.30.0 o successive

    La terminazione automatica impedisce ai cluster inattivi di funzionare e ti evita di incorrere in costi.

  6. (Facoltativo) Per Applications (Applicazioni), scegli Presto.

  7. Scegli l'applicazione che stai eseguendo sul cluster.

  8. In Networking (Rete), per Hardware configuration (Configurazione hardware), specifica le impostazioni di configurazione hardware.

    Importante

    Per le reti, scegli Amazon SageMaker Studio Classic su VPC cui è in esecuzione e scegli una sottorete privata.

  9. In Security and access (Sicurezza e accesso), specifica le impostazioni di sicurezza.

  10. Scegli Create (Crea) .

Per un tutorial sulla creazione di un EMR cluster Amazon, consulta Getting started with Amazon EMR. Per informazioni sulle best practice per la configurazione di un cluster, consulta Considerazioni e best practice.

Nota

Per quanto riguarda le migliori pratiche di sicurezza, Data Wrangler può connettersi solo a VPCs sottoreti private. Non puoi connetterti al nodo master a meno che non lo utilizzi AWS Systems Manager per le tue EMR istanze Amazon. Per ulteriori informazioni, consulta Proteggere l'accesso ai EMR cluster utilizzando. AWS Systems Manager

Attualmente puoi utilizzare i seguenti metodi per accedere a un EMR cluster Amazon:

  • Nessuna autenticazione

  • Lightweight Directory Access Protocol (LDAP)

  • IAM(Ruolo di runtime)

Il mancato utilizzo dell'autenticazione o dell'utilizzo LDAP può richiedere la creazione di più cluster e profili di EC2 istanze Amazon. Se sei un amministratore, potresti dover fornire a gruppi di utenti diversi livelli di accesso ai dati. Questi metodi possono comportare un sovraccarico amministrativo che rende più difficile la gestione degli utenti.

Ti consigliamo di utilizzare un ruolo IAM di runtime che offra a più utenti la possibilità di connettersi allo stesso EMR cluster Amazon. Un ruolo di runtime è un IAM ruolo che puoi assegnare a un utente che si connette a un EMR cluster Amazon. Puoi configurare il IAM ruolo di runtime in modo che disponga di autorizzazioni specifiche per ogni gruppo di utenti.

Utilizza le seguenti sezioni per creare un EMR cluster Amazon Presto o Hive con LDAP activated.

Presto
Importante

Da utilizzare AWS Glue come metastore per le tabelle Presto, seleziona Usa i metadati della tabella Presto per archiviare i risultati delle tue EMR query Amazon in un catalogo di AWS Glue dati quando avvii un cluster. EMR L'archiviazione dei risultati delle query in un catalogo di AWS Glue dati può evitarti di incorrere in addebiti.

Per interrogare set di dati di grandi dimensioni su EMR cluster Amazon, devi aggiungere le seguenti proprietà al file di configurazione Presto sui tuoi cluster AmazonEMR:

[{"classification":"presto-config","properties":{ "http-server.max-request-header-size":"5MB", "http-server.max-response-header-size":"5MB"}}]

Puoi anche modificare le impostazioni di configurazione quando avvii il EMR cluster Amazon.

Il file di configurazione per il tuo EMR cluster Amazon si trova nel seguente percorso:/etc/presto/conf/config.properties.

Utilizza la seguente procedura per creare un cluster Presto con LDAP activated.

Per creare un cluster, effettua quanto segue:

  1. Passare alla AWS Management Console.

  2. Nella barra di ricerca, specificare Amazon EMR.

  3. Scegli Create cluster (Crea cluster).

  4. Per Cluster name (Nome cluster inserisci un nome per il tuo cluster.

  5. Per Release, seleziona la versione di rilascio del cluster.

    Nota

    Amazon EMR supporta la terminazione automatica per le seguenti versioni:

    • Per le versioni 6.x, versioni 6.1.0 o versioni successive

    • Per le versioni 5.x, versioni 5.30.0 o successive

    La terminazione automatica impedisce ai cluster inattivi di funzionare e ti evita di incorrere in costi.

  6. Scegli l'applicazione che stai eseguendo sul cluster.

  7. In Networking (Rete), per Hardware configuration (Configurazione hardware), specifica le impostazioni di configurazione hardware.

    Importante

    Per le reti, scegli Amazon SageMaker Studio Classic su VPC cui è in esecuzione e scegli una sottorete privata.

  8. In Security and access (Sicurezza e accesso), specifica le impostazioni di sicurezza.

  9. Scegli Create (Crea) .

Hive
Importante

Da utilizzare AWS Glue come metastore per le tabelle Hive, seleziona Usa i metadati della tabella Hive per archiviare i risultati delle tue EMR query Amazon in un catalogo di AWS Glue dati quando avvii un cluster. EMR L'archiviazione dei risultati delle query in un catalogo di AWS Glue dati può evitarti di incorrere in addebiti.

Per poter interrogare set di dati di grandi dimensioni su EMR cluster Amazon, aggiungi le seguenti proprietà al file di configurazione Hive sui tuoi cluster Amazon: EMR

[{"classification":"hive-site", "properties" :{"hive.resultset.use.unique.column.names":"false"}}]

Puoi anche modificare le impostazioni di configurazione quando avvii il EMR cluster Amazon.

Il file di configurazione per il tuo EMR cluster Amazon si trova nel seguente percorso:/etc/hive/conf/hive-site.xml. Puoi specificare la seguente proprietà e riavviare il cluster:

<property> <name>hive.resultset.use.unique.column.names</name> <value>false</value> </property>

Utilizza la seguente procedura per creare un cluster Hive con LDAP activated.

Per creare un cluster Hive con LDAP attivato, procedi come segue.

  1. Passare alla AWS Management Console.

  2. Nella barra di ricerca, specificare Amazon EMR.

  3. Scegli Create cluster (Crea cluster).

  4. Scegli Go to advanced options (Vai alle opzioni avanzate).

  5. Per Release, seleziona una versione di Amazon EMR release.

  6. L'opzione di configurazione Hive è selezionata di default. Assicurati che l'opzione Hive abbia una casella di controllo accanto.

  7. (Facoltativo) Puoi anche selezionare Presto come opzione di configurazione per attivare sia Hive che Presto sul tuo cluster.

  8. (Facoltativo) Seleziona Usa i metadati della tabella Hive per archiviare i risultati delle tue EMR query Amazon in un AWS Glue catalogo di dati. L'archiviazione dei risultati delle query in un AWS Glue catalogo può evitarti di incorrere in addebiti. Per ulteriori informazioni, consulta Using the AWS Glue Data Catalog as the metastore for Hive.

    Nota

    L'archiviazione dei risultati della query in un catalogo di dati richiede Amazon EMR versione 5.8.0 o successiva.

  9. In Inserisci configurazione, specifica quanto segue: JSON

    [ { "classification": "hive-site", "properties": { "hive.server2.authentication.ldap.baseDN": "dc=example,dc=org", "hive.server2.authentication": "LDAP", "hive.server2.authentication.ldap.url": "ldap://ldap-server-dns-name:389" } } ]
    Nota

    Come best practice di sicurezza, consigliamo di abilitare SSL for HiveServer aggiungendo alcune proprietà nel precedente JSON hive-site. Per ulteriori informazioni, consulta Enable on 2. SSL HiveServer

  10. Specificare le impostazioni rimanenti del cluster e creare un cluster.

Utilizza le seguenti sezioni per utilizzare LDAP l'autenticazione per EMR i cluster Amazon che hai già creato.

LDAP for Presto

L'utilizzo LDAP su un cluster che esegue Presto richiede l'accesso al coordinatore Presto tramite. HTTPS Effettua le seguenti operazioni per fornire l'accesso:

  • Attiva l'accesso sulla porta 636

  • Abilita SSL per il coordinatore Presto

Usa il seguente modello per configurare Presto:

- Classification: presto-config ConfigurationProperties: http-server.authentication.type: 'PASSWORD' http-server.https.enabled: 'true' http-server.https.port: '8889' http-server.http.port: '8899' node-scheduler.include-coordinator: 'true' http-server.https.keystore.path: '/path/to/keystore/path/for/presto' http-server.https.keystore.key: 'keystore-key-password' discovery.uri: 'http://master-node-dns-name:8899' - Classification: presto-password-authenticator ConfigurationProperties: password-authenticator.name: 'ldap' ldap.url: !Sub 'ldaps://ldap-server-dns-name:636' ldap.user-bind-pattern: "uid=${USER},dc=example,dc=org" internal-communication.authentication.ldap.user: "ldap-user-name" internal-communication.authentication.ldap.password: "ldap-password"

Per informazioni sulla configurazione LDAP in Presto, consulta le seguenti risorse:

Nota

Come best practice di sicurezza, consigliamo di abilitare SSL Presto. Per ulteriori informazioni, consulta Comunicazione interna sicura.

LDAP for Hive

Per utilizzarlo LDAP per Hive per un cluster che hai creato, usa la seguente procedura Riconfigurazione di un gruppo di istanze nella console.

Stai specificando il nome del cluster a cui ti stai connettendo.

[ { "classification": "hive-site", "properties": { "hive.server2.authentication.ldap.baseDN": "dc=example,dc=org", "hive.server2.authentication": "LDAP", "hive.server2.authentication.ldap.url": "ldap://ldap-server-dns-name:389" } } ]

Utilizza la procedura seguente per importare i dati da un cluster.

Per importare i dati da un cluster, esegui le operazioni descritte di seguito.

  1. Apri un flusso di Data Wrangler.

  2. Scegli Crea connessione.

  3. Scegli Amazon EMR.

  4. Scegli una delle seguenti operazioni.

    • (Facoltativo) Per Secrets ARN, specifica l'Amazon Resource Number (ARN) del database all'interno del cluster. I segreti forniscono una sicurezza aggiuntiva. Per ulteriori informazioni sui segreti, consulta What is AWS Secrets Manager? Per informazioni sulla creazione di un segreto per il tuo cluster, consulta Creazione di un AWS Secrets Manager segreto per il tuo cluster.

      Importante

      È necessario specificare un segreto se si utilizza un ruolo IAM di runtime per l'autenticazione.

    • Dalla tabella a discesa, scegli un cluster.

  5. Scegli Next (Successivo).

  6. Per Seleziona un endpoint per example-cluster-name cluster, scegli un motore di query.

  7. (Facoltativo) Seleziona Save connection (Salva connessione).

  8. Scegliere Next, select login (Quindi, seleziona il login) e scegliere uno dei seguenti.

    • Nessuna autenticazione

    • LDAP

    • IAM

  9. Per accedere a example-cluster-name cluster, specificare il nome utente e la password per il cluster.

  10. Scegli Connetti.

  11. Nell'editor di query, specificare una SQL query.

  12. Seleziona Esegui.

  13. Seleziona Importa.

Creazione di un AWS Secrets Manager segreto per il tuo cluster

Se utilizzi un ruolo IAM di runtime per accedere al tuo EMR cluster Amazon, devi archiviare le credenziali che stai utilizzando per accedere ad Amazon EMR come segreto di Secrets Manager. Tutte le credenziali utilizzate per accedere al cluster vengono archiviate all'interno del segreto.

È necessario memorizzare nel segreto le seguenti informazioni:

  • JDBCendpoint — jdbc:hive2://

  • DNSname: il DNS nome del tuo EMR cluster Amazon. È l'endpoint per il nodo primario o il nome host.

  • Porta: 8446

Puoi anche memorizzare le seguenti informazioni aggiuntive all'interno del segreto:

  • IAMrole: il IAM ruolo che stai utilizzando per accedere al cluster. Data Wrangler utilizza il tuo ruolo di SageMaker esecuzione per impostazione predefinita.

  • Percorso truststore: per impostazione predefinita, Data Wrangler crea un percorso truststore per te. Inoltre puoi utilizzare il tuo personale percorso truststore. Per ulteriori informazioni sui percorsi truststore, consulta In-transit encryption in 2. HiveServer

  • Password Truststore: per impostazione predefinita, Data Wrangler crea una password truststore per te. Inoltre puoi utilizzare il tuo personale percorso truststore. Per ulteriori informazioni sui percorsi truststore, vedere Crittografia in transito in 2. HiveServer

Utilizzare la procedura seguente per memorizzare le credenziali all'interno di un segreto di Secrets Manager.

Per memorizzare le credenziali come segrete, procedi come segue.

  1. Passare alla AWS Management Console.

  2. Nella barra di ricerca specifica Secrets Manager.

  3. Scegli AWS Secrets Manager.

  4. Scegli Archivia un nuovo segreto.

  5. Per Secret type (Tipo di segreto), scegli Other type of secret (Altro tipo di segreto).

  6. In Key/value (Chiave/valore), seleziona Plaintext (Testo semplice).

  7. Per i cluster che eseguono Hive, puoi utilizzare il seguente modello per l'autenticazione. IAM

    {"jdbcURL": "" "iam_auth": {"endpoint": "jdbc:hive2://", #required "dns": "ip-xx-x-xxx-xxx.ec2.internal", #required "port": "10000", #required "cluster_id": "j-xxxxxxxxx", #required "iam_role": "arn:aws:iam::xxxxxxxx:role/xxxxxxxxxxxx", #optional "truststore_path": "/etc/alternatives/jre/lib/security/cacerts", #optional "truststore_password": "changeit" #optional }}
    Nota

    Dopo aver importato i dati, si applicano le trasformazioni. Successivamente esporterai i dati trasformati in una posizione specifica. Se utilizzi un notebook Jupyter per esportare i dati trasformati in Amazon S3, devi utilizzare il percorso truststore specificato nell'esempio precedente.

Un segreto di Secrets Manager archivia il contenuto JDBC URL del EMR cluster Amazon come segreto. L'utilizzo di un segreto è più sicuro dell'immissione diretta delle credenziali.

Utilizza la seguente procedura per archiviarlo JDBC URL come segreto.

Per memorizzarlo JDBC URL come segreto, procedi come segue.

  1. Passare alla AWS Management Console.

  2. Nella barra di ricerca specifica Secrets Manager.

  3. Scegli AWS Secrets Manager.

  4. Scegli Archivia un nuovo segreto.

  5. Per Secret type (Tipo di segreto), scegli Other type of secret (Altro tipo di segreto).

  6. Per le coppie chiave/valore, specificate jdbcURL come chiave e un valore valido JDBCURL.

    Il formato di un valore valido JDBC URL dipende dal fatto che si utilizzi l'autenticazione e che si utilizzi Hive o Presto come motore di query. L'elenco seguente mostra i JBDC URL formati validi per le diverse configurazioni possibili.

    • Hive, nessuna autenticazione – jdbc:hive2://emr-cluster-master-public-dns:10000/;

    • Hive, LDAP autenticazione — jdbc:hive2://emr-cluster-master-public-dns-name:10000/;AuthMech=3;UID=david;PWD=welcome123;

    • Per Hive con SSL abilitato, il JDBC URL formato dipende dall'utilizzo o meno di un file Java Keystore per la configurazione. TLS Il file Java Keystore aiuta a verificare l'identità del nodo master del EMR cluster Amazon. Per utilizzare un file Java Keystore, generalo su un EMR cluster e caricalo su Data Wrangler. Per generare un file, usa il seguente comando sul EMR cluster Amazon,keytool -genkey -alias hive -keyalg RSA -keysize 1024 -keystore hive.jks. Per informazioni sull'esecuzione di comandi su un EMR cluster Amazon, consulta Proteggere l'accesso ai EMR cluster utilizzando. AWS Systems Manager Per caricare un file, seleziona la freccia rivolta verso l'alto nella barra di navigazione a sinistra dell'interfaccia utente di Data Wrangler.

      I seguenti sono i JDBC URL formati validi per Hive con enabled: SSL

      • Senza un file Java Keystore: jdbc:hive2://emr-cluster-master-public-dns:10000/;AuthMech=3;UID=user-name;PWD=password;SSL=1;AllowSelfSignedCerts=1;

      • Con un file Keystore Java: jdbc:hive2://emr-cluster-master-public-dns:10000/;AuthMech=3;UID=user-name;PWD=password;SSL=1;SSLKeyStore=/home/sagemaker-user/data/Java-keystore-file-name;SSLKeyStorePwd=Java-keystore-file-passsword;

    • Presto, nessuna autenticazione — jdbc:presto://emr-cluster-master-public-dns:8889/;

    • Per Presto con LDAP autenticazione e SSL abilitazione, il JDBC URL formato dipende dall'utilizzo o meno di un file Java Keystore per la configurazione. TLS Il file Java Keystore aiuta a verificare l'identità del nodo master del EMR cluster Amazon. Per utilizzare un file Java Keystore, generalo su un EMR cluster e caricalo su Data Wrangler. Per caricare un file, seleziona la freccia rivolta verso l'alto nella barra di navigazione a sinistra dell'interfaccia utente di Data Wrangler. Per informazioni sulla creazione di un file Java Keystore per Presto, consulta Java Keystore File per. TLS Per informazioni sull'esecuzione di comandi su un EMR cluster Amazon, consulta Proteggere l'accesso ai EMR cluster utilizzando. AWS Systems Manager

      • Senza un file Java Keystore: jdbc:presto://emr-cluster-master-public-dns:8889/;SSL=1;AuthenticationType=LDAP Authentication;UID=user-name;PWD=password;AllowSelfSignedServerCert=1;AllowHostNameCNMismatch=1;

      • Con un file Keystore Java: jdbc:presto://emr-cluster-master-public-dns:8889/;SSL=1;AuthenticationType=LDAP Authentication;SSLTrustStorePath=/home/sagemaker-user/data/Java-keystore-file-name;SSLTrustStorePwd=Java-keystore-file-passsword;UID=user-name;PWD=password;

Durante il processo di importazione dei dati da un EMR cluster Amazon, potresti riscontrare problemi. Per informazioni sulla loro risoluzione, consulta Risoluzione dei problemi con Amazon EMR.

Importa dati da Databricks () JDBC

Puoi usare Databricks come fonte di dati per il tuo flusso Amazon SageMaker Data Wrangler. Per importare un set di dati da Databricks, utilizza la funzionalità di importazione JDBC (Java Databricks Connectivity) per accedere al database Databricks. Dopo aver effettuato l'accesso al database, specificate una SQL query per ottenere i dati e importarli.

Partiamo dal presupposto che tu abbia un cluster Databricks in esecuzione e che tu abbia configurato il JDBC driver su di esso. Per informazioni, consulta le seguenti pagine di documentazione Databricks:

Data Wrangler archivia i tuoi JDBC URL dati. AWS Secrets Manager Devi concedere le autorizzazioni per il ruolo di IAM esecuzione di Amazon SageMaker Studio Classic per utilizzare Secrets Manager. Utilizza la seguente procedura per concedere le autorizzazioni.

Per concedere le autorizzazioni a Secrets Manager, procedi come segue.

  1. Accedi a AWS Management Console e apri la IAM console all'indirizzo https://console.aws.amazon.com/iam/.

  2. Scegli Ruoli.

  3. Nella barra di ricerca, specifica il ruolo di SageMaker esecuzione di Amazon utilizzato da Amazon SageMaker Studio Classic.

  4. Seleziona il ruolo.

  5. Scegli Aggiungi autorizzazioni.

  6. Scegli Create inline policy (Crea policy in linea).

  7. Per Service (Servizio), specifica Secrets Manager e sceglilo.

  8. Per Azioni, seleziona l'icona a forma di freccia accanto a Gestione delle autorizzazioni.

  9. Scegli PutResourcePolicy.

  10. In Risorse, scegli Specifiche.

  11. Scegli la casella di controllo accanto a Qualsiasi in questo account.

  12. Scegli Verifica policy.

  13. Per Nome, specificare un nome.

  14. Scegli Create Policy (Crea policy).

Puoi utilizzare le partizioni per importare i tuoi dati più velocemente. Le partizioni offrono a Data Wrangler la capacità di elaborare i dati in parallelo. Per impostazione predefinita, Data Wrangler utilizza 2 partizioni. Nella la maggior parte dei casi d'uso, 2 partizioni offrono velocità di elaborazione dei dati quasi ottimali.

Se scegli di specificare più di 2 partizioni, puoi anche specificare una colonna per suddividere i dati. Il tipo di valori nella colonna deve essere un numero o una data.

Ti consigliamo di utilizzare le partizioni solo se conosci la struttura dei dati e il modo in cui vengono elaborati.

Puoi importare l'intero set di dati o campionarne una parte. Per un database Databricks, sono disponibili le seguenti opzioni di campionamento:

  • Nessuno: importa l'intero set di dati.

  • First K: campiona le prime righe K del set di dati, dove K è un numero intero specificato.

  • Randomizzato: preleva un campione a caso della dimensione specificata dall'utente.

  • Stratificato: preleva un campione a caso stratificato. Un campione stratificato mantiene il rapporto dei valori di una colonna.

Utilizza la procedura seguente per importare i dati da un database Databricks.

Per importare i dati da Databricks, esegui le operazioni descritte di seguito.

  1. Accedi ad Amazon SageMaker Console.

  2. Scegli Studio

  3. Scegli Launch app.

  4. Dall'elenco a discesa, seleziona Studio.

  5. Dalla scheda Import data (Importa dati) del flusso Data Wrangler, scegli Databricks.

  6. Specificate i seguenti campi:

    • Dataset name (Nome del set di dati): un nome che desideri utilizzare per il set di dati nel flusso di Data Wrangler.

    • Driver: com.simba.spark.jdbc.Driver.

    • JDBCURL— Il URL database Databricks. La URL formattazione può variare tra le istanze di Databricks. Per informazioni su come trovare URL e specificare i parametri al suo interno, consulta JDBC Parametri di configurazione e connessione. Di seguito è riportato un esempio di come URL può essere formattato un: jdbc:spark://aws-sagemaker-datawrangler.cloud.databricks.com:443/default; =http; ssl=1; =sql/protocol v1/o/3122619508517275/0909-200301-cut318; =3; transportMode httpPath AuthMech UIDtoken;PWD=personal-access-token.

      Nota

      È JDBC URL possibile specificare un segreto JDBC URL che contenga il invece di specificare il segreto stesso. ARN Il segreto deve contenere una coppia chiave-valore con il seguente formato: jdbcURL:JDBC-URL. Per ulteriori informazioni, consulta What is Secrets Manager?

  7. Specificare una SQL SELECT dichiarazione.

    Nota

    Data Wrangler non supporta Common Table Expressions (CTE) o tabelle temporanee all'interno di una query.

  8. Per Sampling (Campionamento), scegliete un metodo di campionamento.

  9. Seleziona Esegui.

  10. (Facoltativo) Per PREVIEW, scegli l'ingranaggio per aprire le impostazioni della partizione.

    1. Specificare il numero di partizioni. Puoi partizionare per colonna se specifichi il numero di partizioni:

      • Enter number of partitions (Inserisci il numero di partizioni): specifica un valore maggiore di 2.

      • (Facoltativo) Partition by column (Partizione per colonna): specificare i seguenti campi. È possibile eseguire il partizionamento in base a una colonna solo se è stato specificato un valore in Enter number of partitions (Immettere il numero di partizioni).

        • Select column (Seleziona colonna): seleziona la colonna che stai utilizzando per la partizione dati. Il tipo di dati nella colonna deve essere un numero o una data.

        • Upper bound (Limite superiore): dai valori nella colonna che hai specificato, il limite superiore è il valore che stai utilizzando nella partizione. Il valore specificato non modifica i dati che stai importando. Influisce solo sulla velocità di importazione. Per prestazioni ottimali, specifica un limite superiore vicino al massimo della colonna.

        • Lower bound (Limite inferiore): dai valori nella colonna che hai specificato, il limite inferiore è il valore che stai utilizzando nella partizione. Il valore specificato non modifica i dati che stai importando. Influisce solo sulla velocità di importazione. Per prestazioni ottimali, specifica un limite inferiore vicino al minimo della colonna.

  11. Seleziona Importa.

Importare dati da Salesforce Data Cloud

Puoi utilizzare Salesforce Data Cloud come fonte di dati in Amazon Data Wrangler per preparare SageMaker i dati in Salesforce Data Cloud per l'apprendimento automatico.

Con Salesforce Data Cloud come origine dati in Data Wrangler, puoi connetterti rapidamente ai tuoi dati Salesforce senza scrivere una sola riga di codice. Puoi unire i dati di Salesforce con i dati provenienti da qualsiasi altra origine dati in Data Wrangler.

Dopo aver effettuato la connessione al data cloud, puoi completare le seguenti operazioni:

  • Visualizza i tuoi dati con visualizzazioni integrate

  • Comprendi i dati e identifica potenziali errori e valori estremi

  • Trasforma i dati con più di 300 trasformazioni integrate

  • Esporta i dati che hai trasformato

Configurazione amministratore

Importante

Prima di iniziare, assicurati che i tuoi utenti utilizzino Amazon SageMaker Studio Classic versione 1.3.0 o successiva. Per informazioni su come verificare la versione di Studio Classic e aggiornarla, consultaPrepara i dati ML con Amazon SageMaker Data Wrangler.

Quando si configura l'accesso a Salesforce Data Cloud, è necessario completare le seguenti attività:

  • Ottenere il dominio Salesforce. URL Salesforce si riferisce anche al dominio URL come a quello della tua organizzazione. URL

  • Ottenere OAuth credenziali da Salesforce.

  • Ottenere l'autorizzazione URL e il token URL per il dominio Salesforce.

  • Creazione di un AWS Secrets Manager segreto con la configurazione. OAuth

  • Creazione di una configurazione del ciclo di vita che Data Wrangler utilizza per leggere le credenziali dal segreto.

  • Concedere a Data Wrangler le autorizzazioni per leggere il segreto.

Dopo aver eseguito le attività precedenti, gli utenti possono accedere a Salesforce Data Cloud utilizzando. OAuth

Nota

I tuoi utenti potrebbero riscontrare problemi dopo aver configurato tutto. Per informazioni sulla risoluzione dei problemi, consulta Risoluzione dei problemi di Salesforce.

Per ottenere il dominio, utilizzare la procedura seguente. URL

  1. Vai alla pagina di accesso di Salesforce.

  2. Per Quick find (Ricerca rapida), specifica My Domain (Il mio dominio).

  3. Copia il valore di Current My Domain URL in un file di testo.

  4. Aggiungi https:// all'inizio diURL.

Dopo aver ottenuto il dominio SalesforceURL, puoi utilizzare la seguente procedura per ottenere le credenziali di accesso da Salesforce e consentire a Data Wrangler di accedere ai tuoi dati Salesforce.

Per ottenere le credenziali di accesso da Salesforce e fornire l'accesso a Data Wrangler, procedi come segue.

  1. Accedi al tuo dominio Salesforce e accedi al tuo account. URL

  2. Scegliere l'icona a forma di ingranaggio.

  3. Nella barra di ricerca visualizzata, specifica App Manager.

  4. Seleziona New Connected App (Nuova app connessa).

  5. Specificate i seguenti campi:

    • Nome dell'app connessa: puoi specificare qualsiasi nome, ma ti consigliamo di scegliere un nome che includa Data Wrangler. Ad esempio, puoi specificare Salesforce Data Cloud Data Wrangler Integration.

    • APIname: utilizza il valore predefinito.

    • Email di contatto: specifica il tuo indirizzo e-mail.

    • Sotto l'APIintestazione (Abilita OAuth impostazioni), seleziona la casella di controllo per attivare OAuth le impostazioni.

    • Per Callback, URL specifica Amazon SageMaker Studio ClassicURL. Per scaricare il file URL per Studio Classic, accedi da AWS Management Console e copia il URL file.

  6. In OAuthAmbiti selezionati, sposta quanto segue dagli Ambiti disponibili agli OAuth Ambiti selezionati OAuth:

    • Gestisci i dati degli utenti tramite () APIs api

    • Esegui le richieste in qualsiasi momento (refresh_token, offline_access)

    • Esegui ANSI SQL query sui dati di Salesforce Data Cloud () cdp_query_api

    • Gestisci i dati del profilo di Salesforce Customer Data Platform (cdp_profile_api)

  7. Seleziona Salva. Dopo aver salvato le modifiche, Salesforce apre una nuova pagina.

  8. Scegli Continue (Continua)

  9. Vai a Consumer Key and Secret (Chiave e segreto del consumatore).

  10. Scegli Manage Consumer Details (Gestisci i dettagli del consumatore). Salesforce ti reindirizza a una nuova pagina in cui potresti dover passare l'autenticazione a due fattori.

  11. Importante

    Copia la Chiave consumatore e il Segreto consumatore in un editor di testo. Queste informazioni sono necessarie per connettere il data cloud a Data Wrangler.

  12. Torna a Manage Connected Apps (Gestisci app connesse).

  13. Vai Connected App Name (Nome app connessa) e al nome della tua applicazione.

  14. Scegli Gestisci.

    1. Seleziona Edit Policies (Modifica policy).

    2. Cambia IP Relaxation in Relax IP restrictions.

    3. Seleziona Salva.

Dopo aver fornito l'accesso a Salesforce Data Cloud, devi fornire le autorizzazioni agli utenti. Utilizza la seguente procedura per concedere le autorizzazioni.

Per fornire ai tuoi utenti le autorizzazioni, procedi come segue.

  1. Vai alla pagina iniziale del setup.

  2. Nella barra di navigazione a sinistra, cerca Users (Utenti) e scegli la voce di menu Users.

  3. Scegli il collegamento ipertestuale con il tuo nome utente.

  4. Vai a Permission Set Assignments (Assegnazioni dei set di autorizzazioni).

  5. Scegli Edit Assignments (Modifica assegnazioni).

  6. Aggiungi le autorizzazioni seguenti:

    • Customer Data Platform Admin (Amministratore della piattaforma dati dei clienti)

    • Customer Data Platform Data Aware Specialist

  7. Seleziona Salva.

Dopo aver ottenuto le informazioni per il dominio Salesforce, devi ottenere l'autorizzazione URL e il token URL per il AWS Secrets Manager segreto che stai creando.

Utilizza la procedura seguente per ottenere l'autorizzazione URL e il token. URL

Per ottenere l'autorizzazione URL e il token URL
  1. Accedi al tuo dominio Salesforce. URL

  2. Utilizza uno dei seguenti metodi per ottenere il. URLs Se utilizzi una distribuzione Linux con curl ed è jq installata, ti consigliamo di utilizzare il metodo che funziona solo su Linux.

    • (Solo Linux) Specifica il seguente comando nel terminale.

      curl salesforce-domain-URL/.well-known/openid-configuration | \ jq '. | { authorization_url: .authorization_endpoint, token_url: .token_endpoint }' | \ jq '. += { identity_provider: "SALESFORCE", client_id: "example-client-id", client_secret: "example-client-secret" }'
      1. Passa a example-org-URL/.well-known/openid-configuration nel tuo browser.

      2. Copia authorization_endpoint e token_endpoint in un editor di testo.

      3. Crea il seguente JSON oggetto:

        { "identity_provider": "SALESFORCE", "authorization_url": "example-authorization-endpoint", "token_url": "example-token-endpoint", "client_id": "example-consumer-key", "client_secret": "example-consumer-secret" }

Dopo aver creato l'oggetto OAuth di configurazione, è possibile creare un AWS Secrets Manager segreto che lo memorizza. Per creare il segreto, utilizzare la procedura seguente.

Per creare un segreto, procedere come descritto qui di seguito:

  1. Passare alla console AWS Secrets Manager.

  2. Scegliere Store a secret (Archivia un nuovo segreto).

  3. Selezionare Other type of secret (Altro tipo di segreti).

  4. In Key/value (Chiave/valore), seleziona Plaintext (Testo semplice).

  5. Sostituisci il vuoto JSON con le seguenti impostazioni di configurazione.

    { "identity_provider": "SALESFORCE", "authorization_url": "example-authorization-endpoint", "token_url": "example-token-endpoint", "client_id": "example-consumer-key", "client_secret": "example-consumer-secret" }
  6. Scegli Next (Successivo).

  7. Per Secret Name (Nome segreto), specifica il nome del segreto.

  8. In Tag seleziona Add (Aggiungi).

    1. Per Key (Chiave), specifica sagemaker:partner. Per Value, ti consigliamo di specificare un valore che potrebbe essere utile per il tuo caso d'uso. Tuttavia, puoi specificare qualsiasi valore.

    Importante

    È necessario creare la chiave. Non puoi importare i tuoi dati da Salesforce se non li crei.

  9. Scegli Next (Successivo).

  10. Scegli Store.

  11. Scegli il segreto creato.

  12. Prendi nota dei seguenti campi:

    • L'Amazon Resource Number (ARN) del segreto

    • Il nome del segreto.

Dopo aver creato il segreto, devi aggiungere le autorizzazioni affinché Data Wrangler possa leggere il segreto. Utilizza la seguente procedura per aggiungere le autorizzazioni.

Per aggiungere le autorizzazioni di lettura per Data Wrangler, esegui queste operazioni.

  1. Accedi alla SageMaker console Amazon.

  2. Scegli i domini.

  3. Scegli il dominio che stai utilizzando per accedere a Data Wrangler.

  4. Scegli il tuo User Profile (Profilo utente).

  5. In Details (Dettagli), trova il Execution role (Ruolo di esecuzione). ARNÈ nel seguente formato:arn:aws:iam::111122223333:role/example-role. Prendi nota del ruolo di SageMaker esecuzione. All'interno diARN, c'è tutto doporole/.

  6. Passare alla console IAM.

  7. Nella barra di IAM ricerca, specifica il nome del ruolo di SageMaker esecuzione.

  8. Seleziona il ruolo.

  9. Scegli Aggiungi autorizzazioni.

  10. Scegli Create inline policy (Crea policy in linea).

  11. Scegli la JSON scheda.

  12. Specifica la seguente politica all'interno dell'editor.

    { "Version": "2012-10-17", "Statement": [ { "Effect": "Allow", "Action": [ "secretsmanager:GetSecretValue", "secretsmanager:PutSecretValue" ], "Resource": "arn:aws:secretsmanager:*:*:secret:*", "Condition": { "ForAnyValue:StringLike": { "aws:ResourceTag/sagemaker:partner": "*" } } }, { "Effect": "Allow", "Action": [ "secretsmanager:UpdateSecret" ], "Resource": "arn:aws:secretsmanager:*:*:secret:AmazonSageMaker-*" } ] }
  13. Scegliere Review policy (Esamina policy).

  14. Per Nome, specificare un nome.

  15. Scegli Create Policy (Crea policy).

Dopo aver concesso a Data Wrangler le autorizzazioni per leggere il segreto, devi aggiungere una configurazione del ciclo di vita che utilizzi il tuo segreto Secrets Manager al tuo profilo utente Amazon SageMaker Studio Classic.

Utilizza la seguente procedura per creare una configurazione del ciclo di vita e aggiungerla al profilo Studio Classic.

Per creare una configurazione del ciclo di vita e aggiungerla al profilo Studio Classic, procedi come segue.

  1. Accedi alla SageMaker console Amazon.

  2. Scegli i domini.

  3. Scegli il dominio che stai utilizzando per accedere a Data Wrangler.

  4. Scegli il tuo User Profile (Profilo utente).

  5. Se vedi le seguenti applicazioni, eliminale:

    • KernelGateway

    • JupyterKernel

    Nota

    L'eliminazione delle applicazioni aggiorna Studio Classic. L'esecuzione degli aggiornamenti può richiedere alcuni istanti.

  6. In attesa degli aggiornamenti, scegli Lifecycle configurations(Configurazioni del ciclo di vita).

  7. Assicurati che la pagina in cui ti trovi indichi le configurazioni del ciclo di vita di Studio Classic.

  8. Scegli Crea configurazione.

  9. Assicurati che Jupyter server app sia stata selezionata.

  10. Scegli Next (Successivo).

  11. In Name (Nome), specifica un nome per la configurazione.

  12. Per Scripts, specificate il seguente script:

    #!/bin/bash set -eux cat > ~/.sfgenie_identity_provider_oauth_config <<EOL { "secret_arn": "secrets-arn-containing-salesforce-credentials" } EOL
  13. Scegli Invia.

  14. Nella barra di navigazione a sinistra, scegli Domini.

  15. Scegli il tuo dominio.

  16. Scegliere Environment (Ambiente).

  17. In Configurazioni del ciclo di vita per le app Studio Classic personali, scegli Allega.

  18. Seleziona Existing configuration (Configurazione esistente).

  19. In Configurazioni del ciclo di vita di Studio Classic, seleziona la configurazione del ciclo di vita che hai creato.

  20. Choose Attach to domain (Collega al dominio).

  21. Seleziona la casella di controllo accanto alla configurazione del ciclo di vita che hai collegato.

  22. Seleziona Set as default (Imposta come predefinito).

È possibile che si verifichino problemi durante l'adattamento della configurazione del ciclo di vita. Per informazioni su come eseguirne il debug, consulta Esecuzione del debug delle configurazioni del ciclo di vita

Guida per Data Scientist

Utilizza quanto segue per connettere Salesforce Data Cloud e accedere ai tuoi dati in Data Wrangler.

Importante

L'amministratore deve utilizzare le informazioni nelle sezioni precedenti per configurare Salesforce Data Cloud. Se riscontri problemi, contattali per ricevere assistenza sulla risoluzione dei problemi.

Per aprire Studio Classic e verificarne la versione, consulta la procedura seguente.

  1. Segui i passaggi Prerequisiti per accedere a Data Wrangler tramite Amazon SageMaker Studio Classic.

  2. Accanto all'utente che desideri utilizzare per avviare Studio Classic, seleziona Launch app.

  3. Scegli Studio

Per creare un set di dati in Data Wrangler con dati provenienti da Salesforce Data Cloud
  1. Accedi ad Amazon SageMaker Console.

  2. Scegli Studio

  3. Scegli Launch app.

  4. Dall'elenco a discesa, seleziona Studio.

  5. Scegli l'icona Home.

  6. Selezionare Data (Dati).

  7. Scegli Data Wrangler.

  8. Scegli Import data (Importa dati).

  9. In Available (Disponibile), scegli Salesforce Data Cloud.

  10. Per Connection name (Nome connessione), specifica un nome per la connessione a Salesforce Data Cloud.

  11. Per Org URL, specifica l'organizzazione URL nel tuo account Salesforce. Puoi richiederlo ai tuoi URL amministratori.

  12. Scegli Connetti.

  13. Specifica le tue credenziali per accedere a Salesforce.

Puoi iniziare a creare un set di dati utilizzando i dati di Salesforce Data Cloud dopo esserti connesso ad esso.

Dopo aver selezionato una tabella, è possibile scrivere query ed eseguirle. L'output della query viene visualizzato in Query results (Risultati della query).

Dopo aver stabilito l'output della query, è possibile importare l'output della query in un flusso di Data Wrangler per eseguire trasformazioni dei dati.

Dopo aver creato un set di dati, vai alla schermata Data flow per iniziare a trasformare i tuoi dati

Importazione di dati da Snowflake

Puoi usare Snowflake come fonte di dati in Data Wrangler per preparare SageMaker i dati in Snowflake per l'apprendimento automatico.

Con Snowflake come origine dati in Data Wrangler, puoi connetterti rapidamente a Snowflake senza scrivere una sola riga di codice. Puoi unire i tuoi dati in Snowflake con i dati provenienti da qualsiasi altra origine dati in Data Wrangler.

Una volta connesso, puoi eseguire query in modo interattivo sui dati archiviati in Snowflake, trasformarli con più di 300 trasformazioni di dati preconfigurati, comprendere i dati e identificare potenziali errori e valori estremi con un set di robusti modelli di visualizzazione preconfigurati, identificare rapidamente le incongruenze nel flusso di lavoro di preparazione dei dati e diagnosticare i problemi prima che i modelli vengano implementati in produzione. Infine, puoi esportare il flusso di lavoro di preparazione dei dati su Amazon S3 per utilizzarlo con altre SageMaker funzionalità come Amazon SageMaker Autopilot, Amazon SageMaker Feature Store e Amazon SageMaker Model Building Pipelines.

Puoi crittografare l'output delle tue query utilizzando una chiave che hai creato. AWS Key Management Service Per ulteriori informazioni su AWS KMS, consulta. AWS Key Management Service

Guida per l'amministratore

Importante

Per ulteriori informazioni sul controllo granulare degli accessi e sulle migliori pratiche, consulta Controllo degli accessi di sicurezza.

Questa sezione è dedicata agli amministratori di Snowflake che stanno configurando l'accesso a Snowflake dall'interno di Data Wrangler. SageMaker

Importante

L'utente è responsabile della gestione e del monitoraggio del controllo degli accessi all'interno di Snowflake. Data Wrangler non aggiunge un livello di controllo degli accessi rispetto a Snowflake.

Il controllo degli accessi include quanto segue:

  • I dati a cui un utente accede

  • (Facoltativo) L'integrazione di storage che offre a Snowflake la possibilità di scrivere risultati di query in un bucket Amazon S3

  • Le interrogazioni che un utente può eseguire

(Facoltativo) Configura le autorizzazioni di importazione dei dati Snowflake

Per impostazione predefinita, Data Wrangler interroga i dati in Snowflake senza crearne una copia in una posizione Amazon S3. Utilizza le seguenti informazioni se stai configurando un'integrazione di storage con Snowflake. I tuoi utenti possono utilizzare un'integrazione di storage per archiviare i risultati delle query in una posizione Amazon S3.

I tuoi utenti potrebbero avere diversi livelli di accesso ai dati sensibili. Per una sicurezza ottimale dei dati, fornisci a ogni utente la propria integrazione di archiviazione. Ogni integrazione di storage dovrebbe avere una propria policy di governance dei dati.

Questa funzionalità non è al momento disponibile nelle Regioni opt-in.

Snowflake richiede le seguenti autorizzazioni su un bucket e una directory S3 per poter accedere ai file nella directory:

  • s3:GetObject

  • s3:GetObjectVersion

  • s3:ListBucket

  • s3:ListObjects

  • s3:GetBucketLocation

Creare una politica IAM

È necessario creare una IAM policy per configurare le autorizzazioni di accesso affinché Snowflake carichi e scarichi dati da un bucket Amazon S3.

Di seguito è riportato il documento relativo alla JSON policy che utilizzi per creare la policy:

# Example policy for S3 write access # This needs to be updated { "Version": "2012-10-17", "Statement": [ { "Effect": "Allow", "Action": [ "s3:PutObject", "s3:GetObject", "s3:GetObjectVersion", "s3:DeleteObject", "s3:DeleteObjectVersion" ], "Resource": "arn:aws:s3:::bucket/prefix/*" }, { "Effect": "Allow", "Action": [ "s3:ListBucket" ], "Resource": "arn:aws:s3:::bucket/", "Condition": { "StringLike": { "s3:prefix": ["prefix/*"] } } } ] }

Per informazioni e procedure sulla creazione di politiche con i documenti relativi alle politiche, vedere Creazione IAM di politiche.

Per la documentazione che fornisce una panoramica sull'utilizzo delle IAM autorizzazioni con Snowflake, consultate le seguenti risorse:

Per concedere al data scientist l'autorizzazione all'utilizzo del ruolo Snowflake per l'integrazione dello storage, devi eseguire GRANT USAGE ON INTEGRATION integration_name TO snowflake_role;.

  • integration_name è il nome dell'integrazione dello storage.

  • snowflake_role è il nome del Snowflake role (Ruolo Snowflake) predefinito assegnato all'utente data scientist.

Configurazione di Snowflake Access OAuth

Invece di chiedere agli utenti di inserire direttamente le loro credenziali in Data Wrangler, puoi fare in modo che utilizzino un provider di identità per accedere a Snowflake. Di seguito sono riportati i collegamenti alla documentazione Snowflake per i provider di identità supportati da Data Wrangler.

Utilizza la documentazione dei link precedenti per configurare l'accesso al tuo provider di identità. Le informazioni e le procedure in questa sezione aiutano a capire come utilizzare correttamente la documentazione per accedere a Snowflake all'interno di Data Wrangler.

Il tuo provider di identità deve riconoscere Data Wrangler come applicazione. Utilizzare la procedura seguente per registrare Data Wrangler come applicazione all'interno del provider di identità:

  1. Seleziona la configurazione che avvia il processo di registrazione di Data Wrangler come applicazione.

  2. Fornisci agli utenti del provider di identità l'accesso a Data Wrangler.

  3. Attiva l'autenticazione OAuth del client memorizzando le credenziali del client come segreto. AWS Secrets Manager

  4. Specificate un reindirizzamento URL utilizzando il seguente formato: https://domain-ID.studio.Regione AWS.sagemaker.aws/jupyter/default/lab

    Importante

    Stai specificando l'ID del SageMaker dominio Amazon e Regione AWS quello che stai utilizzando per eseguire Data Wrangler.

    Importante

    Devi registrarne uno URL per ogni SageMaker dominio Amazon e Regione AWS dove esegui Data Wrangler. Gli utenti di un dominio per i Regione AWS quali non è URLs impostato il reindirizzamento non potranno autenticarsi con il provider di identità per accedere alla connessione Snowflake.

  5. Assicurati che il codice di autorizzazione e i tipi di concessione del token di aggiornamento siano consentiti per l'applicazione Data Wrangler.

All'interno del tuo provider di identità, devi configurare un server che invii OAuth token a Data Wrangler a livello di utente. Il server invia i token con Snowflake come destinatario.

Snowflake utilizza il concetto di ruoli che sono ruoli distinti dai ruoli utilizzati. IAM AWSÈ necessario configurare il provider di identità per utilizzare qualsiasi ruolo e utilizzare il ruolo predefinito associato all'account Snowflake. Ad esempio, se un utente ha systems administrator come ruolo predefinito nel proprio profilo Snowflake, la connessione da Data Wrangler a Snowflake utilizza systems administrator come ruolo.

Completa la procedura seguente per configurare il server.

Per configurare il server, procedere nel seguente modo: Stai lavorando all'interno di Snowflake per tutte le fasi tranne l'ultima.

  1. Inizia a configurare il server o. API

  2. Configura il server di autorizzazione per utilizzare il codice di autorizzazione e aggiornare i tipi di concessione del token.

  3. Specifica la durata del token di accesso.

  4. Imposta il timeout di inattività del token di aggiornamento. Il timeout di inattività è periodo di tempo in cui il token di aggiornamento scade se non viene utilizzato.

    Nota

    Se stai pianificando processi in Data Wrangler, ti consigliamo di impostare il tempo di timeout di inattività maggiore della frequenza del processo di elaborazione. In caso contrario, alcuni processi di elaborazione potrebbero non riuscire perché il token di aggiornamento scadrà prima che possano essere eseguiti. Quando il token di aggiornamento scade, l'utente deve autenticarsi nuovamente accedendo alla connessione che ha stabilito per Snowflake tramite Data Wrangler.

  5. Specificare come nuovo ambito session:role-any.

    Nota

    Per Azure AD, copia l'identificatore univoco per l'ambito. Data Wrangler richiede di fornirgli l'identificatore.

  6. Importante

    All'interno dell'integrazione della OAuth sicurezza esterna per Snowflake, abilita. external_oauth_any_role_mode

Importante

Data Wrangler non supporta i token di aggiornamento a rotazione. L'utilizzo di token di aggiornamento a rotazione.potrebbe causare errori di accesso o la necessità di accedere frequentemente agli utenti.

Importante

Se il token di aggiornamento scade, gli utenti devono autenticarsi nuovamente accedere alla connessione che hanno stabilito per Snowflake tramite Data Wrangler.

Dopo aver configurato il OAuth provider, fornisci a Data Wrangler le informazioni necessarie per connettersi al provider. Puoi utilizzare la documentazione del tuo provider di identità per ottenere i valori per i seguenti campi:

  • TokenURL: il token che il provider URL di identità invia a Data Wrangler.

  • AutorizzazioneURL: il server URL di autorizzazione del provider di identità.

  • ID client: l'ID del provider di identità.

  • Segreto del client: il segreto API riconosciuto solo dal server di autorizzazione.

  • (Solo Azure AD) Le credenziali dell'OAuthambito che hai copiato.

Archivia i campi e i valori in modo AWS Secrets Manager segreto e li aggiungi alla configurazione del ciclo di vita di Amazon SageMaker Studio Classic che stai utilizzando per Data Wrangler. Una configurazione del ciclo di vita è uno script di shell. Usalo per rendere l'Amazon Resource Name (ARN) del segreto accessibile a Data Wrangler. Per informazioni sulla creazione di segreti, consulta Move i segreti hardcoded to. AWS Secrets Manager Per informazioni sull'utilizzo delle configurazioni del ciclo di vita in Studio Classic, consulta. Utilizza le configurazioni del ciclo di vita per personalizzare Studio Classic

Importante

Prima di creare un segreto di Secrets Manager, assicurati che il ruolo di SageMaker esecuzione che stai utilizzando per Amazon SageMaker Studio Classic disponga delle autorizzazioni per creare e aggiornare segreti in Secrets Manager. Per ulteriori informazioni sull'aggiunta di autorizzazioni, consulta la sezione Esempio: autorizzazione alla creazione di segreti.

Per Okta e Ping Federate, il formato del segreto è il seguente:

{ "token_url":"https://identityprovider.com/oauth2/example-portion-of-URL-path/v2/token", "client_id":"example-client-id", "client_secret":"example-client-secret", "identity_provider":"OKTA"|"PING_FEDERATE", "authorization_url":"https://identityprovider.com/oauth2/example-portion-of-URL-path/v2/authorize" }

Per Azure AD, il formato del segreto è il seguente:

{ "token_url":"https://identityprovider.com/oauth2/example-portion-of-URL-path/v2/token", "client_id":"example-client-id", "client_secret":"example-client-secret", "identity_provider":"AZURE_AD", "authorization_url":"https://identityprovider.com/oauth2/example-portion-of-URL-path/v2/authorize", "datasource_oauth_scope":"api://appuri/session:role-any)" }

È necessario disporre di una configurazione del ciclo di vita che utilizzi il segreto di Secrets Manager che hai creato. È possibile creare la configurazione del ciclo di vita o modificarne una già creata. La configurazione deve utilizzare lo script seguente.

#!/bin/bash set -eux ## Script Body cat > ~/.snowflake_identity_provider_oauth_config <<EOL { "secret_arn": "example-secret-arn" } EOL

Per informazioni sulla configurazione del ciclo di vita, consulta Creazione e associazione di una configurazione del ciclo di vita. Durante il processo di configurazione, esegui queste operazioni:

  • Imposta il tipo di applicazione della configurazione su Jupyter Server.

  • Collega la configurazione al SageMaker dominio Amazon che contiene i tuoi utenti.

  • Fai eseguire la configurazione per impostazione predefinita. Deve essere eseguito ogni volta che un utente accede a Studio Classic. In caso contrario, le credenziali salvate nella configurazione non saranno disponibili agli utenti quando utilizzano Data Wrangler.

  • La configurazione del ciclo di vita crea un file con il nome snowflake_identity_provider_oauth_config nella cartella home dell'utente. Il file contiene il segreto di Secrets Manager. Assicurati che si trovi nella cartella home dell'utente ogni volta che viene inizializzata l'istanza del server Jupyter.

Connettività privata tra Data Wrangler e Snowflake tramite AWS PrivateLink

Questa sezione spiega come utilizzare per AWS PrivateLink stabilire una connessione privata tra Data Wrangler e Snowflake. Le diverse fasi vengono spiegate nelle sezioni seguenti.

Crea un VPC

Se non disponi di una VPC configurazione, segui le VPC istruzioni Crea una nuova configurazione per crearne una.

Una volta selezionata la password VPC che desideri utilizzare per stabilire una connessione privata, fornisci le seguenti credenziali all'amministratore Snowflake per abilitarla: AWS PrivateLink

  • VPCID

  • AWS ID dell'account

  • L'account corrispondente URL che utilizzi per accedere a Snowflake

Importante

Come descritto nella documentazione di Snowflake, l'attivazione dell'account Snowflake può richiedere fino a due giorni lavorativi.

Dopo AWS PrivateLink l'attivazione, recupera la AWS PrivateLink configurazione per la tua regione eseguendo il seguente comando in un foglio di lavoro Snowflake. Accedi alla console Snowflake e inserisci quanto segue in Worksheets (Fogli di lavoro): select SYSTEM$GET_PRIVATELINK_CONFIG();

  1. Recuperate i valori per quanto segue:privatelink-account-name, privatelink_ocsp-urlprivatelink-account-url, e privatelink_ocsp-url dall'oggetto risultante. JSON Gli esempi di ogni valore sono mostrati nel frammento seguente. Memorizza questi valori per un uso successivo.

    privatelink-account-name: xxxxxxxx.region.privatelink privatelink-vpce-id: com.amazonaws.vpce.region.vpce-svc-xxxxxxxxxxxxxxxxx privatelink-account-url: xxxxxxxx.region.privatelink.snowflakecomputing.com privatelink_ocsp-url: ocsp.xxxxxxxx.region.privatelink.snowflakecomputing.com
  2. Passa alla AWS console e vai al VPC menu.

  3. Dal pannello laterale sinistro, scegli il link Endpoints per accedere alla configurazione degli VPCendpoint.

    Una volta lì, scegli Create Endpoint (Crea endpoint).

  4. Seleziona il pulsante di opzione Find service by name (Trova servizio per nome), come mostrato nello screenshot seguente.

    La sezione Crea endpoint nella console.
  5. Nel campo Nome del servizio, incolla il valore privatelink-vpce-id recuperato nella fase precedente e scegli Verifica.

    Se la connessione è riuscita, sullo schermo viene visualizzato un avviso verde che indica che il nome del servizio è stato trovato e le opzioni VPCe Subnet si espandono automaticamente, come mostrato nella schermata seguente. A seconda della Regione selezionata, la schermata risultante potrebbe mostrare il nome di un'altra Regione AWS .

    La sezione Create Endpoint nella console che mostra la connessione è riuscita.
  6. Seleziona lo stesso VPC ID che hai inviato a Snowflake dall'elenco a discesa. VPC

  7. Se non hai ancora creato una sottorete, esegui la seguente serie di istruzioni sulla creazione di una sottorete.

  8. Seleziona Sottoreti dall'elenco a discesa. VPC Quindi seleziona Crea sottorete e segui le istruzioni per creare un sottoinsieme nel tuo. VPC Assicurati di selezionare l'VPCID che hai inviato a Snowflake.

  9. In Security Group Configuration (Configurazione del gruppo di sicurezza), seleziona Create New Security Group (Crea nuovo gruppo di sicurezza) per aprire la schermata predefinita del Security Group (Gruppo di sicurezza) in una nuova scheda. In questa nuova scheda, seleziona Create Security Group (Crea gruppo di sicurezza).

  10. Fornisci un nome per il nuovo gruppo di sicurezza (ad esempio datawrangler-doc-snowflake-privatelink-connection) e una descrizione. Assicurati di selezionare l'VPCID che hai usato nei passaggi precedenti.

  11. Aggiungi due regole per consentire il traffico dall'interno del tuo dispositivo VPC verso questo VPC endpoint.

    Vai alla VPC sezione I tuoi VPCs in una scheda separata e recupera il CIDR blocco per il tuo. VPC Poi scegli Add Rule (Aggiungi regola) nella sezione Inbound Rules (Regole in entrata). Seleziona HTTPS per il tipo, lascia Source (Origine) come Custom (Personalizzata) nel modulo e incolla il valore recuperato dalla chiamata precedente describe-vpcs (ad esempio 10.0.0.0/16).

  12. Scegli Crea gruppo di sicurezza. Recupera ilSecurity Group ID (ID del gruppo di sicurezza) dal gruppo di sicurezza appena creato (ad esempio sg-xxxxxxxxxxxxxxxxx).

  13. Nella schermata di configurazione dell'VPCendpoint, rimuovi il gruppo di sicurezza predefinito. Incolla l'ID del gruppo di sicurezza nel campo di ricerca e seleziona la casella di controllo.

    La sezione Gruppo di sicurezza nella console.
  14. Seleziona Create endpoint (Crea endpoint).

  15. Se la creazione dell'endpoint ha esito positivo, viene visualizzata una pagina con un collegamento alla configurazione dell'VPCendpoint, specificata dall'VPCID. Seleziona il link per visualizzare la configurazione completa.

    Recupera il record più in alto nell'elenco dei nomi. DNS Questo può essere differenziato dagli altri DNS nomi perché include solo il nome della regione (ad esempious-west-2) e nessuna notazione in lettere della zona di disponibilità (ad esempio). us-west-2a Archivia queste informazioni per un uso successivo.

Questa sezione spiega come configurare gli endpoint DNS Snowflake nel tuo. VPC Ciò consente di risolvere le richieste VPC all'endpoint Snowflake. AWS PrivateLink

  1. Vai al menu Route 53 all'interno della tua AWS console.

  2. Seleziona l'opzione Hosted Zones (Zona ospitata) (se necessario, espandi il menu a sinistra per trovare questa opzione).

  3. Scegli Create Hosted Zone (Crea zona ospitata).

    1. Nel campo Domain name (Nome dominio), fai riferimento al valore memorizzato per privatelink-account-url nelle fasi precedenti. In questo campo, l'ID del tuo account Snowflake viene rimosso dal DNS nome e utilizza solo il valore che inizia con l'identificatore della regione. Successivamente viene creato anche un Resource Record Set (Set di registri delle risorse) per il sottodominio, ad esempio region.privatelink.snowflakecomputing.com.

    2. Seleziona il pulsante di opzione per Private Hosted Zone (Zona ospitata privata) nella sezione Type (Tipo). Il tuo codice regionale potrebbe non essere us-west-2. Fai riferimento al DNS nome che ti è stato restituito da Snowflake.

      La pagina Crea zona ospitata nella console.
    3. Nella sezione VPCsDa associare alla zona ospitata, seleziona la regione in cui ti VPC trovi e l'VPCID utilizzato nei passaggi precedenti.

      La sezione VPCsda associare alla zona ospitata nella console.
    4. Scegli Crea zona ospitata.

  4. Quindi, crea due record, uno per privatelink-account-url e uno altro per privatelink_ocsp-url

    • Nel menu Hosted Zone, scegli Create Record Set (Crea set di record).

      1. In Record name (Nome del record), inserisci solo l'ID del tuo account Snowflake (i primi 8 caratteri in privatelink-account-url)

      2. In Tipo di record, seleziona CNAME.

      3. In Valore, inserisci il DNS nome dell'VPCendpoint regionale recuperato nell'ultimo passaggio della sezione Configurazione dell'integrazione con Snowflake AWS PrivateLink .

        La sezione Creazione rapida dei record nella console.
      4. Scegli Crea record.

      5. Ripeti i passaggi precedenti per il OCSP record che abbiamo indicatoprivatelink-ocsp-url, iniziando con ocsp l'ID Snowflake di 8 caratteri per il nome del record (ad esempio). ocsp.xxxxxxxx

        La sezione Creazione rapida del record nella console.

Questa sezione spiega come configurare gli endpoint in entrata dei resolver Route 53 per i tuoi. VPC

  1. Vai al menu Route 53 all'interno della tua AWS console.

    • Nel pannello a sinistra della sezione Security (Sicurezza), seleziona l'opzione Security Groups (Gruppi di sicurezza).

  2. Scegli Crea gruppo di sicurezza.

    • Fornisci un nome per il tuo gruppo di sicurezza (ad esempio datawranger-doc-route53-resolver-sg) e una descrizione.

    • Seleziona l'VPCID utilizzato nei passaggi precedenti.

    • Crea regole che consentano l'DNSaccesso TCP da UDP e verso l'interno del VPC CIDR blocco.

      La sezione Regole in entrata nella console.
    • Scegli Crea gruppo di sicurezza. Nota l'ID del gruppo di sicurezza perché aggiunge una regola per consentire il traffico verso il gruppo di sicurezza dell'VPCendpoint.

  3. Vai al menu Route 53 all'interno della tua AWS console.

    • Nella sezione Resolver, seleziona l'opzione Inbound Endpoint (Endpoint in entrata).

  4. Scegli Create inbound endpoint (Crea endpoint in entrata).

    • Fornire un nome endpoint.

    • Dall'elenco a discesa VPCnella regione, seleziona l'VPCID che hai utilizzato in tutti i passaggi precedenti.

    • Nell'elenco a discesa Security group for this endpoint (Gruppo di sicurezza per questo endpoint), seleziona l'ID del gruppo di sicurezza dalla fase 2 di questa sezione.

      La sezione Impostazioni generali per gli endpoint in entrata della console.
    • Nella sezione IP Address (Indirizzo IP), seleziona una zona di disponibilità, seleziona una sottorete e lascia selezionato automaticamente il selettore radio Use an IP address that is selected automatically (Usa un indirizzo IP selezionato automaticamente) per ogni indirizzo IP.

      La sezione Indirizzo IP nella console.
    • Scegli Invia.

  5. Seleziona Inbound endpoint (Endpoint in entrata) dopo averlo creato.

  6. Una volta creato l'endpoint in entrata, annota i due indirizzi IP dei resolver.

    La sezione Indirizzi IP nella console.
SageMaker VPCEndpoint

Questa sezione spiega come creare VPC endpoint per: Amazon SageMaker Studio Classic, SageMaker Notebooks, Runtime Runtime e Amazon SageMaker API SageMaker Feature Store SageMaker Runtime.

Creare un gruppo di sicurezza applicato a tutti gli endpoint.

  1. Vai al EC2menu nella console. AWS

  2. Nella sezione Network & Security (Rete e sicurezza), seleziona l'opzione Security groups (Gruppi di sicurezza).

  3. Scegliere Create Security Group (Crea gruppo di sicurezza).

  4. Indicare un nome e una descrizione del gruppo di sicurezza (come datawrangler-doc-sagemaker-vpce-sg). Successivamente viene aggiunta una regola per consentire il trasferimento del traffico HTTPS SageMaker da questo gruppo.

Creazione dell'endpoint

  1. Vai al VPCmenu della AWS console.

  2. Seleziona l'opzione Endpoints.

  3. Scegliere Create Endpoint (Crea endpoint).

  4. Cerca il servizio inserendone il nome nel campo Search (Cerca).

  5. Dall'elenco a VPCdiscesa, seleziona l'area VPC in cui esiste la connessione Snowflake AWS PrivateLink .

  6. Nella sezione Sottoreti, seleziona le sottoreti che hanno accesso alla connessione Snowflake. PrivateLink

  7. Lascia selezionata la casella di controllo Abilita nome. DNS

  8. Nella sezione Security Groups (Gruppi di sicurezza), seleziona il gruppo di sicurezza creato nella sezione precedente.

  9. Scegliere Create Endpoint (Crea endpoint).

Configura Studio Classic e Data Wrangler

Questa sezione spiega come configurare Studio Classic e Data Wrangler.

  1. Configura il gruppo di sicurezza.

    1. Vai al EC2 menu Amazon nella AWS Console.

    2. Seleziona l'opzione Security Groups (Gruppi di sicurezza) nella sezione Network & Security (Rete e sicurezza).

    3. Scegli Crea gruppo di sicurezza.

    4. Fornisci un nome e una descrizione per il tuo gruppo di sicurezza (ad esempio datawrangler-doc-sagemaker-studio).

    5. Creare le seguenti regole in entrata.

      • La HTTPS connessione al gruppo di sicurezza che hai fornito per la PrivateLink connessione Snowflake che hai creato nella fase di configurazione dell'integrazione PrivateLink Snowflake.

      • La HTTP connessione al gruppo di sicurezza che hai fornito per la connessione Snowflake che hai creato nella fase di configurazione dell' PrivateLink integrazione Snowflake. PrivateLink

      • Il gruppo di sicurezza UDP and TCP for DNS (port 53) al gruppo di sicurezza Route 53 Resolver Inbound Endpoint creato nel passaggio 2 di Configure Route 53 Resolver Inbound Endpoint for your. VPC

    6. Scegli il pulsante Crea gruppo di sicurezza nell'angolo in basso a destra.

  2. Configura Studio Classic.

    • Vai al SageMaker menu della AWS console.

    • Dalla console di sinistra, seleziona l'opzione SageMakerStudio Classic.

    • Se non hai alcun dominio configurato, è presente il menu Get Started (Inizia).

    • Seleziona l'opzione Standard Setup (Configurazione standard) dal menu Get Started.

    • In Metodo di autenticazione, selezionare AWS Identity and Access Management (IAM).

    • Dal menu Permissions (Autorizzazioni), puoi creare un nuovo ruolo o utilizzare un ruolo preesistente, a seconda del tuo caso d'uso.

      • Se scegli Create a new role (Crea un nuovo ruolo), ti viene presentata la possibilità di fornire un nome per il bucket S3 e viene generata una policy automatica.

      • Se hai già creato un ruolo con autorizzazioni per i bucket S3 a cui richiedi l'accesso, seleziona il ruolo dall'elenco a discesa. A questo ruolo deve essere collegata la policy AmazonSageMakerFullAccess.

    • Seleziona l'elenco a discesa Rete e archiviazione per configurare gli usiVPC, la sicurezza e le sottoreti SageMaker.

      • In VPC, seleziona l'area VPC in cui esiste la connessione PrivateLink Snowflake.

      • In Subnet (s), seleziona le sottoreti che hanno accesso alla connessione Snowflake. PrivateLink

      • In Network Access for Studio Classic, seleziona Solo. VPC

      • In Security Group(s) seleziona il gruppo di sicurezza creato nella fase 1.

    • Scegli Invia.

  3. Modifica il gruppo SageMaker di sicurezza.

    • Crea le seguenti regole in entrata:

      • Porta 2049 ai gruppi di NFS sicurezza in entrata e in uscita creati automaticamente SageMaker nel passaggio 2 (i nomi dei gruppi di sicurezza contengono l'ID di dominio Studio Classic).

      • Accesso diretto a tutte le TCP porte (obbligatorio solo SageMaker perVPC).

  4. Modifica i gruppi di sicurezza VPC degli endpoint:

    • Vai al EC2 menu Amazon nella AWS console.

    • Individua il gruppo di sicurezza che hai creato nella fase precedente.

    • Aggiungi una regola in entrata che consenta il HTTPS traffico proveniente dal gruppo di sicurezza creato nel passaggio 1.

  5. Creare un profilo utente.

    • Dal pannello di controllo di SageMaker Studio Classic, scegli Aggiungi utente.

    • Fornisci un nome utente.

    • Per Execution Role (Ruolo di esecuzione), scegli se creare un nuovo ruolo o se utilizzare un ruolo preesistente.

      • Se scegli Create a new role (Crea un nuovo ruolo), ti viene presentata la possibilità di fornire un nome per il bucket Amazon S3 e viene generata una policy automatica.

      • Se hai già creato un ruolo con autorizzazioni ai bucket Amazon S3 a cui richiedi l'accesso, seleziona il ruolo dall'elenco a discesa. A questo ruolo deve essere collegata la policy AmazonSageMakerFullAccess.

    • Scegli Invia.

  6. Creare un flusso di dati (segui la guida per data scientist descritta in una sezione precedente).

    • Quando aggiungete una connessione Snowflake, inserite il valore di privatelink-account-name (dal passaggio Configurazione dell' PrivateLinkintegrazione con Snowflake) nel campo del nome dell'account Snowflake (alfanumerico), anziché il semplice nome dell'account Snowflake. Tutto il resto rimane invariato.

Fornire informazioni al data scientist

Fornisci al data scientist le informazioni di cui ha bisogno per accedere a Snowflake da Amazon SageMaker Data Wrangler.

Importante

I tuoi utenti devono eseguire Amazon SageMaker Studio Classic versione 1.3.0 o successiva. Per informazioni su come verificare la versione di Studio Classic e aggiornarla, consultaPrepara i dati ML con Amazon SageMaker Data Wrangler.

  1. Per consentire al tuo data scientist di accedere a Snowflake da SageMaker Data Wrangler, forniscigli uno dei seguenti elementi:

    • Per l'autenticazione di base, un nome account Snowflake, un nome utente e una password.

    • Ad esempioOAuth, un nome utente e una password nel provider di identità.

    • PerchéARN, il Secrets Manager è il nome segreto di Amazon Resource Name (ARN).

    • Un segreto creato con AWS Secrets Manager e the ARN of the secret. Usa la seguente procedura per creare il segreto per Snowflake se scegli questa opzione.

      Importante

      Se i data scientist utilizzano l'opzione Snowflake Credentials (User name and Password) (Credenziali Snowflake (nome utente e password)) per connettersi a Snowflake, è possibile utilizzare Secrets Manager per archiviare le credenziali in un luogo segreto. Secrets Manager ruota i segreti come parte di un piano di sicurezza delle best practice. Il segreto creato in Secrets Manager è accessibile solo con il ruolo Studio Classic configurato quando si configura un profilo utente di Studio Classic. Ciò richiede l'aggiunta di questa autorizzazione alla politica allegata al ruolo di Studio Classic. secretsmanager:PutResourcePolicy

      Ti consigliamo vivamente di definire l'ambito della politica relativa ai ruoli in modo da utilizzare ruoli diversi per gruppi diversi di utenti di Studio Classic. È possibile aggiungere ulteriori autorizzazioni basate sulle risorse per i segreti di Secrets Manager. Vedi Manage Secret Policy per le chiavi di condizione che puoi utilizzare.

      Per informazioni sulla creazione di un segreto, consulta Creazione di un segreto. I segreti che crei ti verranno addebitati.

  2. (Facoltativo) Fornisci al data scientist il nome dell'integrazione di storage che hai creato utilizzando la seguente procedura Creare un'integrazione di archiviazione cloud in Snowflake. Questo è il nome della nuova integrazione e viene richiamato integration_name nel CREATE INTEGRATION SQL comando che hai eseguito, illustrato nel frammento seguente:

    CREATE STORAGE INTEGRATION integration_name TYPE = EXTERNAL_STAGE STORAGE_PROVIDER = S3 ENABLED = TRUE STORAGE_AWS_ROLE_ARN = 'iam_role' [ STORAGE_AWS_OBJECT_ACL = 'bucket-owner-full-control' ] STORAGE_ALLOWED_LOCATIONS = ('s3://bucket/path/', 's3://bucket/path/') [ STORAGE_BLOCKED_LOCATIONS = ('s3://bucket/path/', 's3://bucket/path/') ]

Guida per Data Scientist

Utilizza quanto segue per connettere Snowflake e accedere ai tuoi dati in Data Wrangler.

Importante

L'amministratore deve utilizzare le informazioni nelle sezioni precedenti per configurare Snowflake. Se riscontri problemi, contattali per ricevere assistenza sulla risoluzione dei problemi.

Puoi collegarti a Snowflake in uno dei seguenti modi:

  • Specificando le credenziali Snowflake (nome account, nome utente e password) in Data Wrangler.

  • Fornire un Amazon Resource Name (ARN) di un segreto contenente le credenziali.

  • Utilizzo di un provider open standard for access delegation (OAuth) che si connette a Snowflake. L'amministratore può darti accesso a uno dei seguenti provider: OAuth

Parla con il tuo amministratore del metodo da utilizzare per connetterti a Snowflake.

Le seguenti sezioni contengono informazioni su come connettersi a Snowflake utilizzando i metodi precedenti.

Specifying your Snowflake Credentials
Per importare un set di dati in Data Wrangler da Snowflake utilizzando le tue credenziali
  1. Accedi ad Amazon SageMaker Console.

  2. Scegli Studio

  3. Scegli Launch app.

  4. Dall'elenco a discesa, seleziona Studio.

  5. Scegli l'icona Home.

  6. Selezionare Data (Dati).

  7. Scegli Data Wrangler.

  8. Scegli Import data (Importa dati).

  9. In Available ( Disponibile), scegli Snowflake.

  10. Per Connection name (Nome connessione), specificate un nome che identifichi in modo univoco la connessione.

  11. Per Authentication method (Metodo di autenticazione), selezionare Basic Username-Password (Nome utente e password di base).

  12. Per Snowflake account name (alphanumeric) (Nome dell'account Snowflake (alfanumerico)), specifica il nome completo dell'account Snowflake.

  13. Per Username, specifica il nome utente che usi per accedere all'account Snowflake.

  14. Per Password, specifica la password associata al nome utente.

  15. (Facoltativo) Per Advanced settings (Impostazioni avanzate), specificare quanto segue:

    • Role: un ruolo all'interno di Snowflake. Alcuni ruoli hanno accesso a diversi set di dati. Se non si specifica un ruolo, Data Wrangler utilizza il ruolo predefinito nel proprio account Snowflake.

    • Storage integration (Integrazione dello storage): quando si specifica ed esegue una query, Data Wrangler crea una copia temporanea dei risultati della query in memoria. Per archiviare una copia permanente dei risultati della query, specifica la posizione Amazon S3 per l'integrazione dello storage. Il tuo amministratore ti ha fornito S3URI.

    • KMSID chiave: una KMS chiave che hai creato. Puoi specificarlo ARN per crittografare l'output della query Snowflake. Altrimenti, Data Wrangler utilizza la crittografia predefinita.

  16. Scegli Connetti.

Providing an Amazon Resource Name (ARN)
Per importare un set di dati in Data Wrangler da Snowflake utilizzando un ARN
  1. Accedi ad Amazon SageMaker Console.

  2. Scegli Studio

  3. Scegli Launch app.

  4. Dall'elenco a discesa, seleziona Studio.

  5. Scegli l'icona Home.

  6. Selezionare Data (Dati).

  7. Scegli Data Wrangler.

  8. Scegli Import data (Importa dati).

  9. In Available ( Disponibile), scegli Snowflake.

  10. Per Connection name (Nome connessione), specificate un nome che identifichi in modo univoco la connessione.

  11. Per il metodo di autenticazione, scegli ARN.

  12. Secrets Manager ARN: il ARN AWS Secrets Manager segreto utilizzato per archiviare le credenziali utilizzate per connettersi a Snowflake.

  13. (Facoltativo) Per Advanced settings (Impostazioni avanzate), specificare quanto segue:

    • Role: un ruolo all'interno di Snowflake. Alcuni ruoli hanno accesso a diversi set di dati. Se non si specifica un ruolo, Data Wrangler utilizza il ruolo predefinito nel proprio account Snowflake.

    • Storage integration (Integrazione dello storage): quando si specifica ed esegue una query, Data Wrangler crea una copia temporanea dei risultati della query in memoria. Per archiviare una copia permanente dei risultati della query, specifica la posizione Amazon S3 per l'integrazione dello storage. L'amministratore ti ha fornito S3. URI

    • KMSID chiave: una KMS chiave che hai creato. Puoi specificarlo ARN per crittografare l'output della query Snowflake. Altrimenti, Data Wrangler utilizza la crittografia predefinita.

  14. Scegli Connetti.

Using an OAuth Connection
Importante

L'amministratore ha personalizzato l'ambiente Studio Classic per fornire le funzionalità utilizzate per utilizzare una connessione. OAuth Potrebbe essere necessario riavviare l'applicazione server Jupyter per utilizzare la funzionalità.

Utilizza la procedura seguente per aggiornare l'applicazione server Jupyter.

  1. In Studio Classic, scegli File

  2. Scegli Shut down (Chiudi sessione).

  3. Scegli Shut down server (Chiudi server).

  4. Chiudi la scheda o la finestra che stai utilizzando per accedere a Studio Classic.

  5. Dalla SageMaker console Amazon, apri Studio Classic.

Per importare un set di dati in Data Wrangler da Snowflake utilizzando le tue credenziali
  1. Accedi ad Amazon SageMaker Console.

  2. Scegli Studio

  3. Scegli Launch app.

  4. Dall'elenco a discesa, seleziona Studio.

  5. Scegli l'icona Home.

  6. Selezionare Data (Dati).

  7. Scegli Data Wrangler.

  8. Scegli Import data (Importa dati).

  9. In Available ( Disponibile), scegli Snowflake.

  10. Per Connection name (Nome connessione), specificate un nome che identifichi in modo univoco la connessione.

  11. Per il metodo di autenticazione, scegli OAuth.

  12. (Facoltativo) Per Advanced settings (Impostazioni avanzate), specificare quanto segue:

    • Role: un ruolo all'interno di Snowflake. Alcuni ruoli hanno accesso a diversi set di dati. Se non si specifica un ruolo, Data Wrangler utilizza il ruolo predefinito nel proprio account Snowflake.

    • Storage integration (Integrazione dello storage): quando si specifica ed esegue una query, Data Wrangler crea una copia temporanea dei risultati della query in memoria. Per archiviare una copia permanente dei risultati della query, specifica la posizione Amazon S3 per l'integrazione dello storage. L'amministratore ti ha fornito S3URI.

    • KMSID chiave: una KMS chiave che hai creato. Puoi specificarlo ARN per crittografare l'output della query Snowflake. Altrimenti, Data Wrangler utilizza la crittografia predefinita.

  13. Scegli Connetti.

Puoi iniziare il processo di importazione dei dati da Snowflake dopo esserti connesso.

In Data Wrangler, puoi visualizzare i data warehouse, i database e gli schemi, oltre all'icona a forma di occhio con cui puoi visualizzare l'anteprima della tabella. Selezionando l'icona Preview Table (anteprima della tabella), viene generata l'anteprima dello schema di quella tabella. È necessario selezionare un warehouse prima di visualizzare l'anteprima di una tabella.

Importante

Se stai importando un set di dati con colonne di tipo TIMESTAMP_TZ o TIMESTAMP_LTZ, aggiungi ::string ai nomi delle colonne della tua query. Per ulteriori informazioni, consulta Procedura: scaricare i LTZ dati TIMESTAMP _TZ e TIMESTAMP _ su un file Parquet.

Dopo aver selezionato un data warehouse, un database e uno schema, potrai scrivere query ed eseguirle. L'output della query viene visualizzato in Query results (Risultati della query).

Dopo aver stabilito l'output della query, è possibile importare l'output della query in un flusso di Data Wrangler per eseguire trasformazioni dei dati.

Dopo aver importato i dati, accedi al flusso di Data Wrangler e inizia ad aggiungervi trasformazioni. Per un elenco di trasformazioni disponibili, consulta Trasformazione dei dati.

Importare dati da piattaforme Software as a Service (SaaS)

Puoi utilizzare Data Wrangler per importare dati da più di quaranta piattaforme software as a service (SaaS). Per importare i dati dalla tua piattaforma SaaS, tu o il tuo amministratore dovete utilizzare Amazon AppFlow per trasferire i dati dalla piattaforma ad Amazon S3 o Amazon Redshift. Per ulteriori informazioni su Amazon AppFlow, consulta What is Amazon AppFlow? Se non hai bisogno di usare Amazon Redshift, ti consigliamo di trasferire i dati su Amazon S3 per un processo più semplice.

Data Wrangler supporta il trasferimento di dati dalle seguenti piattaforme SaaS:

L'elenco precedente contiene collegamenti a ulteriori informazioni sulla configurazione dell'origine dati. Tu o il tuo amministratore potete fare riferimento ai collegamenti precedenti dopo aver letto le seguenti informazioni.

Quando accedi alla scheda Import (Importa) del flusso di Data Wrangler, vedi le origine dati nelle seguenti sezioni:

  • Disponibilità

  • Configurazione origini dati

Puoi connetterti a origine dati in Available (Disponibile) senza bisogno di configurazioni aggiuntive. Puoi scegliere l'origine dati e importare i tuoi dati.

In Configurazione delle sorgenti dati, richiedi a te o al tuo amministratore di utilizzare Amazon AppFlow per trasferire i dati dalla piattaforma SaaS ad Amazon S3 o Amazon Redshift. Per informazioni sull'esecuzione di un trasferimento, consulta Utilizzo di Amazon AppFlow per trasferire i tuoi dati.

Dopo aver eseguito il trasferimento dei dati, la piattaforma SaaS viene visualizzata come origine dati in Available (Disponibile). Puoi sceglierla e importare i dati che hai trasferito in Data Wrangler. I dati trasferiti vengono visualizzati sotto forma di tabelle su cui è possibile effettuare delle query.

Utilizzo di Amazon AppFlow per trasferire i tuoi dati

Amazon AppFlow è una piattaforma che puoi utilizzare per trasferire dati dalla tua piattaforma SaaS ad Amazon S3 o Amazon Redshift senza dover scrivere alcun codice. Per eseguire un trasferimento di dati, utilizza AWS Management Console

Importante

Devi assicurarti di aver impostato le autorizzazioni per eseguire un trasferimento di dati. Per ulteriori informazioni, consulta AppFlow Autorizzazioni Amazon.

Dopo aver aggiunto le autorizzazioni, puoi trasferire i dati. All'interno di Amazon AppFlow, crei un flusso per trasferire i dati. Un flusso è una serie di configurazioni. Puoi usarlo per specificare se stai eseguendo il trasferimento dei dati in base a una pianificazione o se stai partizionando i dati in file separati. Dopo aver configurato il flusso, lo esegui per trasferire i dati.

Per informazioni sulla creazione di un flusso, consulta Creazione di flussi in Amazon AppFlow. Per informazioni sull'esecuzione di un flusso, consulta Attivare un AppFlow flusso Amazon.

Dopo il trasferimento dei dati, utilizza la seguente procedura per accedere ai dati in Data Wrangler.

Importante

Prima di provare ad accedere ai tuoi dati, assicurati che il tuo IAM ruolo abbia la seguente politica:

{ "Version": "2012-10-17", "Statement": [ { "Effect": "Allow", "Action": "glue:SearchTables", "Resource": [ "arn:aws:glue:*:*:table/*/*", "arn:aws:glue:*:*:database/*", "arn:aws:glue:*:*:catalog" ] } ] }

Per impostazione predefinita, il IAM ruolo che usi per accedere a Data Wrangler è il. SageMakerExecutionRole Per ulteriori informazioni sull'aggiunta di politiche, consulta Aggiungere autorizzazioni di IAM identità (console).

Per connettersi a un'origine dati, esegui le operazioni descritte di seguito.

  1. Accedi ad Amazon SageMaker Console.

  2. Scegli Studio

  3. Scegli Launch app.

  4. Dall'elenco a discesa, seleziona Studio.

  5. Scegli l'icona Home.

  6. Selezionare Data (Dati).

  7. Scegli Data Wrangler.

  8. Scegli Import data (Importa dati).

  9. In Available (Disponibile), scegli l'origine dati.

  10. Per il campo Name, specificare il nome della connessione.

  11. (Opzionale) Scegli Advanced configuration (Advanced configuration (Configurazione avanzata).

    1. Scegli un Workgroup (Gruppo di lavoro).

    2. Se il tuo gruppo di lavoro non ha imposto la posizione di output di Amazon S3 o se non utilizzi un gruppo di lavoro, specifica un valore per Amazon S3 location of query results (Posizione Amazon S3 dei risultati delle query).

    3. (Facoltativo) Per Data retention period, (Periodo di conservazione dei dati) seleziona la casella di controllo per impostare un periodo di conservazione dei dati e specifica il numero di giorni in cui archiviare i dati prima che vengano eliminati.

    4. (Facoltativo) Per impostazione predefinita, Data Wrangler salva la connessione. È possibile scegliere di deselezionare la casella di controllo e non salvare la connessione.

  12. Scegli Connetti.

  13. Specificare una query.

    Nota

    Per aiutarti a specificare una query, puoi scegliere una tabella nel pannello di navigazione a sinistra. Data Wrangler mostra il nome della tabella e un'anteprima della tabella. Scegli l'icona accanto al nome tabella per copiare il nome. È possibile utilizzare il nome della tabella nella query.

  14. Seleziona Esegui.

  15. Scegli Import query (Importa query).

  16. Per Dataset name, specificare il nome del set di dati.

  17. Scegli Aggiungi.

Quando accedi alla schermata Import data (Importa dati), puoi vedere la connessione che hai creato. Puoi usare la connessione per importare più dati.

Archiviazione di dati importati

Importante

Ti consigliamo vivamente di seguire le best practice per proteggere il tuo bucket Amazon S3 seguendo Security best practices (Best practice di sicurezza).

Quando esegui una query sui dati da Amazon Athena o Amazon Redshift, il set di dati richiesto viene automaticamente archiviato in Amazon S3. I dati vengono archiviati nel bucket SageMaker S3 predefinito per la AWS regione in cui utilizzi Studio Classic.

I bucket S3 predefiniti hanno la seguente convenzione di denominazione: sagemaker-region-account number. Ad esempio, se il numero del tuo account è 111122223333 e utilizzi Studio Classic inus-east-1, i set di dati importati vengono archiviati in 111122223333. sagemaker-us-east-1-

I flussi di Data Wrangler dipendono dalla posizione di questo set di dati Amazon S3, quindi non dovresti modificare questo set di dati in Amazon S3 mentre utilizzi un flusso dipendente. Se modifichi questa posizione S3 e desideri continuare a utilizzare il flusso di dati, devi rimuovere tutti gli oggetti nel file.flow trained_parameters A tale scopo, scaricate il file.flow da Studio Classic e, per ogni istanza di, eliminate tutte le voci. trained_parameters Quando hai finito, trained_parameters dovrebbe essere un JSON oggetto vuoto:

"trained_parameters": {}

Quando esporti e utilizzi il flusso di dati per elaborare i dati, il file .flow che esporti si riferisce a questo set di dati in Amazon S3. Per ottenere ulteriori informazioni, usare le sezioni indicate di seguito.

Archiviazione di importazione Amazon Redshift

Data Wrangler memorizza i set di dati che risultano dalla tua query in un file Parquet nel bucket S3 predefinito SageMaker .

Questo file è memorizzato con il seguente prefisso (directory): redshift/uuid/data/, dove uuid è un identificatore univoco che viene creato per ogni query.

Ad esempio, se il bucket predefinito èsagemaker-us-east-1-111122223333, un singolo set di dati richiesto da Amazon Redshift si trova in s3://-1-111122223333/redshift/ sagemaker-us-eastuuid/dati/.

Archiviazione di importazione Amazon Athena

Quando esegui una query su un database Athena e importi un set di dati, Data Wrangler archivia il set di dati, nonché un sottoinsieme di tale set di dati o preview files (file di anteprima), in Amazon S3.

Il set di dati che importi selezionando Import dataset (Importa set di dati) viene archiviato in formato Parquet in Amazon S3.

I file di anteprima vengono scritti in CSV formato quando si seleziona Esegui nella schermata di importazione di Athena e contengono fino a 100 righe del set di dati interrogato.

Il set di dati interrogato si trova sotto il prefisso (directory): athena/uuid/data/, dove uuid è un identificatore univoco che viene creato per ogni query.

Ad esempio, se il bucket predefinito èsagemaker-us-east-1-111122223333, un singolo set di dati interrogato da Athena si trova in /athena/ s3://sagemaker-us-east-1-111122223333uuid/data/example_dataset.parquet.

Il sottoinsieme del set di dati memorizzato per l'anteprima dei dataframe in Data Wrangler è memorizzato con il prefisso: athena/.