Connessione di Athena a un metastore Apache Hive - Amazon Athena

Le traduzioni sono generate tramite traduzione automatica. In caso di conflitto tra il contenuto di una traduzione e la versione originale in Inglese, quest'ultima prevarrà.

Connessione di Athena a un metastore Apache Hive

Per connettere Athena a un metastore Apache Hive, devi creare e configurare una funzione Lambda. Per un'implementazione di base, puoi eseguire tutte le fasi richieste a partire dalla console di gestione Athena.

Nota

La procedura seguente richiede l'autorizzazione per creare un ruolo IAM personalizzato per la funzione Lambda. Se non disponi dell'autorizzazione per creare un ruolo personalizzato, puoi utilizzare l'implementazione di riferimento Athena per creare una funzione Lambda separatamente, quindi utilizzare la AWS Lambda console per scegliere un ruolo IAM esistente per la funzione. Per ulteriori informazioni, consulta Collegamento di Athena a un metastore Hive utilizzando un ruolo di esecuzione IAM esistente.

Per connettere Athena a un metastore Hive
  1. Aprire la console Athena all'indirizzo https://console.aws.amazon.com/athena/.

  2. Se il pannello di navigazione della console non è visibile, scegli il menu di espansione a sinistra.

    Scegli il menu di espansione.
  3. Scegli Data sources (Origini dati).

  4. Nell'angolo in alto a destra della console, scegli Create data source (Crea origine dati).

  5. Nella pagina Choose a data source (Scegli un'origine dati), per Data source (Origini dati), scegli S3 - Apache Hive metastore (Metastore Apache Hive - S3).

  6. Seleziona Successivo.

  7. Nella sezione Data source details (Dettagli origine dati), per Data source name (Nome origine dati), inserisci il nome che desideri utilizzare nelle istruzioni SQL quando esegui una query sull'origine dati da Athena. Il nome può contenere fino a 127 caratteri e deve essere univoco all'interno dell'account. Non può essere modificato dopo la creazione. I caratteri validi sono a-z, A-z, 0-9, _ (trattino basso), @ (chiocciola) e - (trattino). I nomi awsdatacatalog, hive, jmx e system sono riservati ad Athena e non possono essere utilizzati per i nomi delle origini dati.

  8. Per la funzione Lambda, scegli Crea funzione Lambda, quindi scegli Crea una nuova funzione Lambda in AWS Lambda

    La AthenaHiveMetastoreFunctionpagina si apre nella console. AWS Lambda La pagina include informazioni dettagliate sul connettore.

    La AthenaHiveMetastoreFunctionpagina nella AWS Lambda console.
  9. Sotto Impostazioni applicazioni inserisci i parametri per la funzione Lambda.

    • LambdaFuncName— Fornire un nome per la funzione. Ad esempio, myHiveMetastore.

    • SpillLocation— Specificare una posizione Amazon S3 in questo account per conservare i metadati di spillover se la dimensione della risposta della funzione Lambda supera i 4 MB.

    • HMSUris: inserisci l'URI dell'host del metastore Hive che utilizza il protocollo Thrift alla porta 9083. Utilizzo della sintassi thrift://<host_name>:9083.

    • LambdaMemory— Specificare un valore compreso tra 128 MB e 3008 MB. Alla funzione Lambda vengono allocati cicli di CPU proporzionali alla quantità di memoria configurata. Il valore di default è 1024.

    • LambdaTimeout— Specificare il tempo di esecuzione della chiamata Lambda massimo consentito in secondi da 1 a 900 (900 secondi corrispondono a 15 minuti). Il valore predefinito è 300 secondi (5 minuti).

    • VPC SecurityGroupIds: inserisci un elenco separato da virgole di ID dei gruppi di sicurezza VPC per il metastore Hive.

    • VPC SubnetIds: inserisci un elenco separato da virgole di ID di sottorete VPC per il metastore Hive.

  10. Seleziona I acknowledge that this app creates custom IAM roles (Sono consapevole che questa app crea ruoli IAM personalizzati), quindi scegli Deploy (Implementa).

    Distribuzione dell'app per la funzione Lambda dalla console AWS Lambda .

    Al termine della distribuzione, la funzione viene visualizzata nell'elenco delle applicazioni Lambda. Ora che la funzione metastore Hive è stata distribuita sul tuo account, puoi configurare Athena per usarla.

  11. Torna alla pagina Enter data source details (Inserisci i dettagli dell'origine dati) nella console Athena.

  12. Nella sezione Lambda function (Funzione Lambda), scegli l'icona di aggiornamento accanto alla casella di ricerca della funzione Lambda. L'aggiornamento dell'elenco delle funzioni disponibili fa sì che la funzione appena creata venga visualizzata nell'elenco.

  13. Scegli il nome della funzione appena creata nella console Lambda. Viene visualizzato l'ARN della funzione Lambda.

  14. (Facoltativo) Per Tags (Tag), aggiungi coppie chiave-valore da associare a questa origine dati. Per ulteriori informazioni sui tag, consulta Assegnazione di tag alle risorse Athena.

  15. Seleziona Successivo.

  16. Nella pagina Review and create (Rivedi e crea), esamina i dettagli dell'origine dati, quindi scegli Create data source (Crea origine dati).

  17. La sezione Data source details (Dettagli sull'origine dati) della pagina dell'origine dati mostra le informazioni relative al nuovo connettore.

    È ora possibile utilizzare il Data source name (Nome origine dati) specificato per fare riferimento al metastore Hive nelle query SQL in Athena. Nelle query SQL utilizzare la sintassi di esempio seguente, sostituendo hms-catalog-1 con il nome del catalogo specificato in precedenza.

    SELECT * FROM hms-catalog-1.CustomerData.customers
  18. Per informazioni sulla visualizzazione, la modifica o l'eliminazione delle origini dati create, consulta Gestione delle origini dati.