Amazon Redshift ne prendra plus en charge la création de nouveaux Python UDFs à compter du 1er novembre 2025. Si vous souhaitez utiliser Python UDFs, créez la version UDFs antérieure à cette date. Le Python existant UDFs continuera à fonctionner normalement. Pour plus d'informations, consultez le billet de blog.

Les traductions sont fournies par des outils de traduction automatique. En cas de conflit entre le contenu d'une traduction et celui de la version originale en anglais, la version anglaise prévaudra.

Schémas externes dans Amazon Redshift Spectrum

Cette rubrique explique comment créer et utiliser des schémas externes avec Redshift Spectrum. Les schémas externes sont des ensembles de tables que vous utilisez comme références pour accéder à des données en dehors de votre cluster Amazon Redshift. Ces tables contiennent des métadonnées relatives aux données externes lues par Redshift Spectrum.

Toutes les tables externes doivent être créées dans un schéma externe, que vous créez à l’aide d’une instruction CREATE EXTERNAL SCHEMA.

Note

Dans certaines applications, les termes base de données et schéma sont utilisés indifféremment. Dans Amazon Redshift, nous utilisons le terme schéma.

Un schéma externe Amazon Redshift fait référence à une base de données externe dans un catalogue de données externe. Vous pouvez créer la base de données externe dans Amazon Redshift, dans Amazon Athena, dans AWS Glue Data Catalog ou dans un métastore Apache Hive, tel qu’Amazon EMR. Si vous la créez une base de données externe dans Amazon Redshift, elle réside dans le catalogue de données Athena. Pour créer une base de données dans un metastore Hive, vous devez la créer dans votre application Hive.

Amazon Redshift a besoin d’une autorisation pour accéder au catalogue de données dans Athena et aux fichiers de données dans Amazon S3 en votre nom. Pour fournir cette autorisation, vous devez d'abord créer un rôle AWS Identity and Access Management (IAM). Ensuite, vous attachez le rôle à votre cluster et fournissez le Amazon Resource Name (ARN) pour le rôle dans la déclaration Amazon Redshift CREATE EXTERNAL SCHEMA. Pour de plus amples informations concernant l’autorisation, consultez Politiques IAM pour Amazon Redshift Spectrum.

Pour créer une base de données externe en même temps que vous créez un schéma externe, spécifiez FROM DATA CATALOG et incluez la clause CREATE EXTERNAL DATABASE dans l’instruction CREATE EXTERNAL SCHEMA.

L’exemple suivant permet de créer un schéma externe nommé spectrum_schema en utilisant la base de données externe spectrum_db.


create external schema spectrum_schema from data catalog 
database 'spectrum_db' 
iam_role 'arn:aws:iam::123456789012:role/MySpectrumRole'
create external database if not exists;

Si vous gérez votre catalogue de données à l’aide d’Athena, indiquez le nom de la base de données Athena et la région AWS dans laquelle se trouve le catalogue de données Athena.

L’exemple suivant crée un schéma externe en utilisant la base de données sampledb par défaut dans le catalogue de données Athena.


create external schema athena_schema from data catalog 
database 'sampledb' 
iam_role 'arn:aws:iam::123456789012:role/MySpectrumRole' 
region 'us-east-2';

Note

Le region paramètre fait référence à la AWS région dans laquelle se trouve le catalogue de données Athena, et non à l'emplacement des fichiers de données dans Amazon S3.

Si vous gérez votre catalogue de données à l’aide d’un métastore Hive, comme Amazon EMR, vos groupes de sécurité doivent être configurés pour autoriser le trafic entre les clusters.

Dans l’instruction CREATE EXTERNAL SCHEMA, spécifiez FROM HIVE METASTORE et incluez l’URI et le numéro de port du metastore. L’exemple suivant permet de créer un schéma externe en utilisant une base de données de metastore Hive nommée hive_db.


create external schema hive_schema
from hive metastore
database 'hive_db'
uri '172.10.10.10' port 99
iam_role 'arn:aws:iam::123456789012:role/MySpectrumRole'

Pour afficher les schémas externes correspondant à votre cluster, interrogez la table de catalogue PG_EXTERNAL_SCHEMA ou la vue SVV_EXTERNAL_SCHEMAS. L’exemple suivant interroge SVV_EXTERNAL_SCHEMAS qui joint PG_EXTERNAL_SCHEMA et PG_NAMESPACE.


select * from svv_external_schemas

Pour connaître la syntaxe complète de la commande et voir des exemples, consultez CREATE EXTERNAL SCHEMA.

Utiliser des catalogues externes dans Amazon Redshift Spectrum

Les métadonnées des bases de données externes et des tables externes d’Amazon Redshift Spectrum sont stockées dans un catalogue de données externes. Par défaut, les métadonnées de Redshift Spectrum sont stockées dans un catalogue de données Athena. Vous pouvez afficher et gérer les bases de données et les tables Redshift Spectrum dans votre console Athena.

Vous pouvez également créer et gérer des bases de données et des tables externes à l’aide du langage de définition de données (DDL) Hive en utilisant Athena ou un métastore Hive, tel que Amazon EMR.

Note

Nous vous recommandons d’utiliser Amazon Redshift pour créer et gérer des bases de données externes et des tables externes dans Redshift Spectrum.

Affichage des bases de données Redshift Spectrum dans Athena et AWS Glue

Vous pouvez créer une base de données externe en incluant la clause CREATE EXTERNAL DATABASE IF NOT EXISTS dans votre instruction CREATE EXTERNAL SCHEMA. Le cas échéant, les métadonnées de la base de données externe sont stockées dans votre catalogue de données. Tout comme les métadonnées relatives aux tables externes que vous créez qui sont qualifiées par le schéma externe sont également stockées dans votre catalogue de données .

Athena et AWS Glue maintenez un catalogue de données pour chaque support pris en charge. Région AWS Pour consulter les métadonnées d'une table, connectez-vous à Athena ou AWS Glue à la console. Dans Athena, choisissez Sources de données, votre AWS Glue, puis consultez les détails de votre base de données. Dans AWS Glue, choisissez Bases de données, votre base de données externe, puis affichez les détails de votre base de données.

Si vous créez et gérez vos tables externes à l’aide d’Athena, enregistrez la base de données en utilisant CREATE EXTERNAL SCHEMA. Par exemple, la commande suivante enregistre la base de données Athena nommée sampledb.


create external schema athena_sample
from data catalog
database 'sampledb'
iam_role 'arn:aws:iam::123456789012:role/mySpectrumRole'
region 'us-east-1';

Lorsque vous interrogez la vue système SVV_EXTERNAL_TABLES, vous voyez les tables dans la base de données Athena sampledb et également celles que vous avez créées dans Amazon Redshift.


select * from svv_external_tables;

schemaname    | tablename        | location                                               
--------------+------------------+--------------------------------------------------------
athena_sample | elb_logs         | s3://athena-examples/elb/plaintext           
athena_sample | lineitem_1t_csv  | s3://myspectrum/tpch/1000/lineitem_csv                
athena_sample | lineitem_1t_part | s3://myspectrum/tpch/1000/lineitem_partition          
spectrum      | sales            | s3://redshift-downloads/tickit/spectrum/sales          
spectrum      | sales_part       | s3://redshift-downloads/tickit/spectrum/sales_part

Enregistrement d’une base de données de metastore Apache Hive

Si vous créez des tables externes dans un metastore Apache Hive, vous pouvez les enregistrer dans Redshift Spectrum à l’aide de l’instruction CREATE EXTERNAL SCHEMA.

Dans l’instruction CREATE EXTERNAL SCHEMA, spécifiez la clause FROM HIVE METASTORE, ainsi que l’URI et le numéro de port du metastore Hive. Le rôle IAM doit inclure l’autorisation d’accéder à Amazon S3 mais ne nécessite aucune autorisation Athena. L’exemple suivant enregistre un metastore Hive.


create external schema if not exists hive_schema
from hive metastore
database 'hive_database'
uri 'ip-10-0-111-111.us-west-2.compute.internal' port 9083 
iam_role 'arn:aws:iam::123456789012:role/mySpectrumRole';

Permettre à votre cluster Amazon Redshift d’accéder à votre cluster Amazon EMR

Si votre métastore Hive se trouve dans Amazon EMR, vous devez donner à votre cluster Amazon Redshift l’accès à votre cluster Amazon EMR. Pour ce faire, vous devez créer un groupe EC2 de sécurité Amazon. Vous autorisez ensuite tout le trafic entrant vers le groupe de EC2 sécurité depuis le groupe de sécurité de votre cluster Amazon Redshift et le groupe de sécurité de votre cluster Amazon EMR. Vous ajoutez ensuite la EC2 sécurité à votre cluster Amazon Redshift et à votre cluster Amazon EMR.

Afficher le nom du groupe de sécurité du cluster Amazon Redshift

Pour afficher un groupe de sécurité, procédez comme suit :

Connectez-vous à la console Amazon Redshift AWS Management Console et ouvrez-la à l'adresse. https://console.aws.amazon.com/redshiftv2/
Dans le menu de navigation, choisissez Clusters, puis choisissez le cluster dans la liste pour ouvrir ses détails.
Choisissez Properties (Propriétés) et affichez la section Network and security settings (Paramètres de réseau et de sécurité).
Recherchez votre groupe de sécurité dans VPC security group (Groupe de sécurité VPC) et prenez-en note.

Afficher le nom du groupe de sécurité du nœud principal Amazon EMR

Ouvrez votre cluster Amazon EMR. Pour plus d’informations, consultez Utiliser des configurations de sécurité pour configurer la sécurité du cluster dans le Guide de gestion Amazon EMR.
Sous Security and access (Sécurité et accès), notez le nom du groupe de sécurité du nœud principal Amazon EMR.

Pour créer ou modifier un groupe de EC2 sécurité Amazon afin d'autoriser la connexion entre Amazon Redshift et Amazon EMR

Dans le EC2 tableau de bord Amazon, choisissez Security groups. Pour plus d'informations, consultez la section Règles relatives aux groupes de sécurité dans le guide de EC2 l'utilisateur Amazon
Sélectionnez Create security group (Créer un groupe de sécurité).
Si vous utilisez VPC, choisissez le VPC dans lequel se trouvent vos clusters Amazon Redshift et Amazon EMR.
Ajoutez une règle entrante.
1. Pour Type, choisissez Custom TCP (TCP personnalisé).
2. Pour Source, choisissez Personnalisé.
3. Entrez le nom de votre groupe de sécurité Amazon Redshift.
Ajoutez une autre règle entrante.
1. Pour Type, choisissez TCP.
2. Pour Plage de ports, entrez 9083.
  
  Note
  Le port par défaut pour un HMS EMR est 9083. Si votre HMS utilise un port distinct, spécifiez ce port dans la règle entrante et dans la définition de schéma externe.
3. Pour Source, choisissez Personnalisé.
Saisissez un nom et une description pour le groupe de sécurité.
Sélectionnez Create security group (Créer un groupe de sécurité).

Pour ajouter le groupe EC2 de sécurité Amazon que vous avez créé lors de la procédure précédente à votre cluster Amazon Redshift

Dans Amazon Redshift, choisissez votre cluster.
Choisissez Propriétés.
Affichez les paramètres réseau et de sécurité et choisissez Edit (Modifier).
Dans VPC security group (Groupe de sécurité VPC), choisissez le nouveau nom du groupe de sécurité.
Sélectionnez Enregistrer les modifications.

Pour ajouter le groupe EC2 de sécurité Amazon à votre cluster Amazon EMR

Dans Amazon EMR, choisissez votre cluster. Pour plus d’informations, consultez Utiliser des configurations de sécurité pour configurer la sécurité du cluster dans le Guide de gestion Amazon EMR.
Sous Hardware (Matériel), choisissez le lien correspondant au nœud principal.
Choisissez le lien dans la colonne ID de l'EC2 instance.
Choisissez Actions, Security (Sécurité), Change security groups (Modifier les groupes de sécurité).
Dans Associated sercurity groups (Groupes de sécurité associés), choisissez le nouveau groupe de sécurité, puis choisissez Add security group (Ajouter un groupe de sécurité).
Choisissez Enregistrer.

Avertissement JavaScript est désactivé ou n'est pas disponible dans votre navigateur.

Pour que vous puissiez utiliser la documentation AWS, Javascript doit être activé. Vous trouverez des instructions sur les pages d'aide de votre navigateur.

Conventions de rédaction

Fichiers de données pour les requêtes dans Amazon Redshift Spectrum

Tables externes