Configuration des paramètres de source - Amazon Data Firehose

La diffusion de flux Amazon Data Firehose vers les tables Apache Iceberg dans Amazon S3 est en version préliminaire et peut faire l'objet de modifications.

Les traductions sont fournies par des outils de traduction automatique. En cas de conflit entre le contenu d'une traduction et celui de la version originale en anglais, la version anglaise prévaudra.

Configuration des paramètres de source

En fonction de la source que vous avez sélectionnée à l'étape 1, vous pouvez configurer la source pour envoyer des informations à un flux Firehose depuis la console.

Amazon MSK

Lorsque vous choisissez Amazon MSK pour envoyer des informations à un flux Firehose, vous pouvez choisir entre des clusters MSK provisionnés et MSK des clusters sans serveur. Vous pouvez ensuite utiliser Firehose pour lire facilement les données d'un MSK cluster et d'un sujet Amazon spécifiques et les charger dans la destination S3 spécifiée.

Dans la section Paramètres source de la page, indiquez des valeurs pour les champs suivants.

Connectivité au MSK cluster Amazon

Choisissez l'option Brokers d'amorçage privés (recommandé) ou Brokers d'amorçage publics en fonction de la configuration de votre cluster. Les brokers d'amorçage sont ce que le client Apache Kafka utilise comme point de départ pour se connecter au cluster. Les courtiers bootstrap publics sont destinés à un accès public depuis l'extérieur AWS, tandis que les courtiers bootstrap privés sont destinés à un accès depuis l'intérieur. AWS Pour plus d'informations sur AmazonMSK, consultez Amazon Managed Streaming for Apache Kafka.

Pour se connecter à un MSK cluster Amazon provisionné ou sans serveur via des courtiers d'amorçage privés, le cluster doit répondre à toutes les exigences suivantes.

  • Le cluster doit être actif.

  • Le cluster doit avoir IAM comme méthode de contrôle d'accès l'une de ses méthodes.

  • La connectivité VPC multi-privée doit être activée pour la méthode de contrôle IAM d'accès.

  • Vous devez ajouter à ce cluster une politique basée sur les ressources qui accorde au principal du service Firehose l'autorisation d'invoquer l'opération Amazon. MSK CreateVpcConnection API

Pour se connecter à un MSK cluster Amazon provisionné via des courtiers Bootstrap publics, le cluster doit répondre à toutes les exigences suivantes.

  • Le cluster doit être actif.

  • Le cluster doit avoir IAM comme méthode de contrôle d'accès l'une de ses méthodes.

  • Le cluster doit être accessible au public.

MSKcompte de cluster

Vous pouvez choisir le compte sur lequel réside le MSK cluster Amazon. Il peut s'agir de l'une des options suivantes.

  • Compte courant : vous permet d'ingérer les données d'un MSK cluster dans le AWS compte courant. Pour cela, vous devez spécifier le ARN MSK cluster Amazon à partir duquel votre flux Firehose lira les données.

  • Compte croisé : vous permet d'ingérer les données d'un MSK cluster dans un autre AWS compte. Pour de plus amples informations, veuillez consulter Livraison entre comptes depuis Amazon MSK.

Rubrique

Spécifiez le sujet Apache Kafka à partir duquel vous souhaitez que votre flux Firehose ingère des données. Vous ne pouvez pas mettre à jour cette rubrique une fois la création du stream Firehose terminée.

Amazon Kinesis Data Streams

Configurez les paramètres de source pour Amazon Kinesis Data Streams afin d'envoyer des informations à un flux Firehose comme suit.

Important

Si vous utilisez la bibliothèque Kinesis Producer (KPL) pour écrire des données dans un flux de données Kinesis, vous pouvez utiliser l'agrégation pour combiner les enregistrements que vous écrivez dans ce flux de données Kinesis. Si vous utilisez ensuite ce flux de données comme source pour votre flux Firehose, Amazon Data Firehose désagrège les enregistrements avant de les envoyer à destination. Si vous configurez votre flux Firehose pour transformer les données, Amazon Data Firehose désagrège les enregistrements avant de les transmettre. AWS Lambda Pour de plus amples informations, veuillez consulter Developing Amazon Kinesis Data Streams Producers Using the Kinesis Producer Library and Aggregation.

Dans les paramètres Source, choisissez un flux existant dans la liste des flux de données Kinesis ou entrez un flux de données ARN au format. arn:aws:kinesis:[Region]:[AccountId]:stream/[StreamName]

Si vous ne disposez pas d'un flux de données existant, choisissez Create pour en créer un nouveau depuis la console Amazon Kinesis. Après avoir créé un nouveau flux, cliquez sur l'icône d'actualisation pour mettre à jour la liste des flux Kinesis. Si vous avez un grand nombre de flux, filtrez la liste avec l'option Filter by name (Filtrer par nom).

Note

Lorsque vous configurez un flux de données Kinesis comme source d'un flux Firehose, Amazon Data PutRecord Firehose et ses opérations sont désactivés. PutRecordBatch Pour ajouter des données à votre flux Firehose dans ce cas, utilisez les Kinesis Data Streams et les opérations. PutRecord PutRecords

Amazon Data Firehose commence à lire les données à partir de la LATEST position de votre flux Kinesis. Pour plus d'informations sur les positions de Kinesis Data Streams, GetShardIteratorconsultez.

Amazon Data Firehose lance l'GetRecordsopération Kinesis Data Streams une fois par seconde pour chaque partition. Toutefois, lorsque la sauvegarde complète est activée, Firehose lance l'GetRecordsopération Kinesis Data Streams deux fois par seconde pour chaque partition, une pour la destination de diffusion principale et une autre pour une sauvegarde complète.

Plusieurs flux Firehose peuvent être lus à partir du même flux Kinesis. D'autres applications Kinesis (de type consommateur) peuvent également lire des données à partir du même flux. Chaque appel provenant d'un stream Firehose ou d'une autre application grand public est pris en compte dans la limite de limitation globale de la partition. Pour éviter les restrictions, planifiez attentivement vos applications. Pour plus d'informations sur les limites de Kinesis Data Streams, consultez Amazon Kinesis Streams Limits.

Passez à l'étape suivante pour configurer la transformation des enregistrements et la conversion des formats.