Conditions préalables au stockage hiérarchisé Contraintes de stockage hiérarchisé

Stockage hiérarchisé pour les courtiers standard

Le stockage hiérarchisé est un niveau de stockage peu coûteux pour Amazon MSK qui évolue vers un stockage pratiquement illimité, ce qui rend rentable le développement d'applications de streaming de données.

Vous pouvez créer un cluster Amazon MSK configuré avec un stockage hiérarchisé qui équilibre les performances et les coûts. Amazon MSK stocke les données de streaming dans un niveau de stockage principal optimisé pour les performances jusqu'à ce qu'elles atteignent les limites de conservation des rubriques Apache Kafka. Amazon MSK déplace ensuite automatiquement les données vers le nouveau niveau de stockage à faible coût.

Lorsque votre application commence à lire des données depuis le stockage hiérarchisé, vous pouvez vous attendre à une augmentation de la latence de lecture pour les premiers octets. Lorsque vous commencez à lire les données restantes de manière séquentielle à partir du niveau à faible coût, vous pouvez vous attendre à des latences similaires à celles du niveau de stockage principal. Vous n'avez pas besoin de provisionner de stockage pour le stockage hiérarchisé à faible coût ni de gérer l'infrastructure. Vous pouvez stocker n'importe quelle quantité de données et ne payer que ce que vous utilisez. Cette fonctionnalité est compatible avec celle APIs introduite dans le KIP-405 : Kafka Tiered Storage.

Pour plus d'informations sur le dimensionnement, la surveillance et l'optimisation de votre cluster de stockage hiérarchisé MSK, consultez Meilleures pratiques pour exécuter des charges de travail de production à l'aide du stockage hiérarchisé Amazon MSK.

Certaines des fonctionnalités du stockage hiérarchisé sont décrites ci-dessous :

Vous pouvez passer à un espace de stockage pratiquement illimité. Vous n'avez pas à deviner comment mettre à l'échelle votre infrastructure Apache Kafka.
Vous pouvez conserver les données plus longtemps dans vos rubriques Apache Kafka ou augmenter le stockage de vos rubriques, sans avoir à augmenter le nombre d'agents.
Il fournit un tampon de sécurité de plus longue durée pour gérer les retards imprévus dans le traitement.
Vous pouvez retraiter les anciennes données dans leur ordre de production exact à l'aide de votre code de traitement des flux existant et de Kafka APIs.
Les partitions se rééquilibrent plus rapidement car les données du stockage secondaire ne nécessitent pas de réplication sur les disques de l'agent.
Les données entre les agents et le stockage hiérarchisé sont transférées au sein du VPC et ne transitent pas par Internet.
Un ordinateur client peut utiliser le même processus pour se connecter à de nouveaux clusters avec le stockage hiérarchisé activé que pour se connecter à un cluster sans stockage hiérarchisé activé. Consultez la section Créer un ordinateur client.

Exigences de stockage hiérarchisé pour les clusters Amazon MSK

Vous devez utiliser le client Apache Kafka version 3.0.0 ou supérieure pour créer une nouvelle rubrique avec le stockage hiérarchisé activé. Pour faire passer une rubrique existante au stockage hiérarchisé, vous pouvez reconfigurer un ordinateur client qui utilise une version du client Kafka antérieure à la version 3.0.0 (la version minimale d'Apache Kafka prise en charge est 2.8.2) pour activer le stockage hiérarchisé. Consultez Étape 4 : créer une rubrique dans le cluster Amazon MSK.
Le cluster Amazon MSK sur lequel le stockage hiérarchisé est activé doit utiliser la version 3.6.0 ou supérieure, ou la version 2.8.2.

Contraintes et limites du stockage hiérarchisé pour les clusters Amazon MSK

Le stockage hiérarchisé présente les contraintes et limites suivantes :

Assurez-vous que les clients ne sont pas configurés pour read_committed lire depuis le remote_tier dans Amazon MSK, sauf si l'application utilise activement la fonctionnalité de transactions.
Le stockage hiérarchisé n'est pas disponible dans les régions AWS GovCloud (États-Unis).
Le stockage hiérarchisé s'applique uniquement aux clusters en mode provisionné.
Le stockage hiérarchisé ne prend pas en charge la taille du broker t3.small.
La période de conservation minimale dans le stockage à faible coût est de 3 jours. Il n'y a pas de durée de conservation minimale pour le stockage principal.
Le stockage hiérarchisé ne prend pas en charge les répertoires de journaux multiples sur un agent (fonctionnalités liées au JBOD).
Le stockage hiérarchisé ne prend pas en charge les sujets compactés. Assurez-vous que le fichier cleanup.policy de toutes les rubriques pour lesquelles le stockage hiérarchisé est activé est configuré sur « DELETE » uniquement.
Le cluster de stockage hiérarchisé ne prend pas en charge la modification de la politique log.cleanup.policy d'un sujet après sa création.
Le stockage hiérarchisé peut être désactivé pour des sujets individuels, mais pas pour l'ensemble du cluster. Une fois désactivé, le stockage hiérarchisé ne peut pas être réactivé pour une rubrique.
Si vous utilisez Amazon MSK version 2.8.2.tiered, vous ne pouvez migrer que vers une autre version d'Apache Kafka compatible avec le stockage hiérarchisé. Si vous ne souhaitez pas continuer à utiliser une version prise en charge par le stockage hiérarchisé, créez un nouveau cluster MSK et migrez vos données vers celui-ci.
L' kafka-log-dirsoutil ne peut pas indiquer la taille des données de stockage hiérarchisé. L'outil indique uniquement la taille des segments de journaux dans le stockage principal.

Pour plus d'informations sur les paramètres par défaut et les contraintes dont vous devez tenir compte lorsque vous configurez le stockage hiérarchisé au niveau de la rubrique, voirDirectives relatives à la configuration du stockage hiérarchisé Amazon MSK au niveau des sujets.

Avertissement JavaScript est désactivé ou n'est pas disponible dans votre navigateur.

Pour que vous puissiez utiliser la documentation AWS, Javascript doit être activé. Vous trouverez des instructions sur les pages d'aide de votre navigateur.

Conventions de rédaction

Gestion du stockage

Scénario de stockage hiérarchisé