Como os fluxos de captura de dados de alteração (CDC) funcionam no Amazon Keyspaces - Amazon Keyspaces (para Apache Cassandra)

As traduções são geradas por tradução automática. Em caso de conflito entre o conteúdo da tradução e da versão original em inglês, a versão em inglês prevalecerá.

Como os fluxos de captura de dados de alteração (CDC) funcionam no Amazon Keyspaces

Esta seção fornece uma visão geral de como os fluxos de captura de dados de alteração (CDC) funcionam no Amazon Keyspaces.

A captura de dados de alterações (CDC) do Amazon Keyspaces registra uma sequência ordenada de modificações em nível de linha nas tabelas do Amazon Keyspaces e armazena essas informações em um log chamado stream por até 24 horas. Cada modificação em nível de linha gera um novo registro CDC que contém as informações da coluna-chave primária, bem como os estados “antes” e “depois” da linha, incluindo todas as colunas. Os aplicativos podem acessar o stream e visualizar as mutações quase em tempo real.

Quando você habilita o CDC em sua tabela, o Amazon Keyspaces cria um novo stream de CDC e começa a capturar informações sobre cada modificação na tabela. O stream do CDC tem um Amazon Resource Name (ARN) com o seguinte formato:

arn:${Partition}:cassandra:{Region}:${Account}:/keyspace/${keyspaceName}/table/${tableName}/stream/${streamLabel}

Você pode selecionar o tipo de informação ou o tipo de visualização que o fluxo do CDC coleta para cada registro quando você habilita o fluxo do CDC pela primeira vez. Você não pode alterar o tipo de visualização do stream posteriormente. O Amazon Keyspaces oferece suporte aos seguintes tipos de visualização:

  • NEW_AND_OLD_IMAGES— Captura as versões da linha antes e depois da mutação. Esse é o padrão.

  • NEW_IMAGE— Captura a versão da linha após a mutação.

  • OLD_IMAGE— Captura a versão da linha antes da mutação.

  • KEYS_ONLY— Captura a partição e as chaves de agrupamento da linha que sofreu mutação.

Cada fluxo do CDC consiste em registros. Cada registro representa uma modificação de uma única linha em uma tabela do Amazon Keyspaces. Os registros são organizados logicamente em grupos conhecidos como fragmentos. Esses grupos são organizados logicamente por intervalos da chave primária (combinação de chave de partição, intervalos de chaves de agrupamento) e são uma construção interna do Amazon Keyspaces. Cada fragmento atua como um contêiner para vários registros e contém as informações necessárias para acessar e iterar esses registros.

Um stream CDC do Amazon Keyspaces consiste em fragmentos que representam um registro do CDC de uma coleção de mutações de linha.

Cada registro do CDC recebe um número de sequência, refletindo a ordem em que o registro foi publicado no fragmento. É garantido que o número de sequência seja crescente e exclusivo em cada fragmento.

O Amazon Keyspaces cria e exclui fragmentos automaticamente. Com base nas cargas de tráfego, o Amazon Keyspaces também pode dividir ou mesclar fragmentos ao longo do tempo. Por exemplo, o Amazon Keyspaces pode dividir um fragmento em vários novos fragmentos ou mesclar fragmentos em um novo fragmento único. O Amazon Keyspaces APIs publica as informações do fragmento e do stream do CDC para permitir que aplicativos consumidores processem registros na ordem certa acessando todo o gráfico de linhagem de um fragmento.

O Amazon Keyspaces CDC é baseado nos seguintes princípios nos quais você pode confiar ao criar seu aplicativo:

  • Cada registro de mutação em nível de linha aparece exatamente uma vez no fluxo do CDC.

  • Quando você consome fragmentos em ordem de linhagem, cada registro de mutação em nível de linha aparece na mesma sequência da ordem real de mutação na chave primária.

Como a retenção de dados funciona para fluxos de CDC no Amazon Keyspaces

O Amazon Keyspaces retém os registros no stream do CDC por um período de 24 horas. Você não pode alterar o período de retenção. Se você desativar o CDC em uma tabela, os dados no fluxo continuarão legíveis por 24 horas. Após esse período, os dados expiram e os registros são excluídos automaticamente.

Como a expiração de dados Time to Live (TTL) funciona com fluxos de CDC no Amazon Keyspaces

O Amazon Keyspaces mostra o tempo de expiração no nível e no column/cell nível da linha em um campo de metadados chamado expirationTime nos registros de alteração do CDC. Quando o Amazon Keyspaces TTL detecta a expiração de uma célula, o CDC cria um novo registro de alteração que mostra o TTL como a origem da alteração. Para mais informações sobre TTL, consulte Dados expirados com vida útil (TTL) para Amazon Keyspaces (para Apache Cassandra).

Como as operações em lote funcionam para fluxos de CDC no Amazon Keyspaces

As operações em lote são divididas internamente em modificações individuais em nível de linha. O Amazon Keyspaces retém todos os registros nos fluxos do CDC no nível da linha, mesmo que a modificação tenha ocorrido em uma operação em lote. O Amazon Keyspaces mantém a ordem dos registros no stream do CDC na mesma sequência da ordem de mutação que ocorreu no nível da linha ou na chave primária.

Como as colunas estáticas funcionam em fluxos de CDC no Amazon Keyspaces

Os valores das colunas estáticas são compartilhados entre todas as linhas em uma partição no Cassandra. Devido a esse comportamento, o Amazon Keyspaces captura todas as atualizações em uma coluna estática como um registro separado no stream do CDC. Os exemplos a seguir resumem o comportamento das mutações estáticas da coluna:

  • Quando somente a coluna estática é atualizada, o fluxo CDC contém uma modificação de linha para a coluna estática como a única coluna na linha.

  • Quando uma linha é atualizada sem nenhuma alteração na coluna estática, o fluxo do CDC contém uma modificação de linha que contém todas as colunas, exceto a coluna estática.

  • Quando uma linha é atualizada junto com a coluna estática, o fluxo CDC contém duas modificações de linha separadas, uma para a coluna estática e outra para o resto da linha.

Como a criptografia em repouso funciona para fluxos de CDC no Amazon Keyspaces

Para criptografar os dados em repouso no registro ordenado do CDC, o Amazon Keyspaces usa a mesma chave de criptografia que já é usada para a tabela. Para obter mais informações sobre criptografia em repouso, consulte Criptografia em repouso no Amazon Keyspaces.

Como a replicação multirregional funciona para fluxos de CDC no Amazon Keyspaces

Você pode ativar e desativar fluxos CDC para réplicas individuais de uma tabela multirregional usando a update-table API ou o comando CQL. ALTER TABLE Devido à replicação assíncrona e à resolução de conflitos, os fluxos de CDC para tabelas multirregionais não são consistentes entre si. Regiões da AWS Portanto, os registros que o Amazon Keyspaces captura no stream podem aparecer em uma ordem diferente em diferentes regiões.

Para obter mais informações sobre a replicação multirregional, consulte. Replicação multirregional para Amazon Keyspaces (para Apache Cassandra)

Streams do CDC e integração com serviços AWS

Como trabalhar com VPC endpoints para streams de CDC no Amazon Keyspaces

Você pode usar VPC endpoints para acessar os streams CDC do Amazon Keyspaces. Para obter informações sobre como criar e acessar VPC endpoints para streams, consulte. Usando streams CDC do Amazon Keyspaces com endpoints de interface VPC

Como CloudWatch funciona o monitoramento com fluxos de CDC no Amazon Keyspaces

Você pode usar CloudWatch a Amazon para monitorar chamadas de API feitas para o endpoint CDC do Amazon Keyspaces. Para obter mais informações sobre as métricas disponíveis, consulteMétricas da captura de dados de alteração (CDC) do Amazon Keyspaces.

Como CloudTrail funciona o login com streams de CDC no Amazon Keyspaces

O Amazon Keyspaces CDC está integrado com AWS CloudTrail, um serviço que fornece um registro das ações realizadas por um usuário, função ou serviço AWS no Amazon Keyspaces. CloudTrail captura chamadas da API Data Definition Language (DDL) e chamadas da API Data Manipulation Language (DML) para Amazon Keyspaces como eventos. As chamadas capturadas incluem as do console do Amazon Keyspaces e as chamadas programáticas para as operações de API do Amazon Keyspaces.

Para obter mais informações sobre os eventos do CDC capturados por CloudTrail, consulteRegistro de chamadas de API do Amazon Keyspaces com AWS CloudTrail.

Como a marcação funciona para fluxos de CDC no Amazon Keyspaces

Os streams CDC do Amazon Keyspaces são um recurso etiquetável. Você pode marcar um stream ao criar uma tabela programaticamente usando o CQL, o AWS SDK ou o. AWS CLI Você também pode marcar streams existentes, excluir tags ou visualizar tags de um stream. Para obter mais informações, consulte Marque keyspaces, tabelas e streams no Amazon Keyspaces.