Definir configurações avançadas e de backup - Amazon Data Firehose

A entrega de streams do Amazon Data Firehose para tabelas Apache Iceberg no Amazon S3 está em versão prévia e está sujeita a alterações.

As traduções são geradas por tradução automática. Em caso de conflito entre o conteúdo da tradução e da versão original em inglês, a versão em inglês prevalecerá.

Definir configurações avançadas e de backup

Esta seção descreve como definir o backup e as configurações avançadas para seu stream do Firehose a partir do console.

Definir configurações de backup

O Amazon Data Firehose usa o Amazon S3 para fazer backup de todos os dados ou somente os dados falhados que ele tenta entregar ao destino escolhido.

Importante
  • As configurações de backup só são suportadas se a origem do seu stream do Firehose for Direct PUT ou Kinesis Data Streams.

  • O recurso de buffer zero está disponível somente para os destinos do aplicativo e não está disponível para o destino de backup do Amazon S3.

Você pode especificar as configurações de backup do S3 para seu stream do Firehose se tiver feito uma das seguintes opções.

  • Se você definir o Amazon S3 como destino para seu stream do Firehose e optar por especificar uma função AWS Lambda para transformar registros de dados ou se optar por converter formatos de registro de dados para seu stream do Firehose.

  • Se você definir o Amazon Redshift como destino para seu stream do Firehose e optar por especificar uma função AWS Lambda para transformar registros de dados.

  • Se você definir qualquer um dos seguintes serviços como destino para seu stream do Firehose — Amazon OpenSearch Service, Datadog, Dynatrace, Endpoint, LogicMonitor MongoDB Cloud, New Relic, HTTP Splunk ou Sumo Logic, Snowflake, Apache Iceberg Tables.

A seguir estão as configurações de backup do seu stream do Firehose.

  • Backup do registro de origem no Amazon S3: se o S3 ou o Amazon Redshift for o destino selecionado, essa configuração indicará se você deseja habilitar o backup dos dados da fonte ou mantê-lo desabilitado. Se qualquer outro serviço compatível (exceto o S3 ou o Amazon Redshift) estiver definido como seu destino selecionado, essa configuração indicará se você deseja fazer backup de todos os dados da fonte ou apenas dos dados com falha.

  • Bucket de backup S3 - este é o bucket S3 em que o Amazon Data Firehose faz backup de seus dados.

  • Prefixo do bucket de backup S3 - esse é o prefixo em que o Amazon Data Firehose faz backup de seus dados.

  • Prefixo da saída de erros do bucket de backup do S3: todos os dados com falha são copiados nesse prefixo da saída de erros do bucket do S3.

  • Dicas de armazenamento em buffer, compactação e criptografia para backup — o Amazon Data Firehose usa o Amazon S3 para fazer backup de todos os dados ou somente os dados falhados que tenta entregar ao destino escolhido. O Amazon Data Firehose armazena em buffer os dados recebidos antes de entregá-los (fazer backup) para o Amazon S3. Você pode escolher um tamanho de buffer de 1 a 128 MiBs e um intervalo de buffer de 60 a 900 segundos. A condição que é satisfeita primeiro aciona a entrega de dados ao Amazon S3. Se você habilitar a transformação de dados, o intervalo de buffer se aplica desde o momento em que os dados transformados são recebidos pelo Amazon Data Firehose até a entrega dos dados para o Amazon S3. Se a entrega de dados para o destino ficar aquém da gravação de dados no stream do Firehose, o Amazon Data Firehose aumentará o tamanho do buffer dinamicamente para recuperá-lo. Essa ação ajuda a garantir que todos os dados sejam entregues no destino.

  • Compressão S3 - escolha GZIP compressão de dados Snappy, Zip ou Snappy compatível com Hadoop, ou nenhuma compressão de dados. A compactação Snappy compatível com Snappy, Zip e Hadoop não está disponível para o stream do Firehose com o Amazon Redshift como destino.

  • Formato de extensão de arquivo S3 (opcional) — Especifique um formato de extensão de arquivo para objetos entregues ao bucket de destino do Amazon S3. Se você habilitar esse recurso, a extensão de arquivo especificada substituirá as extensões de arquivo padrão anexadas pelos recursos de conversão de formato de dados ou compactação do S3, como .parquet ou .gz. Verifique se você configurou a extensão de arquivo correta ao usar esse recurso com a conversão de formato de dados ou a compactação S3. A extensão do arquivo deve começar com um ponto (.) e pode conter caracteres permitidos: 0-9a-z! -_.*' (). A extensão do arquivo não pode exceder 128 caracteres.

  • O Firehose oferece suporte à criptografia do lado do servidor do Amazon S3 AWS Key Management Service com SSE (KMS-) para criptografar dados entregues no Amazon S3. Você pode optar por usar o tipo de criptografia padrão especificado no bucket S3 de destino ou criptografar com uma chave da lista de AWS KMS chaves que você possui. Se você criptografar os dados com AWS KMS chaves, poderá usar a chave AWS gerenciada padrão (aws/s3) ou uma chave gerenciada pelo cliente. Para obter mais informações, consulte Proteção de dados usando criptografia do lado do servidor com chaves AWS KMS gerenciadas (-). SSE KMS

Definir as configurações avançadas

A seção a seguir contém detalhes sobre as configurações avançadas do seu stream do Firehose.

  • Criptografia do lado do servidor - O Amazon Data Firehose oferece suporte à criptografia do lado do servidor do Amazon S3 AWS com o Key Management Service ()AWS KMS para criptografar dados entregues no Amazon S3. Para obter mais informações, consulte Proteção de dados usando criptografia do lado do servidor com AWS KMS —Managed Keys (-). SSE KMS

  • Registro de erros - o Amazon Data Firehose registra erros relacionados ao processamento e à entrega. Além disso, quando a transformação de dados está ativada, ela pode registrar invocações do Lambda e enviar erros de entrega de dados para o Logs. CloudWatch Para obter mais informações, consulte Monitoramento do Amazon Data Firehose usando CloudWatch registros.

    Importante

    Embora opcional, é altamente recomendável ativar o registro de erros do Amazon Data Firehose durante a criação do stream do Firehose. Essa prática garante que você possa acessar os detalhes do erro em caso de falhas no processamento de registros ou na entrega.

  • Permissões - O Amazon Data Firehose usa IAM funções para todas as permissões que o stream do Firehose precisa. Você pode escolher criar uma nova função na qual as permissões necessárias são atribuídas automaticamente ou escolher uma função existente criada para o Amazon Data Firehose. A função é usada para conceder ao Firehose acesso a vários serviços, incluindo seu bucket do S3, AWS KMS chave (se a criptografia de dados estiver ativada) e função Lambda (se a transformação de dados estiver ativada). O console talvez crie um perfil com espaços reservados. Para obter mais informações, consulte O que éIAM? .

  • Tags - Você pode adicionar tags para organizar seus AWS recursos, monitorar custos e controlar o acesso.

    Se você especificar tags na CreateDeliveryStream ação, o Amazon Data Firehose executará uma autorização adicional na firehose:TagDeliveryStream ação para verificar se os usuários têm permissão para criar tags. Se você não fornecer essa permissão, as solicitações para criar novos streams do Firehose com tags de IAM recursos falharão com as seguintes AccessDeniedException opções.

    AccessDeniedException User: arn:aws:sts::x:assumed-role/x/x is not authorized to perform: firehose:TagDeliveryStream on resource: arn:aws:firehose:us-east-1:x:deliverystream/x with an explicit deny in an identity-based policy.

    O exemplo a seguir demonstra uma política que permite aos usuários criar um stream do Firehose e aplicar tags.

    { "Version": "2012-10-17", "Statement": [ { "Effect": "Allow", "Action": "firehose:CreateDeliveryStream", "Resource": "*", } }, { "Effect": "Allow", "Action": "firehose:TagDeliveryStream", "Resource": "*", } } ] }

Depois de escolher suas configurações avançadas e de backup, revise suas escolhas e escolha Create Firehose stream.

O novo stream do Firehose leva alguns instantes no estado Creating antes de ser disponibilizado. Depois que seu stream do Firehose estiver em um estado ativo, você poderá começar a enviar dados do seu produtor para ele.