Ciclo de vida do data lake - Práticas recomendadas de date lake do Amazon Connect

As traduções são geradas por tradução automática. Em caso de conflito entre o conteúdo da tradução e da versão original em inglês, a versão em inglês prevalecerá.

Ciclo de vida do data lake

A criação de um data lake normalmente envolve cinco etapas:

  • Configuração do armazenamento

  • Movimentação de dados

  • Preparação e catalogação de dados

  • Configuração de políticas de segurança

  • Disponibilização do dados para consumo

A figura a seguir é um diagrama de arquitetura de alto nível de um data lake de central de atendimento do Amazon Connect que se integra aos serviços de análise e inteligência artificial/machine learning (IA/ML) da AWS. A seção a seguir aborda os cenários e os serviços da AWS mostrados nesta figura.

Um diagrama mostrando o data lake da central de atendimento do Amazon Connect com análises e serviços de IA/ML da AWS.

Data lake da central de atendimento do Amazon Connect com análises da AWS e serviços de IA/ML

Armazenamento

O Amazon S3 é um serviço de armazenamento de objetos que oferece escalabilidade, disponibilidade de dados, segurança e performance líderes do setor. O S3 oferece 99,999999999% de durabilidade e 99,99% de disponibilidade de forma altamente consistente e armazenamento ilimitado de dados no mundo inteiro. Você pode usar a replicação entre regiões (CRR) para copiar dados em buckets do S3 em várias regiões para cumprir requisitos de conformidade regulatória e baixa latência. O S3 escala o throughput automaticamente para oferecer desempenho e eficiência operacional.

Com o Bloqueio de Acesso Público do S3 habilitado por padrão em todas as regiões do mundo, os buckets e objetos do S3 são privados. Você pode configurar controles de acesso centralizados nos recursos do S3 usando políticas de bucket, políticas AWS Identity and Access Management(IAM) e listas de controle de acesso (ACLs). Você pode avaliar e identificar qualquer bucket com acesso público usando o Access Analyzer para S3. Com prefixos e marcações de objetos, você pode gerenciar controles de acesso, nivelamento de armazenamento e regras de replicação com detalhamento em nível de objeto.

O AWS CloudTrail registra em log todas as chamadas de API no registro em log de acesso ao servidor S3. O inventário do S3 audita e relata o status de replicação e criptografia de seus dados.

O S3 Intelligent-Tiering oferece redução de custos automática ao mover dados entre níveis de acesso frequentes e infrequentes quando há alteração nos padrões de acesso, sem impacto no desempenho nem despesas operacionais. O S3 Glacier Deep Archive oferece uma redução de até 95% nos custos de armazenamento de objetos raramente acessados que exigem retenção de longo prazo.

O armazenamento de dados em formatos colunares, como Apache Parquet e Optimized Row Columnar (ORC), permite consultas mais rápidas e reduz os custos de processamento com o Amazon Athena. As opções de compressão, como o Snappy com Parquet, reduzem a necessidade de capacidade e o custo de armazenamento.

Com o S3 Select e o S3 Glacier Select, você pode consultar metadados de objetos usando a expressão de linguagem de consulta estruturada (SQL) sem mover os objetos para outro armazenamento de dados.

O recurso Operações em Lote do S3 automatiza operações em massa em objetos do S3, como atualizar metadados e propriedades de objeto, realizar tarefas de gerenciamento de armazenamento, modificar controles de acesso e restaurar objetos arquivados do S3 Glacier.

O recurso Pontos de Acesso do S3 simplifica e agrega o acesso a dados compartilhados no S3 por diferentes equipes e aplicações. Cada ponto de acesso é associado a um nome DNS exclusivo para um único bucket. Você pode criar políticas de controle de serviço (SCPs) para restringir pontos de acesso a uma Amazon Virtual Private Cloud (Amazon VPC) e isolar dados em suas redes privadas.

O recurso Aceleração de Transferências do S3 possibilita transferências de arquivos rápidas, fáceis e seguras entre o cliente e um bucket do S3 em longas distâncias.

À medida que o data lake cresce, o Lente de Armazenamento do S3 fornece visibilidade em toda a organização sobre o uso do armazenamento de objetos e as tendências de atividades com recomendações práticas para reduzir custos e despesas operacionais.

Ingestão

A AWS fornece um portfólio abrangente de serviços de transferência de dados para mover os dados existentes para um data lake centralizado. O Amazon Storage Gateway e o AWS Direct Connect podem atender às necessidades de armazenamento em nuvem híbrida. Para transferência de dados on-line, considere usar o AWS DataSync e o Amazon Kinesis. Use a Família AWS Snow para transferência de dados off-line.

  • O AWS Storage Gateway estende os ambientes on-premises para o armazenamento da AWS substituindo bibliotecas de fitas por armazenamento em nuvem, fornecendo compartilhamentos de arquivos baseados em armazenamento em nuvem ou criando um cache de baixa latência para você acessar dados na AWS em seus ambientes on-premises.

  • O AWS Direct Connect estabelece conectividade privada entre os ambientes on-premises e a AWS para reduzir os custos de rede, aumentar o throughput e fornecer uma experiência de rede consistente.

  • A AWS DataSync pode transferir milhões de arquivos para o S3, o Amazon Elastic File System (Amazon EFS) ou o Amazon FSx for Windows File Server enquanto otimiza a utilização da rede.

  • O Amazon Kinesis fornece uma maneira segura de capturar e carregar dados de streaming no S3. O Amazon Data Firehose é um serviço totalmente gerenciado para fornecer dados de streaming em tempo real diretamente para o S3. O Firehose é escalado automaticamente para corresponder ao volume e à taxa de transferência dos dados de streaming e não requer administração contínua. Você pode transformar dados de streaming usando compressão, criptografia, agrupamento de dados em lotes ou AWS Lambdafunções no Firehose antes de armazenar dados no S3. A criptografia Firehose oferece suporte à criptografia S3 do lado do servidor com (). AWS Key Management ServiceAWS KMSÉ também possível criptografar os dados com uma chave personalizada. O Firehose pode concatenar e entregar vários registros de entrada como um único objeto S3 para reduzir custos e otimizar a produtividade.

    A Família AWS Snow oferece um mecanismo de transferência de dados off-line. O AWS Snowball Edge fornece um dispositivo de computação de borda portátil e robusto para coleta, processamento e migração de dados. Para transferência de dados em escala de exabytes, você pode usar o AWS Snowmobile para mover grandes volumes de dados para a nuvem.

    DistCpfornece um recurso de cópia distribuída para mover dados no ecossistema Hadoop. O S3 DisctCp é uma extensão DistCp otimizada para mover dados entre o Hadoop Distributed File System (HDFS) e o S3. Este blog fornece informações sobre como mover dados entre o HDFS e o S3 usando o S3. DistCp

Catalogação

Um desafio comum em uma arquitetura de data lake é a falta de supervisão sobre o conteúdo dos dados brutos armazenados no data lake. As organizações precisam de governança, consistência semântica e controles de acesso para evitar as armadilhas de criar um pântano de dados sem seleção.

O AWS Lake Formation pode gerenciar a ingestão de dados por meio do AWS Glue classificando os dados e armazenando definições, esquemas e metadados de modo automático em um catálogo de dados central. O Lake Formation tem recursos integrados de machine learning para desduplicação e localização de registros correspondentes para melhorar a qualidade dos dados. Para agilizar a análise, o Lake Formation converte dados em Apache Parquet e ORC antes de armazená-los no data lake do S3. Você pode definir políticas de acesso, incluindo controles de acesso em nível de tabela e coluna, ou aplicar a criptografia de dados em repouso. Com uma imposição de segurança consistente, os usuários podem acessar e analisar um conjunto de dados organizado e centralizado usando os serviços de análise e machine learning da preferência deles.

AWS Glue DataBrew, uma ferramenta visual de preparação de dados, permite que proprietários de dados, especialistas no assunto ou usuários de todos os conjuntos de habilidades participem do processo de preparação de dados. Sem precisar escrever nenhum código, suas equipes podem escolher entre mais de 250 transformações predefinidas para automatizar as tarefas de preparação de dados, como filtragem de anomalias de dados, conversão de dados em formatos padrão e correção de valores inválidos. Os dados transformados estão prontos para projetos avançados de análise e machine learning.

Segurança

O Amazon Connect separa os dados por ID de conta da AWS e ID de instância do Amazon Connect para garantir o acesso autorizado aos dados em nível de instância do Amazon Connect.

O Amazon Connect criptografa informações de identificação pessoal (PII), dados de contato e perfis de clientes em repouso usando uma chave com tempo limitado específica para a instância do Amazon Connect. A criptografia do lado do servidor do S3 protege as gravações de voz e chat em repouso usando uma chave de dados do KMS que é exclusiva à cada conta da AWS. Você mantém total controle da segurança para configurar o acesso do usuário às gravações de chamadas no bucket do S3, como o rastreamento de quem escuta ou exclui as gravações de chamadas. O Amazon Connect criptografa as impressões de voz do cliente com uma chave do KMS de propriedade do serviço para proteger a identidade do cliente. Todos os dados trocados entre o Amazon Connect e outros serviços da AWS ou aplicações externas são sempre criptografados em trânsito usando a criptografia Transport Layer Security (TLS) padrão do setor.

A proteção de um data lake requer controles refinados para garantir o acesso e o uso autorizados dos dados. Por padrão, os recursos do S3 são privados e só podem ser acessados pelo proprietário do recurso. O proprietário do recurso pode criar uma combinação de políticas do IAM baseadas em recursos ou em identidade para conceder e gerenciar permissões para buckets e objetos do S3. Políticas baseadas em recursos, como políticas de bucket, e ACLs são anexadas aos recursos. Em contraposição, as políticas baseadas em identidade são anexadas a usuários, grupos ou perfis do IAM em sua conta da AWS.

Recomendamos políticas baseadas em identidade para a maioria dos ambientes de data lake com o objetivo de simplificar o gerenciamento de acesso a recursos e a permissão de serviços para os usuários de data lake. Você pode criar usuários, grupos e perfis do IAM em contas da AWS e associá-los a políticas baseadas em identidade que concedem acesso a recursos do S3.

O modelo de AWS Lake Formation permissão funciona em conjunto com as permissões do IAM para controlar o acesso ao data lake. O modelo de permissão do Lake Formation usa um mecanismo GRANT ou REVOKE no estilo do sistema de gerenciamento de banco de dados (DBMS). As permissões do IAM contêm políticas baseadas em identidade. Por exemplo, antes de acessar um recurso de data lake, o usuário precisa passar por verificações de permissão tanto do IAM quanto do Lake Formation.

AWS CloudTrail rastreia as chamadas da API Amazon Connect, incluindo o endereço IP e a identidade do solicitante e a data e hora da solicitação no Histórico de CloudTrail eventos. A criação de uma AWS CloudTrail trilha permite a entrega contínua de AWS CloudTrail registros para seu bucket do S3.

Os grupos de trabalho do Amazon Athena podem segmentar a execução de consultas e controlar o acesso de usuários, equipes ou aplicações usando políticas baseadas em recursos. Você pode impor o controle de custos limitando o uso de dados nos grupos de trabalho.

Monitoramento

A observabilidade é essencial para garantir a disponibilidade, a confiabilidade e o desempenho de uma central de atendimento e de um data lake. CloudWatchA Amazon fornece visibilidade em todo o sistema para utilização de recursos, desempenho de aplicativos e integridade operacional. Registre informações relevantes dos fluxos de contato do Amazon Connect para a Amazon CloudWatch e crie notificações em tempo real quando o desempenho operacional estiver abaixo dos limites predefinidos.

O Amazon Connect envia os dados de uso da instância como CloudWatch métricas da Amazon em um intervalo de um minuto. A retenção de dados para CloudWatch as métricas da Amazon é de duas semanas. Definir requisitos de retenção de logs e políticas de ciclo de vida logo no princípio garante a conformidade normativa e a redução de custos para arquivamento de dados a longo prazo.

O Amazon CloudWatch Logs fornece uma maneira simples de filtrar dados de log e identificar eventos de não conformidade para investigações de incidentes e agilizar as resoluções. É possível personalizar os fluxos de contato para detectar chamadas de alto risco ou atividades possivelmente fraudulentas. Por exemplo, você pode desconectar todos os contatos de entrada que estejam em sua lista de negação predefinida.

Analytics

Um data lake de central de atendimento criado com base em um portfólio de análises descritivas, preditivas e em tempo real ajuda você a extrair insights significativos e responder a questões de negócios essenciais.

Depois que seus dados chegarem ao data lake do S3, você poderá usar qualquer serviço de análise específico, como Amazon Athena e Amazon, QuickSight para uma ampla variedade de casos de uso sem trabalhos trabalhosos de extração, transformação e carregamento (ETL). É também possível pode levar as plataformas de análise de sua preferência para o data lake do S3. Consulte este blog para ver um passo a passo sobre a análise dos dados do Amazon Connect com o Amazon Athena AWS Glue e a Amazon. QuickSight

Para uma solução de armazenamento de dados altamente escalável, você pode habilitar o streaming de dados no Amazon Connect para transmitir registros de contato para o Amazon Redshift por meio do Amazon Kinesis.

Machine learning

A criação de data lakes representa um novo paradigma para a arquitetura de central de atendimento, capacitando a empresa a oferecer um atendimento ao cliente aprimorado e personalizado por meio de recursos de machine learning (ML).

O desenvolvimento de ML tradicional é um processo complexo e caro. Além de uma infraestrutura abrangente e especializada que oferece alto desempenho, custo-benefício e escalabilidade, a AWS fornece serviços de ML flexíveis para qualquer projeto ou workload de ML.

O Amazon SageMaker AI é um serviço totalmente gerenciado que permite que seus cientistas e desenvolvedores de dados criem, treinem e implantem modelos de ML para casos de uso de contact center em grande escala. A preparação de dados poupa em até 80% o tempo dedicado pelos cientistas de dados. O Amazon SageMaker AI Data Wrangler simplifica e acelera a preparação de dados e a engenharia de recursos de várias fontes de dados usando mais de 300 transformações de dados integradas sem escrever nenhum código. Você pode armazenar recursos padronizados na Amazon SageMaker AI Feature Store para permitir a reutilização e o compartilhamento com o resto da sua organização.

Reduzir o atrito na jornada do cliente é essencial para evitar a rotatividade de clientes. Para adicionar inteligência à central de atendimento, você pode criar chatbots conversacionais habilitados por IA usando os recursos de reconhecimento automático de fala (ASR) e compreensão de linguagem natural (NLU) do Amazon Lex. Os clientes podem realizar tarefas de autoatendimento, como redefinição de senha, verificação do saldo da conta e agendamento de compromissos por meio de chatbots, sem falar com atendentes humanos. Para automatizar as perguntas frequentes (FAQs) do contact center, você pode criar um chatbot de perguntas e respostas (Q&A) com o Amazon Lex e o Amazon Kendra. Habilitar o registro de texto no Amazon CloudWatch Logs e salvar entradas de áudio no S3 permite que você analise o fluxo da conversa, melhore o design da conversa e aumente o engajamento do usuário.

Compreender a dinâmica entre chamador e atendente é essencial para melhorar a qualidade geral do serviço. Consulte este blog sobre como transmitir gravações de voz para o Amazon Transcribe por meio do Kinesis Video Streams para reconhecimento de fala, bem como transformar áudio em texto e executar análises de sentimentos nas transcrições usando o Amazon Comprehend.

Para organizações com presença internacional, você pode criar uma experiência de voz multilíngue no Amazon Connect usando o Amazon Polly ou o Amazon Translate para tradução de idiomas.

O software tradicional de planejamento financeiro cria previsões com base em dados históricos de séries temporais sem correlacionar tendências inconsistentes e variáveis relevantes. O Amazon Forecast fornece uma precisão até 50% maior usando machine learning para descobrir a relação subjacente entre dados de séries temporais e outras variáveis, como recursos dos produtos e localização das lojas. Você pode criar facilmente uma previsão de demanda ou inventário de atendentes fornecendo dados de séries temporais e dados correspondentes no bucket do S3 para o Amazon Forecast, sem precisar de experiência em machine learning. Você pode criptografar conteúdo confidencial usando AWS KMS e controlar o acesso ao Amazon Forecast usando a política do IAM. O Amazon Forecast treina e hospeda um modelo personalizado de machine learning em um ambiente altamente disponível. Você pode gerar rapidamente previsões de negócios altamente precisas sem gerenciar nenhuma infraestrutura ou processo complexo de machine learning.

O Amazon Connect fornece recursos de chamada de operadoras de telefonia, como a localização geográfica do equipamento de voz para mostrar a origem da chamada, tipos de dispositivos telefônicos (por exemplo, telefone fixo ou móvel), número de segmentos de rede percorridos pela chamada e outras informações de origem das chamadas. Usando o Amazon Fraud Detector totalmente gerenciado, você pode criar um modelo de ML para identificar atividades possivelmente fraudulentas combinando seus conjuntos de dados com os recursos de chamada do Amazon Connect. Por exemplo, você pode personalizar o fluxo de contato para encaminhar de forma inteligente chamadas telefônicas com possíveis sinais de fraude para um atendente especializado.