As traduções são geradas por tradução automática. Em caso de conflito entre o conteúdo da tradução e da versão original em inglês, a versão em inglês prevalecerá.
Engenharia de dados
Automatize e orquestre fluxos de dados em toda a sua organização.
Use metadados para automatizar pipelines
Início
Implemente um data lake
Estabeleça recursos básicos de armazenamento de dados usando soluções de armazenamento adequadas para dados estruturados e não estruturados. Isso permite que você colete e armazene dados de várias fontes e os torna acessíveis para processamento e análise adicionais. O armazenamento de dados é um componente essencial de uma estratégia de engenharia de dados. Uma arquitetura de armazenamento de dados bem projetada permite que as organizações armazenem, gerenciem e acessem seus dados de forma eficiente e econômica. AWS oferece uma variedade de serviços de armazenamento de dados para atender às necessidades específicas dos negócios.
Por exemplo, você pode estabelecer recursos básicos de armazenamento de dados usando o Amazon Simple Storage Service (Amazon S3) para armazenamento de objetos, o Amazon Relational Database Service (Amazon RDS)para bancos de dados relacionais e o Amazon Redshift para armazenamento de dados. Esses serviços ajudam você a armazenar dados de forma segura e econômica, além de torná-los facilmente acessíveis para processamento e análise adicionais. Recomendamos que você também implemente as melhores práticas de armazenamento de dados, como particionamento e compactação de dados, para melhorar o desempenho e reduzir custos.
Desenvolva padrões de ingestão de dados
Para automatizar e orquestrar fluxos de dados, estabeleça processos de ingestão de dados para coletar dados de diversas fontes, incluindo bancos de dados, arquivos e. APIs Seus processos de ingestão de dados devem apoiar a agilidade dos negócios e levar em consideração os controles de governança.
O orquestrador deve ser capaz de executar serviços baseados em nuvem e fornecer um mecanismo de agendamento automatizado. Ele deve oferecer opções para links condicionais e dependências entre tarefas, além de recursos de pesquisa e tratamento de erros. Além disso, ele deve se integrar perfeitamente aos sistemas de alerta e monitoramento para garantir que os dutos funcionem sem problemas.
Alguns mecanismos de orquestração populares incluem:
-
A orquestração baseada em tempo inicia um fluxo de trabalho em um intervalo recursivo e em uma frequência definida.
-
A orquestração baseada em eventos inicia um fluxo de trabalho com base na ocorrência de um evento, como a criação de um arquivo ou uma solicitação de API.
-
A pesquisa implementa um mecanismo no qual uma tarefa ou fluxo de trabalho chama um serviço (por exemplo, por meio de uma API) e espera por uma resposta definida antes de prosseguir para a próxima etapa.
O design da arquitetura moderna enfatiza o aproveitamento dos serviços gerenciados que simplificam o gerenciamento da infraestrutura na nuvem e reduzem a carga sobre os desenvolvedores e as equipes de infraestrutura. Essa abordagem também se aplica à engenharia de dados. Recomendamos que você use serviços gerenciados, quando aplicável, para criar pipelines de ingestão de dados para acelerar seus processos de engenharia de dados. Dois exemplos desses tipos de serviços são Amazon Managed Workflows for Apache Airflow (Amazon MWAA) e: AWS Step Functions
-
O Apache Airflow é uma ferramenta de orquestração popular para criar, programar e monitorar fluxos de trabalho de forma programática. AWS oferece o Amazon Managed Workflows for Apache Airflow (Amazon MWAA) como um serviço gerenciado que permite que os desenvolvedores se concentrem na criação, em vez de gerenciar, a infraestrutura da ferramenta de orquestração. O Amazon MWAA facilita a criação de fluxos de trabalho usando scripts Python. Um gráfico acíclico direcionado (DAG) representa um fluxo de trabalho como uma coleção de tarefas de uma forma que mostra as relações e dependências de cada tarefa. Você pode ter DAGs quantas quiser, e o Apache Airflow as executará de acordo com os relacionamentos e dependências de cada tarefa.
-
AWS Step Functionsajuda os desenvolvedores a criar um fluxo de trabalho visual de baixo código para automatizar os processos de TI e de negócios. Os fluxos de trabalho que você cria com Step Functions são chamados de máquinas de estado, e cada etapa do seu fluxo de trabalho é chamada de estado. Você pode usar o Step Functions para criar fluxos de trabalho para tratamento de erros incorporado, passagem de parâmetros, configurações de segurança recomendadas e gerenciamento de estado. Isso reduz a quantidade de código que você precisa escrever e manter. As tarefas executam o trabalho em coordenação com outro AWS serviço ou aplicativo que você hospeda localmente ou em um ambiente de nuvem.
Acelere o processamento de dados
O processamento de dados é uma etapa crucial para entender as grandes quantidades de dados coletados pelas organizações modernas. Para começar com o processamento de dados, AWS oferece serviços gerenciados AWS Glue, como o, que fornece recursos poderosos de extração, transformação e carregamento (ETL). As organizações podem usar esses serviços para começar a processar e transformar dados brutos, incluindo limpeza, normalização e agregação de dados para prepará-los para análise.
O processamento de dados começa com técnicas simples, como agregação e filtragem, para realizar as transformações iniciais dos dados. À medida que as necessidades de processamento de dados evoluem, você pode implementar processos ETL mais avançados que permitem extrair dados de várias fontes, transformá-los para atender às suas necessidades específicas e carregá-los em um data warehouse ou banco de dados centralizado para análise unificada. Essa abordagem garante que os dados sejam precisos, completos e estejam disponíveis para análise em tempo hábil.
Ao usar serviços AWS gerenciados para processamento de dados, as organizações podem se beneficiar de um nível mais alto de automação, escalabilidade e economia. Esses serviços automatizam muitas tarefas rotineiras de processamento de dados, como descoberta de esquemas, criação de perfil de dados e transformação de dados, além de liberar recursos valiosos para atividades mais estratégicas. Além disso, esses serviços são escalados automaticamente para suportar volumes crescentes de dados.
Forneça serviços de visualização de dados
Encontre maneiras de disponibilizar dados para tomadores de decisão que usam a visualização de dados para interpretar dados de forma significativa e rápida. Por meio de visualizações, você pode interpretar padrões e aumentar o engajamento de um conjunto diversificado de partes interessadas, independentemente de suas habilidades técnicas. Uma boa plataforma permite que as equipes de engenharia de dados provisionem recursos que fornecem visualização de dados rapidamente e com pouca sobrecarga. Você também pode fornecer recursos de autoatendimento usando ferramentas que podem consultar facilmente armazenamentos de dados sem a necessidade de experiência em engenharia. Considere o uso de ferramentas integradas que possam fornecer inteligência comercial sem servidor por meio de recursos visuais de dados e painéis interativos, e que possam usar linguagem natural para consultar dados de back-end.
Avançar
Implemente o processamento de dados quase em tempo real
O processamento de dados é um componente essencial de qualquer pipeline de engenharia de dados, o que permite que as organizações transformem dados brutos em insights significativos. Além do processamento em lote tradicional, o processamento de dados em tempo real tornou-se cada vez mais importante no ambiente de negócios acelerado de hoje. O processamento de dados em tempo real permite que as organizações respondam aos eventos à medida que eles ocorrem e melhora a tomada de decisões e a eficiência operacional.
Valide a qualidade dos dados
A qualidade dos dados afeta diretamente a precisão e a confiabilidade dos insights e decisões derivados dos dados. A implementação de processos de validação e limpeza de dados é essencial para garantir que você use dados confiáveis e de alta qualidade para análise.
A validação de dados envolve a verificação da precisão, integridade e consistência dos dados, comparando-os com regras e critérios predefinidos. Isso ajuda a identificar quaisquer discrepâncias ou erros nos dados e garante que eles sejam adequados à finalidade. A limpeza de dados envolve a identificação e correção de quaisquer imprecisões, inconsistências ou duplicações nos dados.
Ao implementar processos e ferramentas de qualidade de dados, as organizações podem melhorar a precisão e a confiabilidade dos insights derivados dos dados, resultando em melhor tomada de decisão e eficiência operacional. Isso não apenas melhora o desempenho da organização, mas também aumenta a confiança das partes interessadas nos dados e nas análises produzidas.
Prove os serviços de transformação de dados
A transformação de dados prepara os dados para modelos avançados de análise e aprendizado de máquina. Ela envolve o uso de técnicas como normalização, enriquecimento e desduplicação de dados para garantir que os dados estejam limpos, consistentes e prontos para análise.
-
A normalização de dados envolve organizar os dados em um formato padrão, eliminar redundâncias e garantir que os dados sejam consistentes em diferentes fontes. Isso facilita a análise e a comparação de dados de várias fontes e permite que as organizações obtenham uma compreensão mais abrangente de suas operações.
-
O enriquecimento de dados envolve o aprimoramento dos dados existentes com informações adicionais de fontes externas, como dados demográficos ou tendências de mercado. Isso fornece informações valiosas sobre o comportamento do cliente ou as tendências do setor que podem não ser evidentes apenas nas fontes de dados internas.
-
A desduplicação envolve identificar e remover entradas de dados duplicadas e garantir que os dados sejam precisos e livres de erros. Isso é especialmente importante ao lidar com grandes conjuntos de dados, nos quais até mesmo uma pequena porcentagem de duplicação pode distorcer os resultados da análise.
Ao usar técnicas avançadas de transformação de dados, as organizações garantem que seus dados sejam de alta qualidade, precisos e prontos para análises mais complexas. Isso leva a uma melhor tomada de decisão, maior eficiência operacional e uma vantagem competitiva no mercado.
Permita a democratização dos dados
Promova uma cultura de democratização de dados, tornando os dados acessíveis, compreensíveis e utilizáveis para todos os funcionários. A democratização de dados ajuda os funcionários a tomar decisões baseadas em dados e contribui para a cultura orientada por dados da organização. Isso significa romper os silos e criar uma cultura em que os dados sejam compartilhados e usados por todos os funcionários para impulsionar a tomada de decisões.
No geral, a democratização dos dados consiste em criar uma cultura em que os dados sejam valorizados, acessíveis e compreensíveis por todos na organização. Ao permitir a democratização dos dados, as organizações promovem uma cultura baseada em dados que impulsiona a inovação, melhora a tomada de decisões e, por fim, leva ao sucesso dos negócios.
Excel
Forneça orquestração baseada em UI
Para criar organizações que sejam ágeis e usem abordagens eficazes, é importante planejar uma plataforma de orquestração moderna que seja usada por recursos de desenvolvimento e operações em todas as linhas de negócios. O objetivo é desenvolver, implantar e compartilhar fluxos de trabalho e pipelines de dados sem depender de uma única equipe, tecnologia ou modelo de suporte. Isso é obtido por meio de recursos como orquestração baseada em interface de usuário. Recursos como drag-and-drop interação permitem que usuários com pouco conhecimento técnico construam DAGs e declarem fluxos de dados de máquinas. Esses componentes podem então gerar código executável que orquestra pipelines de dados.
DataOps ajuda a superar as complexidades do gerenciamento de dados e garante um fluxo de dados contínuo em todas as organizações. Uma abordagem baseada em metadados garante a qualidade e a conformidade dos dados de acordo com as exigências da sua organização. O investimento em conjuntos de ferramentas como microsserviços, conteinerização e funções sem servidor melhora a escalabilidade e a agilidade.
Confiar nas equipes de engenharia de dados para gerar valor a partir dos dados e deixar as tarefas de day-to-day infraestrutura para a automação permite que as organizações alcancem a excelência em automação e orquestração. O monitoramento e o registro quase em tempo real das tarefas de gerenciamento do fluxo de dados apoiam ações imediatas de remediação e melhoram o desempenho e a segurança do pipeline de fluxo de dados. Esses princípios ajudam a alcançar escalabilidade e desempenho, ao mesmo tempo em que garantem um modelo seguro de compartilhamento de dados e preparam as organizações para o sucesso no futuro.
Integrar DataOps
DataOps é uma abordagem moderna à engenharia de dados que enfatiza a integração dos processos de desenvolvimento e operações para agilizar a criação, o teste e a implantação do pipeline de dados. Para implementar as DataOps melhores práticas, as organizações usam infraestrutura como código (IaC) e ferramentas de integração contínua e entrega contínua (CI/CD). Essas ferramentas oferecem suporte à criação, teste e implantação automatizados de pipelines, o que melhora significativamente a eficiência e reduz os erros. DataOps as equipes trabalham com equipes de capacitação de engenharia de plataforma para criar essas automações, para que cada equipe possa se concentrar no que faz de melhor.
A implementação de DataOps metodologias ajuda a promover um ambiente colaborativo para engenheiros de dados, cientistas de dados e usuários corporativos, além de permitir o rápido desenvolvimento, implantação e monitoramento de pipelines de dados e soluções de análise. Essa abordagem fornece comunicação e colaboração mais perfeitas entre as equipes, o que leva a uma inovação mais rápida e melhores resultados.
Para aproveitar ao máximo os benefícios do DataOps, é importante simplificar os processos de engenharia de dados. Isso é obtido usando as melhores práticas das equipes de engenharia da plataforma, incluindo revisão de código, integração contínua e testes automatizados. Ao implementar essas práticas, as organizações garantem que os pipelines de dados sejam confiáveis, escaláveis e seguros e que atendam às necessidades das partes interessadas comerciais e técnicas.