História e design de Trino - Amazon EMR

As traduções são geradas por tradução automática. Em caso de conflito entre o conteúdo da tradução e da versão original em inglês, a versão em inglês prevalecerá.

História e design de Trino

A Trino é especializada em consultar grandes conjuntos de dados de várias fontes diferentes. O Trino pode acessar e consultar o HDFS em um caso de uso tradicional de big data, mas também pode consultar fontes adicionais, como bancos de dados relacionais e bancos de dados NoSQL. O Trino começou originalmente como um fork do mecanismo de consulta Presto, em 2019. Desde então, ele foi desenvolvido independentemente da base de código do Presto.

Para obter mais informações sobre o mecanismo de consulta Trino e como ele é usado, consulte o site do Trino. Para ler a documentação do código-fonte do Trino, consulte Visão geral do Trino.

Conceitos arquitetônicos

O Trino pode executar consultas rápidas e eficientes porque processa dados paralelamente em um cluster. Ele foi projetado pensando na consulta de um data lake, pois é especializado em consultas em grandes volumes de dados, normalmente em casos de uso envolvendo Hadoop e HDFS. Mas também pode consultar bancos de dados relacionais tradicionais. Para obter mais informações, consulte Arquitetura na documentação do Trino.

Componentes do Trino

O Trino tem alguns componentes principais de arquitetura que funcionam juntos para agilizar a execução das consultas. É útil ter um conhecimento prático deles quando você ajusta seu cluster para obter um melhor desempenho:

  • O coordenador é responsável pela orquestração de consultas. Ele analisa e otimiza as consultas SQL recebidas, gera planos de execução, atribui tarefas aos nós de trabalho e coleta e monta os resultados da consulta. Além disso, ele monitora o uso de recursos e rastreia o status dos nós de trabalho. Para obter mais informações, consulte Coordenador na documentação do Trino.

  • Os nós de trabalho lidam com o processamento de dados para consultas. Depois que o coordenador atribui tarefas, os trabalhadores recuperam dados, realizam as operações necessárias, como uniões e agregações, e trocam dados intermediários com outros trabalhadores. Para obter mais informações, consulte Worker na documentação do Trino.

  • Os conectores são plug-ins que permitem que o Trino se conecte e consulte várias fontes de dados. Cada conector sabe como acessar e recuperar dados de sua fonte, como Amazon S3, Apache Hive ou bancos de dados relacionais. Esses conectores mapeiam os dados de origem para a estrutura do esquema de Trino.

  • Um catálogo é uma coleção lógica de esquemas e tabelas associados a um conector específico. Definidos no coordenador, os catálogos permitem que o Trino trate diferentes fontes de dados como um único namespace. Isso faz com que os usuários possam consultar várias fontes juntas, como Hive e MySQL, de forma unificada na mesma consulta.

  • Clientes como o Trino CLI se conectam por meio de drivers JDBC e ODBC ao coordenador do Trino para enviar consultas SQL. O coordenador gerencia o ciclo de vida da consulta, fornecendo resultados ao cliente para análises ou relatórios adicionais.

Executar consultas

Para entender como o Trino pega instruções SQL e as executa como consultas, consulte Conceitos do Trino na documentação do Trino.