Arquivos de log de fluxo - Amazon Virtual Private Cloud

Arquivos de log de fluxo

O VPC Flow Logs coleta dados sobre o tráfego de IP proveniente de e que segue para a sua VPC em registros de log, agrega esses registros em arquivos de log e publica os arquivos de log no bucket do Amazon S3 em intervalos de 5 minutos. É possível haver a publicação de vários arquivos e cada arquivo de log pode conter alguns ou todos os registros de log de fluxo para o tráfego de IP registrado nos últimos 5 minutos.

No Amazon S3, o campo Last modified (Última modificação) do arquivo de log do fluxo indica a data e hora na qual o arquivo foi carregado para o bucket do Amazon S3. Isso é posterior à data/hora no nome do arquivo e difere pela quantidade de tempo necessária para carregar o arquivo para o bucket do Amazon S3.

Formato do arquivo de log

Você pode especificar um dos formatos a seguir para os arquivos de log. Cada arquivo é compactado em um único arquivo Gzip.

  • Texto: texto sem formatação. Esse é o formato padrão.

  • Parquet: Apache Parquet é um formato colunar de dados. Consultas sobre dados no formato Parquet são 10 a 100 vezes mais rápidas em comparação com consultas em dados em texto simples. Dados em formato Parquet com compressão Gzip ocupam 20% menos espaço de armazenamento do que o texto simples com compactação Gzip.

nota

Se os dados no formato Parquet com compactação Gzip forem inferiores a 100 KB por período de agregação, o armazenamento de dados no formato Parquet poderá ocupar mais espaço do que texto simples com a compactação Gzip devido aos requisitos de memória do arquivo Parquet.

Opções do arquivo de log

Opcionalmente, você pode especificar as opções a seguir.

  • Prefixos S3 compatíveis com Hive: habilite prefixos compatíveis com o Hive em vez de importar partições para as ferramentas compatíveis com o Hive. Antes de executar consultas, use o comando MSCK REPAIR TABLE.

  • Partições por hora: se você tiver um grande volume de logs e tipicamente direcionar consultas para uma hora específica, poderá obter resultados mais rápidos e economizar em custos de consulta ao particionar os logs a cada hora.

Estrutura do arquivo de log do bucket do S3

Os arquivos de log são salvos no bucket do Amazon S3 especificado por meio de uma estrutura de pastas determinada pelo ID do log de fluxo, pela região, pela data de criação e pelas opções de destino.

Por padrão, os arquivos são entregues no local a seguir.

bucket-and-optional-prefix/AWSLogs/account_id/vpcflowlogs/region/year/month/day/

Se você habilitar prefixos S3 compatíveis com HIVE, os arquivos serão entregues no local a seguir.

bucket-and-optional-prefix/AWSLogs/aws-account-id=account_id/aws-service=vpcflowlogs/aws-region=region/year=year/month=month/day=day/

Se você habilitar partições por hora, os arquivos serão entregues no local a seguir.

bucket-and-optional-prefix/AWSLogs/account_id/vpcflowlogs/region/year/month/day/hour/

Se você habilitar partições compatíveis com o Hive e particionar o log de fluxo por hora, os arquivos serão entregues no local a seguir.

bucket-and-optional-prefix/AWSLogs/aws-account-id=account_id/aws-service=vpcflowlogs/aws-region=region/year=year/month=month/day=day/hour=hour/
Nomes do arquivo de log

O nome de um arquivo de log é baseado na ID do log de fluxo, na região e na data e na hora de criação. Os nomes de arquivo usam o seguinte formato.

aws_account_id_vpcflowlogs_region_flow_log_id_YYYYMMDDTHHmmZ_hash.log.gz

Veja a seguir um exemplo de arquivo de log para um log de fluxo criado pela conta 123456789012 da AWS para um recurso na região us-east-1 em June 20, 2018 às 16:20 UTC. O arquivo contém os registros de log de fluxo com um horário de término entre 16:20:00 e 16:24:59.

123456789012_vpcflowlogs_us-east-1_fl-1234abcd_20180620T1620Z_fe123456.log.gz