흐름 로그 파일
VPC Flow Logs는 VPC에서 들어오고 나가는 IP 트래픽에 대한 데이터를 로그 레코드로 수집하고 해당 레코드를 로그 파일로 집계한 다음 5분 간격으로 Amazon S3 버킷에 로그 파일을 게시합니다. 여러 파일이 게시될 수 있으며 각 로그 파일에는 이전 5분 동안 기록된 IP 트래픽에 대한 흐름 로그 레코드의 일부 또는 전체가 포함될 수 있습니다.
Amazon S3에서 흐름 로그 파일의 마지막 수정(Last modified) 필드는 파일이 Amazon S3 버킷에 업로드된 날짜와 시간을 나타냅니다. 파일 이름의 타임스탬프보다 이후이며 파일을 Amazon S3 버킷에 업로드하는 데 걸리는 시간에 따라 다릅니다.
로그 파일 형식
로그 파일에 대해 다음 형식 중 하나를 지정할 수 있습니다. 각 파일은 단일 Gzip 파일로 압축됩니다.
-
텍스트(Text) – 일반 텍스트. 이것은 기본 형식입니다.
-
Parquet – Apache Parquet은 열 기반 데이터 형식입니다. Parquet 형식의 데이터에 대한 쿼리는 일반 텍스트 데이터에 대한 쿼리에 비해 10배에서 100배 빠릅니다. Gzip 압축을 사용하는 Parquet 형식 데이터는 Gzip 압축을 사용하는 일반 텍스트보다 스토리지 공간을 20% 적게 사용합니다.
참고
Gzip 압축을 사용하는 Parquet 형식 데이터가 집계 기간별로 100KB 미만이라면 데이터를 Parquet 형식으로 저장할 경우 Parquet 파일 메모리 요구 사항으로 인해 Gzip 압축을 사용하는 일반 텍스트보다 더 많은 공간을 차지할 수 있습니다.
로그 파일 옵션
필요한 경우 다음과 같은 옵션을 지정할 수 있습니다.
-
Hive 호환 S3 접두사 – 분할을 Hive 호환 도구로 가져오는 대신 Hive 호환 접두사를 활성화합니다. 쿼리 실행 전에 MSCK REPAIR TABLE 명령을 사용합니다.
-
시간당 분할 – 대량의 로그가 있고 일반적으로 특정 시간까지 쿼리를 타겟팅하는 경우 로그를 시간별로 분할하여 더 결과를 빠르게 얻고 쿼리 비용을 절감할 수 있습니다.
로그 파일 S3 버킷 구조
로그 파일은 흐름 로그의 ID, 리전, 생성된 날짜 및 대상 옵션에 따라 폴더 구조를 사용하여 지정된 Amazon S3 버킷에 저장됩니다.
기본적으로 파일은 다음 위치로 전달됩니다.
bucket-and-optional-prefix
/AWSLogs/account_id
/vpcflowlogs/region
/year
/month
/day
/
Hive 호환 S3 접두사를 사용하도록 설정하면 파일이 다음 위치로 전달됩니다.
bucket-and-optional-prefix
/AWSLogs/aws-account-id=account_id
/aws-service=vpcflowlogs/aws-region=region
/year=year
/month=month
/day=day
/
시간별 분할을 사용하도록 설정하면 파일이 다음 위치로 전달됩니다.
bucket-and-optional-prefix
/AWSLogs/account_id
/vpcflowlogs/region
/year
/month
/day
/hour
/
Hive 호환 분할을 사용하도록 설정하고 시간당 흐름 로그를 분할하면 파일이 다음 위치로 전달됩니다.
bucket-and-optional-prefix
/AWSLogs/aws-account-id=account_id
/aws-service=vpcflowlogs/aws-region=region
/year=year
/month=month
/day=day
/hour=hour
/
로그 파일 이름
로그 파일의 파일 이름은 흐름 로그 ID, 리전 및 생성 날짜 및 시간을 기반으로 합니다. 파일 이름은 다음 형식을 사용합니다.
aws_account_id
_vpcflowlogs_region
_flow_log_id
_YYYYMMDD
THHmm
Z_hash
.log.gz
예를 들어, 다음은 June 20, 2018, 16:20 UTC에 us-east-1 리전의 리소스에 대해 AWS 계정 123456789012에서 생성한 흐름 로그에 대한 로그 파일의 예를 보여 줍니다. 종료 시간이 16:20:00에서 16:24:59 사이인 흐름 로그 레코드가 파일에 포함됩니다.
123456789012_vpcflowlogs_us-east-1_fl-1234abcd_20180620T1620Z_fe123456.log.gz