流量日誌檔 - Amazon Virtual Private Cloud

本文為英文版的機器翻譯版本,如內容有任何歧義或不一致之處,概以英文版為準。

流量日誌檔

VPC Flow Logs 會收集進出您 的 IP 流量資料VPC,將這些記錄彙總為日誌檔案,然後每隔 5 分鐘將日誌檔案發佈至 Amazon S3 儲存貯體。可能會發佈多個檔案,每個日誌檔案可能包含先前 5 分鐘內記錄的 IP 流量的部分或全部流程日誌記錄。

在 Amazon S3 中,流量日誌檔案的上次修改欄位指出檔案上傳至 Amazon S3 儲存貯體的日期和時間。這個時間晚於檔案名稱中的時間戳記,並且會因檔案上傳至 Amazon S3 儲存貯體所花費的時間而有所不同。

日誌檔案格式

可為日誌檔案指定下列其中一種格式。每個檔案都會壓縮到單一 Gzip 檔案中。

  • Text – 純文字。此為預設格式。

  • Parquet – Apache Parquet 是一種單欄資料格式。與純文字的資料查詢相比,Parquet 格式的資料查詢速度快 10 到 100 倍。採用 Gzip 壓縮的 Parquet 格式的資料佔用的儲存空間比使用 Gzip 壓縮的純文字要少 20%。

注意

如果每個彙總期間採用 Gzip 壓縮的 Parquet 格式之資料小於 100 KB,由於採用 Parquet 檔案記憶體的要求,採用 Parquet 格式儲存的資料可能會比 Gzip 壓縮的純文字檔案佔用更多的空間。

日誌檔案選項

您可以選擇指定下列項目。

  • Hive 兼容的 S3 前綴 – 啟用 Hive 相容的前置詞,而不是將分割區匯入 Hive 相容的工具。在執行查詢之前,請使用 MSCK REPAIR TABLE 命令。

  • 每小時分割 – 如果您有大量的日誌,而且通常針對特定小時進行查詢,則透過每小時分割日誌,可獲得更快的結果並節省查詢成本。

日誌檔案 S3 儲存貯體結構

使用基於流量日誌的 ID、區域、建立日期以及目標選項的資料夾架構,將日誌檔案儲存至指定的 Amazon S3 儲存貯體。

根據預設,檔案會傳遞至下列位置。

bucket-and-optional-prefix/AWSLogs/account_id/vpcflowlogs/region/year/month/day/

如果您啟用 Hive 相容的 S3 字首,檔案會傳遞至下列位置。

bucket-and-optional-prefix/AWSLogs/aws-account-id=account_id/aws-service=vpcflowlogs/aws-region=region/year=year/month=month/day=day/

如果您啟用每小時分割,檔案會傳遞到下列位置。

bucket-and-optional-prefix/AWSLogs/account_id/vpcflowlogs/region/year/month/day/hour/

如果您啟用 Hive 相容的分割,並且每小時分割流量日誌,檔案會傳遞至下列位置。

bucket-and-optional-prefix/AWSLogs/aws-account-id=account_id/aws-service=vpcflowlogs/aws-region=region/year=year/month=month/day=day/hour=hour/
日誌檔案名稱

日誌檔案的檔案名稱以流量日誌 ID、區域以及建立日期和時間為基礎。檔案名稱使用下列格式。

aws_account_id_vpcflowlogs_region_flow_log_id_YYYYMMDDTHHmmZ_hash.log.gz

以下是帳戶所 AWS 建立之流程日誌的日誌檔案範例 123456789012,針對 中的資源 us-east-1 區域,開啟 June 20, 2018 at 16:20 UTC。 檔案包含流程日誌記錄,結束時間介於 16:20:00 以及 16:24:59.

123456789012_vpcflowlogs_us-east-1_fl-1234abcd_20180620T1620Z_fe123456.log.gz