如何處理壓縮檔案 - Amazon EMR

如何處理壓縮檔案

Hadoop 會檢查副檔名以偵測壓縮檔案。Hadoop 支援的壓縮類型為:gzip、bzip2 和 LZO。您不需要採取任何額外的動作來擷取使用這些壓縮類型的檔案;Hadoop 會為您處理。

若要為 LZO 檔案建立索引,您可以使用 hadoop-lzo 資料庫,您可從 https://github.com/kevinweil/hadoop-lzo 下載。請注意,因為這是第三方程式庫,Amazon EMR 不提供如何使用此工具的開發人員支援。如需使用資訊,請參閱 hadoop-lzo 讀我檔。