Amazon S3 data lake architecture Data organization and partitioning Integration with AWS analytics and ML services Security and governance

Amazon S3 data lakes for the lakehouse architecture of Amazon SageMaker

Amazon S3 serves as the foundational storage layer for your lakehouse architecture, providing unified access to data across Amazon S3 data lakes, Amazon S3 Tables, and Amazon Redshift data warehouses. This unified architecture enables you to build analytics and machine learning applications on a single copy of data, without data movement or duplication. You can also connect to federated data sources such as DynamoDB, Google BigQuery, and Snowflake.

With Amazon S3 Tables integration, you get built-in Apache Iceberg support, making it the first cloud object store optimized for analytics workloads. This enables you to store structured, semi-structured, and unstructured data at any scale while maintaining high availability, security, and query performance.

Amazon S3 data lake architecture

Amazon S3-based data lakes in lakehouse architecture provide unified access to data through:

Raw data zone - Store ingested data in its original format for long-term retention and compliance
Processed data zone - Store cleaned, transformed, and enriched data optimized for analytics
Curated data zone - Store business-ready datasets organized for specific use cases and consumption
Metadata catalog - AWS Glue Data Catalog and Amazon SageMaker Unified Studio catalog provide unified metadata management and data discovery

Data organization and partitioning

Effective data organization in Amazon S3 improves query performance and reduces costs:

Hierarchical structure - Organize data using logical folder structures based on business domains, data sources, or time periods
Partitioning strategy - Partition data by frequently queried dimensions such as date, region, or category
File formats - Use columnar formats like Parquet or ORC for analytical workloads to optimize compression and query performance
Lifecycle policies - Implement Amazon S3 lifecycle policies to automatically transition data to cost-effective storage classes

Integration with AWS analytics and ML services

Amazon S3 data lakes integrate seamlessly with AWS analytics and ML services, allowing you to query and analyze data in-place:

Athena - Query data directly from Amazon S3 using standard SQL without data movement
AWS Glue - Discover, catalog, and transform data with serverless ETL capabilities
Amazon EMR - Process large datasets using Apache Spark, Hadoop, and other big data frameworks
SageMaker AI - Access data for machine learning model training and inference
QuickSight - Create interactive dashboards and visualizations

Security and governance

Implement comprehensive security and governance for your Amazon S3 data lake:

Access controls - Use IAM policies, bucket policies, and Lake Formation for fine-grained access control
Encryption - Enable server-side encryption for data at rest and use SSL/TLS for data in transit
Data classification - Tag and classify data based on sensitivity and compliance requirements
Audit logging - Enable CloudTrail and Amazon S3 access logging for comprehensive audit trails

Warning Javascript is disabled or is unavailable in your browser.

To use the Amazon Web Services Documentation, Javascript must be enabled. Please refer to your browser's Help pages for instructions.

Document Conventions

Prerequisites

Federated catalogs