기계 번역으로 제공되는 번역입니다. 제공된 번역과 원본 영어의 내용이 상충하는 경우에는 영어 버전이 우선합니다.
Lake Formation을 사용하는 Amazon EMR에 대한 고려 사항
Amazon EMR을와 함께 사용할 때는 다음 사항을 고려하세요 AWS Lake Formation.
Lake Formation을 사용하는 Amazon EMR은 사용 가능한 모든 리전에서 사용할 수 있습니다.
-
Amazon EMR은 Apache Hive 및 Apache Iceberg 테이블에 대해서만 Lake Formation을 통한 세분화된 액세스 제어를 지원합니다. Apache Hive 형식으로는, Parquet, ORC 및 xSV가 포함됩니다.
-
Lake Formation 작업의 경우
DynamicResourceAllocation
을 끌 수 없습니다. -
Spark 작업에서 Lake Formation만 사용할 수 있습니다.
-
Lake Formation을 사용하는 Amazon EMR은 작업 전체에서 단일 Spark 세션만 지원합니다.
-
Lake Formation을 사용하는 Amazon EMR은 리소스 링크를 통해 공유되는 교차 계정 테이블 쿼리만 지원합니다.
-
다음은 지원되지 않습니다.
-
복원력 있는 분산 데이터세트(RDD)
-
Spark 스트리밍
-
Lake Formation에 부여된 권한으로 쓰기
-
중첩된 열에 대한 액세스 제어
-
-
Amazon EMR은 다음을 포함하여 시스템 드라이버의 완전한 격리를 저해할 수 있는 기능을 차단합니다.
-
UDT, HiveUDF 및 사용자 지정 클래스가 포함된 사용자 정의 함수
-
사용자 지정 데이터 소스
-
Spark 확장, 커넥터 또는 메타스토어에 대한 추가 jar 제공
-
ANALYZE TABLE
명령
-
-
액세스 제어,
EXPLAIN PLAN
및 DDL 작업(예:DESCRIBE TABLE
)을 적용하려면 제한된 정보를 노출하지 않습니다. -
Amazon EMR은 Lake Formation 지원 애플리케이션의 시스템 드라이버 Spark 로그에 대한 액세스를 제한합니다. 시스템 드라이버는 승격된 권한으로 실행되므로 시스템 드라이버가 생성하는 이벤트 및 로그에는 민감한 정보가 포함될 수 있습니다. 권한이 없는 사용자 또는 코드가이 민감한 데이터에 액세스하지 못하도록 Amazon EMR은 시스템 드라이버 로그에 대한 액세스를 비활성화합니다.
시스템 프로파일 로그는 항상 관리형 스토리지에 유지되며 비활성화할 수 없는 필수 설정입니다. 이러한 로그는 고객 관리형 KMS 키 또는 AWS 관리형 KMS 키를 사용하여 안전하게 저장되고 암호화됩니다.
Amazon EMR 애플리케이션이 Amazon S3용 VPC 엔드포인트가 있는 프라이빗 서브넷에 있고 엔드포인트 정책을 연결하여 액세스를 제어하는 경우 작업이 AWS 관리형 Amazon S3로 로그 데이터를 전송하려면 먼저 관리형 스토리지에 자세히 설명된 권한을 VPC 정책에 S3 게이트웨이 엔드포인트에 포함해야 합니다. 요청 문제 해결은 AWS 지원팀에 문의하세요.
-
Lake Formation에 테이블 위치를 등록한 경우 데이터 액세스 경로는 Amazon EMR 작업 런타임 역할에 대한 IAM 권한과 관계없이 Lake Formation에 저장된 자격 증명을 거칩니다. 테이블 위치에 등록된 역할을 잘못 구성하면 테이블 위치에 대한 S3 IAM 권한이 있는 역할을 사용하는 제출된 작업이 실패합니다.
-
Lake Formation 테이블에 쓰는 경우 Lake Formation에 부여된 권한이 아닌 IAM 권한을 사용합니다. 작업 런타임 역할에 필요한 S3 권한이 있는 경우 이를 사용하여 쓰기 작업을 실행할 수 있습니다.
다음은 Apache Iceberg를 사용하는 경우 고려 사항 및 제한 사항입니다.
-
Apache Iceberg는 세션 카탈로그에서만 사용할 수 있으며, 임의로 이름이 지정된 카탈로그에서는 사용할 수 없습니다.
-
Lake Formation에 등록된 Iceberg 테이블은 메타데이터 테이블
history
,metadata_log_entries
,snapshots
,files
,manifests
,refs
만 지원합니다. Amazon EMR은partitions
,path
,summaries
와 같이 민감한 데이터를 포함할 수 있는 열을 숨깁니다. 이 제한 사항은 Lake Formation에 등록되지 않은 Iceberg 테이블에 적용되지 않습니다. -
Lake Formation에 등록하지 않은 테이블은 모든 Iceberg 저장 프로시저를 지원합니다.
register_table
및migrate
절차는 어떤 테이블에서도 지원되지 않습니다. -
V1 대신 Iceberg DataFrameWriterV2를 사용하는 것이 좋습니다.
-
EMR 7.10은 RecordServer에서 지원되지만 Lake Formation 등록 테이블에 대한 쓰기백과 같은 네이티브 FGAC에서는 아직 지원되지 않는 기능을 사용하려는 경우 RecordServer로 다시 전환하는 방법을 제공합니다. 다시 전환하려면 클러스터를 시작할 때 다음 구성을 지정합니다.
{ "Classification": "spark-defaults", "Properties": { "spark.emr.lakeformation.legacy.enabled": "true" } }, { "Classification": "yarn-site", "Properties": { "spark.emr.lakeformation.legacy.enabled": "true" } }