기계 번역으로 제공되는 번역입니다. 제공된 번역과 원본 영어의 내용이 상충하는 경우에는 영어 버전이 우선합니다.
개인 데이터 OU - PD 애플리케이션 계정
귀하의 의견을 듣고 싶습니다. 간단한 설문 |
개인 데이터(PD) 애플리케이션 계정은 조직에서 개인 데이터를 수집하고 처리하는 서비스를 호스팅하는 곳입니다. 특히이 계정에 개인 데이터로 정의한 내용을 저장할 수 있습니다. AWS PRA는 다중 계층 서버리스 웹 아키텍처를 통해 여러 예제 프라이버시 구성을 보여줍니다. AWS 랜딩 존에서 워크로드를 운영하는 경우 개인 정보 보호 구성을 one-size-fits-all 솔루션으로 간주해서는 안 됩니다. 예를 들어 기본 개념, 개인 정보 보호를 강화하는 방법, 조직에서 특정 사용 사례 및 아키텍처에 솔루션을 적용하는 방법을 이해하는 것이 목표일 수 있습니다.
개인 데이터를 수집, 저장 또는 처리하는 조직의 AWS 계정 에 AWS Organizations 및 AWS Control Tower 를 사용하여 기본적이고 반복 가능한 가드레일을 배포할 수 있습니다. 이러한 계정에 대한 전용 조직 단위(OU)를 설정하는 것이 중요합니다. 예를 들어 데이터 레지던시가 핵심 설계 고려 사항인 계정의 하위 집합에만 데이터 레지던시 가드레일을 적용할 수 있습니다. 많은 조직에서 개인 데이터를 저장하고 처리하는 계정은 다음과 같습니다.
조직은 개인 데이터 세트의 신뢰할 수 있는 소스를 저장하는 전용 데이터 계정을 지원할 수 있습니다. 신뢰할 수 있는 데이터 소스는 기본 버전의 데이터를 저장하는 위치로, 가장 안정적이고 정확한 버전의 데이터로 간주될 수 있습니다. 예를 들어, 신뢰할 수 있는 데이터 소스의 데이터를 훈련 데이터, 고객 데이터의 하위 집합 및 수정된 데이터를 저장하는 데 사용되는 PD 애플리케이션 계정의 Amazon Simple Storage Service(Amazon S3) 버킷과 같은 다른 위치로 복사할 수 있습니다. 이 다중 계정 접근 방식을 사용하여 데이터 계정의 완전하고 확정적인 개인 데이터 세트를 PD 애플리케이션 계정의 다운스트림 소비자 워크로드와 분리하면 계정에 대한 무단 액세스가 발생할 경우의 영향 범위를 줄일 수 있습니다.
다음 다이어그램은 PD 애플리케이션 및 데이터 계정에 구성된 AWS 보안 및 개인 정보 보호 서비스를 보여줍니다.

이 섹션에서는 이러한 계정에서 사용되는 다음 항목에 대한 AWS 서비스 자세한 정보를 제공합니다.
Amazon Athena
개인 정보 보호 목표를 충족하기 위해 데이터 쿼리 제한 제어를 고려할 수도 있습니다. Amazon Athena는 표준 SQL을 사용하여 Amazon S3에 있는 데이터를 직접 분석할 수 있는 대화형 쿼리 서비스입니다. 데이터를 Athena에 로드할 필요가 없습니다. S3 버킷에 저장된 데이터와 직접 작동합니다.
Athena의 일반적인 사용 사례는 데이터 분석 팀에 맞춤화되고 소독된 데이터 세트를 제공하는 것입니다. 데이터 세트에 개인 데이터가 포함되어 있는 경우 데이터 분석 팀에 거의 가치를 제공하지 않는 개인 데이터의 전체 열을 마스킹하여 데이터 세트를 소독할 수 있습니다. 자세한 내용은 Amazon Athena 및 (블로그 게시물)를 사용하여 데이터 레이크의 데이터 익명화 및 관리를 참조하세요 AWS Lake Formation
데이터 변환 접근 방식에 Athena에서 지원되는 함수 이외의 추가 유연성이 필요한 경우 사용자 정의 함수(UDF)라고 하는 사용자 지정 함수를 정의할 수 있습니다. Athena에 제출된 SQL 쿼리에서 UDFs를 호출하고 실행할 수 있습니다 AWS Lambda. SELECT
및 FILTER SQL
쿼리에서 UDFs 사용할 수 있으며 동일한 쿼리에서 여러 UDFs를 호출할 수 있습니다. 프라이버시를 위해 열에 모든 값의 마지막 4자만 표시하는 등 특정 유형의 데이터 마스킹을 수행하는 UDFs를 생성할 수 있습니다.
Amazon CloudWatch Logs
Amazon CloudWatch Logs는 모든 시스템, 애플리케이션 및 AWS 서비스 의 로그를 중앙 집중화하여 모니터링하고 안전하게 보관할 수 있도록 도와줍니다. CloudWatch Logs에서는 신규 또는 기존 로그 그룹에 대한 데이터 보호 정책을 사용하여 개인 데이터의 공개 위험을 최소화할 수 있습니다. 데이터 보호 정책은 로그에서 개인 데이터와 같은 민감한 데이터를 감지할 수 있습니다. 데이터 보호 정책은 사용자가를 통해 로그에 액세스할 때 해당 데이터를 마스킹할 수 있습니다 AWS Management Console. 사용자가 워크로드의 전체 용도 사양에 따라 개인 데이터에 직접 액세스해야 하는 경우 해당 사용자에게 logs:Unmask
권한을 할당할 수 있습니다. 또한 계정 전체의 데이터 보호 정책을 생성하고 조직의 모든 계정에이 정책을 일관되게 적용할 수 있습니다. 이렇게 하면 CloudWatch Logs의 모든 현재 및 미래 로그 그룹에 대해 마스킹이 기본적으로 구성됩니다. 또한 감사 보고서를 활성화하여 다른 로그 그룹, Amazon S3 버킷 또는 Amazon Data Firehose로 전송하는 것이 좋습니다. 이러한 보고서에는 각 로그 그룹의 데이터 보호 결과에 대한 자세한 레코드가 포함되어 있습니다.
Amazon CodeGuru Reviewer
개인 정보 보호와 보안 모두에서 배포 및 배포 후 단계 모두에서 지속적인 규정 준수를 지원하는 것은 많은 조직에 필수적입니다. 개인 데이터를 처리하는 애플리케이션의 배포 파이프라인에 사전 예방적 제어가 AWS 포함되어 있습니다. Amazon CodeGuru Reviewer는 Java, JavaScript 및 Python 코드에서 개인 데이터를 노출할 수 있는 잠재적 결함을 감지할 수 있습니다. 이는 코드 개선을 위한 제안을 개발자에게 제공합니다. CodeGuru Reviewer는 광범위한 보안, 개인 정보 보호 및 일반 모범 사례에서 결함을 식별할 수 있습니다. 자세한 내용은 Amazon CodeGuru 감지기 라이브러리를 참조하세요. AWS CodeCommit Bitbucket, GitHub 및 Amazon S3를 포함한 여러 소스 공급자와 함께 작동하도록 설계되었습니다. CodeGuru Reviewer가 감지할 수 있는 몇 가지 개인정보 보호 관련 결함은 다음과 같습니다.
-
SQL 주입
-
보안되지 않은 쿠키
-
권한 부여 누락
-
클라이언트 측 AWS KMS 재암호화
Amazon Comprehend
Amazon Comprehend는 기계 학습을 사용하여 영어 텍스트 문서에서 귀중한 인사이트와 연결을 발견하는 자연어 처리(NLP) 서비스입니다. Amazon Comprehend는 정형, 반정형 또는 비정형 텍스트 문서에서 개인 데이터를 감지하고 수정할 수 있습니다. 자세한 내용은 Amazon Comprehend 설명서의 개인 식별 정보(PII)를 참조하세요.
AWS SDKs 및 Amazon Comprehend API를 사용하여 Amazon Comprehend를 여러 애플리케이션과 통합할 수 있습니다. 예를 들어 Amazon Comprehend를 사용하여 Amazon S3 객체 Lambda를 사용하여 개인 데이터를 감지하고 수정합니다. 조직은 S3 객체 Lambda를 사용하여 Amazon S3 GET 요청에 사용자 지정 코드를 추가하여 애플리케이션에 반환되는 데이터를 수정하고 처리할 수 있습니다. S3 객체 Lambda는 행을 필터링하고, 이미지 크기를 동적으로 조정하고, 개인 데이터를 수정하는 등의 작업을 수행할 수 있습니다. AWS Lambda 함수로 구동되는 코드는에서 완벽하게 관리하는 인프라에서 실행 AWS되므로 데이터의 파생 사본을 생성 및 저장하거나 프록시를 실행할 필요가 없습니다. S3 객체 Lambda로 객체를 변환하기 위해 애플리케이션을 변경할 필요가 없습니다. 에서 ComprehendPiiRedactionS3Object
Lambda 함수 AWS Serverless Application Repository 를 사용하여 개인 데이터를 수정할 수 있습니다. 이 함수는 Amazon Comprehend를 사용하여 개인 데이터 엔터티를 감지하고 해당 엔터티를 별표로 대체하여 수정합니다. 자세한 내용은 Amazon S3 S3 설명서의 S3 객체 Lambda 및 Amazon Comprehend를 사용하여 PII 데이터 감지 및 수정을 참조하세요.
Amazon Comprehend는 AWS SDKs를 통한 애플리케이션 통합을 위한 다양한 옵션을 제공하므로 Amazon Comprehend를 사용하여 데이터를 수집, 저장 및 처리하는 다양한 위치에서 개인 데이터를 식별할 수 있습니다. Amazon Comprehend ML 기능을 사용하여 애플리케이션 로그
-
REPLACE_WITH_PII_ENTITY_TYPE
는 각 PII 개체를 해당 유형으로 바꿉니다. 예를 들어 Jane Doe는 NAME으로 대체됩니다. -
MASK
는 PII 엔터티의 문자를 선택한 문자(!, #, $, %, &, 또는 @)로 바꿉니다. 예를 들어 Jane Doe를 **** ***로 바꿀 수 있습니다.
Amazon Data Firehose
Amazon Data Firehose를 사용하여 스트리밍 데이터를 캡처, 변환하고 Amazon Managed Service for Apache Flink 또는 Amazon S3와 같은 다운스트림 서비스로 로드할 수 있습니다. Firehose는 처음부터 처리 파이프라인을 구축할 필요 없이 애플리케이션 로그와 같은 대량의 스트리밍 데이터를 전송하는 데 자주 사용됩니다.
Lambda 함수를 사용하여 데이터를 다운스트림으로 전송하기 전에 사용자 지정 또는 기본 제공 처리를 수행할 수 있습니다. 개인 정보 보호를 위해이 기능은 데이터 최소화 및 국가 간 데이터 전송 요구 사항을 지원합니다. 예를 들어 Lambda와 Firehose를 사용하여 로그 아카이브 계정에서 중앙 집중화되기 전에 다중 리전 로그 데이터를 변환할 수 있습니다. 자세한 내용은 Biogen: 다중 계정에 대한 중앙 집중식 로깅 솔루션(YouTube 비디오)을 참조하세요
AWS Glue
개인 데이터가 포함된 데이터 세트를 유지하는 것은 Privacy by Design
AWS Glue Data Catalog
AWS Glue Data Catalog는 유지 관리 가능한 데이터 세트를 설정하는 데 도움이 됩니다. 데이터 카탈로그에는 추출, 변환 및 로드(ETL) 작업을 위한 소스 및 대상으로 사용되는 데이터에 대한 참조가 포함되어 있습니다 AWS Glue. 데이터 카탈로그의 정보는 메타데이터 테이블로 저장되며 각 테이블은 단일 데이터 스토어를 지정합니다. 크롤러를 AWS Glue 실행하여 다양한 데이터 스토어 유형의 데이터 인벤토리를 가져옵니다. 내장 및 사용자 지정 분류자를 크롤러에 추가하면 이러한 분류자는 개인 데이터의 데이터 형식과 스키마를 추론합니다. 그러면 크롤러가 메타데이터를 데이터 카탈로그에 기록합니다. 중앙 집중식 메타데이터 테이블은 AWS 환경의 서로 다른 개인 데이터 소스에 구조와 예측 가능성을 추가하므로 데이터 주체 요청(예: 삭제할 권리)에 더 쉽게 응답할 수 있습니다. Data Catalog를 사용하여 이러한 요청에 자동으로 응답하는 방법에 대한 포괄적인 예는 Amazon S3 Find and Forget을 사용하여 데이터 레이크에서 데이터 삭제 요청 처리(블로그 게시물)를 참조하세요
AWS Glue DataBrew
AWS Glue DataBrew는 데이터를 정리하고 정규화하는 데 도움이 되며 개인 식별 정보를 제거 또는 마스킹하고 데이터 파이프라인에서 민감한 데이터 필드를 암호화하는 등 데이터에 대한 변환을 수행할 수 있습니다. 또한 데이터의 계보를 시각적으로 매핑하여 데이터가 통과한 다양한 데이터 소스 및 변환 단계를 이해할 수 있습니다. 조직이 개인 데이터 출처를 더 잘 이해하고 추적하기 위해 노력함에 따라이 기능이 점점 중요해지고 있습니다. DataBrew는 데이터 준비 중에 개인 데이터를 마스킹하는 데 도움이 됩니다. 데이터 프로파일링 작업의 일부로 개인 데이터를 감지하고 개인 데이터가 포함될 수 있는 열 수 및 잠재적 범주와 같은 통계를 수집할 수 있습니다. 그런 다음 코드를 작성하지 않고도 대체, 해싱, 암호화 및 복호화를 포함하여 기본 제공 가역 또는 비가역 데이터 변환 기술을 사용할 수 있습니다. 그런 다음 분석, 보고 및 기계 학습 작업을 위해 정리 및 마스킹된 데이터 세트를 다운스트림에 사용할 수 있습니다. DataBrew에서 사용할 수 있는 몇 가지 데이터 마스킹 기법은 다음과 같습니다.
-
해싱 - 열 값에 해시 함수를 적용합니다.
-
대체 - 개인 데이터를 다른 실제처럼 보이는 값으로 바꿉니다.
-
Null out 또는 삭제 - 특정 필드를 null 값으로 바꾸거나 열을 삭제합니다.
-
마스킹 아웃 - 캐릭터 스크램블링을 사용하거나 열의 특정 부분을 마스킹합니다.
사용 가능한 암호화 기법은 다음과 같습니다.
-
결정적 암호화 - 열 값에 결정적 암호화 알고리즘을 적용합니다. 결정적 암호화는 항상 값에 대해 동일한 사이퍼텍스트를 생성합니다.
-
확률 암호화 - 열 값에 확률 암호화 알고리즘을 적용합니다. 확률 암호화는 적용될 때마다 서로 다른 사이퍼텍스트를 생성합니다.
DataBrew에서 제공된 개인 데이터 변환 레시피의 전체 목록은 개인 식별 정보(PII) 레시피 단계를 참조하세요.
AWS Glue 데이터 품질
AWS Glue 데이터 품질은 데이터 파이프라인을 통해 고품질 데이터를 데이터 소비자에게 전달하기 전에 사전에 데이터 파이프라인을 통한 전송을 자동화하고 운영할 수 있도록 지원합니다. AWS Glue 데이터 품질은 데이터 파이프라인 전반의 데이터 품질 문제에 대한 통계 분석을 제공하고 Amazon EventBridge에서 알림을 트리거할 수 있으며 문제 해결을 위한 품질 규칙 권장 사항을 제공할 수 있습니다. AWS Glue 또한 데이터 품질은 사용자 지정 데이터 품질 규칙을 생성할 수 있도록 도메인별 언어로 규칙 생성을 지원합니다.
AWS Key Management Service
AWS Key Management Service (AWS KMS)를 사용하면 암호화 키를 생성하고 제어하여 데이터를 보호할 수 있습니다.는 하드웨어 보안 모듈을 AWS KMS 사용하여 FIPS 140-2 암호화 모듈 검증 프로그램에 AWS KMS keys 따라 보호하고 검증합니다. 이 서비스가 보안 컨텍스트에서 사용되는 방법에 대한 자세한 내용은 AWS 보안 참조 아키텍처를 참조하세요.
AWS KMS 는 암호화 AWS 서비스 를 제공하는 대부분의와 통합되며 개인 데이터를 처리하고 저장하는 애플리케이션에서 KMS 키를 사용할 수 있습니다. AWS KMS 를 사용하여 다음과 같은 다양한 개인 정보 보호 요구 사항을 지원하고 개인 데이터를 보호할 수 있습니다.
-
고객 관리형 키를 사용하여 강도, 교체, 만료 및 기타 옵션을 더 잘 제어할 수 있습니다.
-
전용 고객 관리형 키를 사용하여 개인 데이터에 대한 액세스를 허용하는 개인 데이터 및 보안 암호를 보호합니다.
-
데이터 분류 수준을 정의하고 수준당 하나 이상의 전용 고객 관리형 키를 지정합니다. 예를 들어 운영 데이터를 암호화하는 키 하나와 개인 데이터를 암호화하는 키 하나가 있을 수 있습니다.
-
KMS 키에 대한 의도하지 않은 교차 계정 액세스 방지.
-
암호화할 리소스 AWS 계정 와 동일한 내에 KMS 키 저장.
-
KMS 키 관리 및 사용에 대한 업무 분리 구현. 자세한 내용은 KMS 및 IAM을 사용하여 S3에서 암호화된 데이터에 대한 독립적인 보안 제어를 활성화하는 방법
(AWS 블로그 게시물)을 참조하세요. -
예방 및 대응 가드레일을 통해 자동 키 교체를 적용합니다.
기본적으로 KMS 키는 저장되며 키가 생성된 리전에서만 사용할 수 있습니다. 조직에 데이터 레지던시 및 주권에 대한 특정 요구 사항이 있는 경우 다중 리전 KMS 키가 사용 사례에 적합한지 고려하세요. 다중 리전 키는 서로 다른의 특수 목적 KMS 키 AWS 리전 로, 서로 바꿔서 사용할 수 있습니다. 다중 리전 키를 생성하는 프로세스는 내 AWS 리전 경계를 넘어 키 구성 요소를 이동 AWS KMS하므로 이러한 리전 격리 부족은 조직의 규정 준수 목표와 호환되지 않을 수 있습니다. 이를 해결하는 한 가지 방법은 리전별 고객 관리형 키와 같은 다른 유형의 KMS 키를 사용하는 것입니다.
AWS 로컬 영역
데이터 레지던시 요구 사항을 준수해야 하는 경우 이러한 요구 사항을 지원하기 AWS 리전 위해에 개인 데이터를 저장하고 처리하는 리소스를 배포할 수 있습니다. 컴퓨팅, 스토리지, 데이터베이스 및 기타 일부 AWS 리소스를 대규모 인구 및 산업 센터와 가까운 곳에 배치하는 데 도움이 되는 AWS Local Zones를 사용할 수도 있습니다. Local Zone은 대규모 대도시 지역 AWS 리전 과 지리적으로 가까운의 확장입니다. 로컬 영역이 해당하는 리전 근처의 로컬 영역 내에 특정 유형의 리소스를 배치할 수 있습니다. 동일한 법적 관할권 내에서 리전을 사용할 수 없는 경우 로컬 영역을 사용하면 데이터 레지던시 요구 사항을 충족할 수 있습니다. 로컬 영역을 사용할 때는 조직 내에 배포된 데이터 레지던시 제어를 고려하세요. 예를 들어 특정 로컬 영역에서 다른 리전으로 데이터가 전송되지 않도록 하는 제어가 필요할 수 있습니다. SCPs를 사용하여 국경 간 데이터 전송 가드레일을 유지하는 방법에 대한 자세한 내용은 랜딩 존 제어를 사용하여 AWS 로컬 영역에서 데이터 레지던시를 관리하기 위한 모범 사례
AWS Nitro Enclaves
Amazon Elastic Compute Cloud(Amazon EC2)와 같은 컴퓨팅 서비스를 사용하여 개인 데이터를 처리하는 등 처리 관점에서 데이터 세분화 전략을 고려하세요. 대규모 아키텍처 전략의 일환으로 기밀 컴퓨팅을 사용하면 격리되고 보호되며 신뢰할 수 있는 CPU 엔클레이브에서 개인 데이터 처리를 격리할 수 있습니다. 엔클레이브는 별도의 강화되고 고도로 제한된 가상 머신입니다. AWS Nitro Enclaves는 이러한 격리된 컴퓨팅 환경을 생성하는 데 도움이 될 수 있는 Amazon EC2 기능입니다. 자세한 내용은 AWS Nitro 시스템의 보안 설계(AWS 백서)를 참조하세요.
Nitro Enclaves는 상위 인스턴스의 커널과 분리된 커널을 배포합니다. 상위 인스턴스의 커널은 엔클레이브에 액세스할 수 없습니다. 사용자는 엔클레이브의 데이터 및 애플리케이션에 SSH 또는 원격으로 액세스할 수 없습니다. 개인 데이터를 처리하는 애플리케이션은 엔클레이브에 포함되고 엔클레이브와 상위 인스턴스 간의 통신을 용이하게 하는 소켓인 엔클레이브의 Vsock을 사용하도록 구성될 수 있습니다.
Nitro Enclaves가 유용할 수 있는 한 가지 사용 사례는 별도의에 AWS 리전 있고 서로를 신뢰하지 않을 수 있는 두 데이터 프로세서 간의 공동 처리입니다. 다음 이미지는 중앙 처리를 위해 엔클레이브를 사용하는 방법, 엔클레이브로 전송되기 전에 개인 데이터를 암호화하기 위한 KMS 키, 복호화를 요청하는 엔클레이브가 증명 문서에 고유한 측정값을 가지고 있는지 확인하는 AWS KMS key 정책을 보여줍니다. 자세한 내용과 지침은 에서 암호화 증명 사용을 참조하세요 AWS KMS. 샘플 키 정책은이 안내서키를 사용하려면 증명 필요 AWS KMS의 섹션을 참조하세요.

이 구현에서는 각 데이터 프로세서와 기본 엔클레이브만 일반 텍스트 개인 데이터에 액세스할 수 있습니다. 각 데이터 프로세서의 환경 외부에서 데이터가 노출되는 유일한 위치는 액세스 및 변조를 방지하도록 설계된 엔클레이브 자체에 있습니다.
AWS PrivateLink
많은 조직이 개인 데이터가 신뢰할 수 없는 네트워크에 노출되는 것을 제한하려고 합니다. 예를 들어 전체 애플리케이션 아키텍처 설계의 프라이버시를 강화하려면 데이터 민감도(데이터 세그먼트를 지원하는 AWS 서비스 및 기능섹션에서 설명하는 데이터 세트의 논리적 및 물리적 분리와 유사)를 기반으로 네트워크를 분할할 수 있습니다.는 가상 프라이빗 클라우드(VPCs)에서 VPC 외부의 서비스로의 단방향 프라이빗 연결을 생성하는 데 AWS PrivateLink 도움이 됩니다. 를 사용하면 환경에서 개인 데이터를 저장하거나 처리하는 서비스에 대한 전용 프라이빗 연결을 설정할 AWS PrivateLink수 있습니다. 퍼블릭 엔드포인트에 연결하고 신뢰할 수 없는 퍼블릭 네트워크를 통해이 데이터를 전송할 필요가 없습니다. 범위 내 AWS PrivateLink 서비스에 대해 서비스 엔드포인트를 활성화하면 통신하기 위해 인터넷 게이트웨이, NAT 디바이스, 퍼블릭 IP 주소, AWS Direct Connect 연결 또는 AWS Site-to-Site VPN 연결이 필요하지 않습니다. AWS PrivateLink 를 사용하여 개인 데이터에 대한 액세스를 제공하는 서비스에 연결할 때 조직의 데이터 경계
AWS Resource Access Manager
AWS Resource Access Manager (AWS RAM)를 사용하면에서 리소스를 안전하게 공유 AWS 계정 하여 운영 오버헤드를 줄이고 가시성 및 감사 가능성을 제공할 수 있습니다. 다중 계정 세분화 전략을 계획할 때는 AWS RAM 를 사용하여 별도의 격리된 계정에 저장하는 개인 데이터 스토어를 공유하는 것이 좋습니다. 처리를 위해 신뢰할 수 있는 다른 계정과 해당 개인 데이터를 공유할 수 있습니다. 에서는 공유 리소스에서 수행할 AWS RAM수 있는 작업을 정의하는 권한을 관리할 수 있습니다. 에 대한 모든 API 호출 AWS RAM 은 CloudTrail에 로깅됩니다. 또한 리소스 공유가 변경되는 경우 AWS RAM와 같은의 특정 이벤트에 대해 자동으로 알리도록 Amazon CloudWatch Events를 구성할 수 있습니다.
IAM의 AWS 리소스 기반 정책 또는 Amazon S3의 버킷 정책을 AWS 계정 사용하여 다양한 유형의 리소스를 다른와 공유할 수 있지만,는 프라이버시에 대한 몇 가지 추가 이점을 AWS RAM 제공합니다.는 데이터 소유자에게 데이터를 공유하는 방법과 대상에 대한 추가 가시성을 AWS 제공합니다. 여기에는 다음이 AWS 계정포함됩니다.
-
계정 IDs
-
소비자 계정이 조직의 일부가 아닌 경우 공유 시작을 위한 초대 프로세스 적용
-
특정 IAM 보안 주체가 각 개별 리소스에 액세스할 수 있는 가시성
이전에 리소스 기반 정책을 사용하여 리소스 공유를 관리하고 AWS RAM 대신를 사용하려면 PromoteResourceShareCreatedFromPolicy API 작업을 사용합니다.
Amazon SageMaker AI
Amazon SageMaker AI는 ML 모델을 구축 및 훈련한 다음 프로덕션 지원 호스팅 환경에 배포하는 데 도움이 되는 관리형 기계 학습(ML) 서비스입니다. SageMaker AI는 훈련 데이터를 더 쉽게 준비하고 모델 기능을 생성할 수 있도록 설계되었습니다.
Amazon SageMaker AI 모델 모니터
많은 조직에서 ML 모델을 훈련할 때 데이터 드리프트를 고려합니다. 데이터 드리프트는 프로덕션 데이터와 ML 모델을 훈련하는 데 사용된 데이터 간의 의미 있는 변형 또는 시간 경과에 따른 입력 데이터의 의미 있는 변화입니다. 데이터 드리프트는 ML 모델 예측의 전반적인 품질, 정확성 및 공정성을 저하시킬 수 있습니다. ML 모델이 프로덕션 환경에서 수신하는 데이터의 통계적 특성이 훈련된 기준 데이터의 특성과 다른 경우 예측의 정확도가 저하될 수 있습니다. Amazon SageMaker AI 모델 모니터는 프로덕션 환경에서 Amazon SageMaker AI 기계 학습 모델의 품질을 지속적으로 모니터링하고 데이터 품질을 모니터링할 수 있습니다. 데이터 드리프트를 조기에 선제적으로 감지하면 모델 재학습, 업스트림 시스템 감사 또는 데이터 품질 문제 해결과 같은 수정 조치를 구현하는 데 도움이 될 수 있습니다. Model Monitor는 모델을 수동으로 모니터링하거나 추가 도구를 빌드할 필요성을 줄일 수 있습니다.
Amazon SageMaker AI Clarify
Amazon SageMaker AI Clarify는 모델 편향 및 설명 가능성에 대한 인사이트를 제공합니다. SageMaker AI Clarify는 ML 모델 데이터 준비 및 전체 개발 단계에서 일반적으로 사용됩니다. 개발자는 성별 또는 연령과 같은 관심 속성을 지정할 수 있으며, SageMaker AI Clarify는 알고리즘 세트를 실행하여 해당 속성에 편향이 있는지 감지합니다. 알고리즘이 실행된 후 SageMaker AI Clarify는 발생 가능한 편향의 소스 및 측정치에 대한 설명이 포함된 시각적 보고서를 제공하므로 편향을 해결하는 단계를 식별할 수 있습니다. 예를 들어, 한 연령대에 대한 비즈니스 대출의 몇 가지 예만 포함된 금융 데이터 세트에서 SageMaker는 불균형에 플래그를 지정하여 해당 연령대에 불리한 모델을 피할 수 있습니다. 또한 예측을 검토하고 해당 ML 모델의 편향을 지속적으로 모니터링하여 이미 훈련된 모델의 편향을 확인할 수 있습니다. 마지막으로 SageMaker AI Clarify는 Amazon SageMaker AI Experiments와 통합되어 모델의 전체 예측 생성 프로세스에 가장 많이 기여한 기능을 설명하는 그래프를 제공합니다. 이 정보는 설명 가능성 결과를 충족하는 데 유용할 수 있으며, 특정 모델 입력이 전체 모델 동작에 미치는 영향보다 더 큰 영향을 미치는지 확인하는 데 도움이 될 수 있습니다.
Amazon SageMaker 모델 카드
Amazon SageMaker 모델 카드는 거버넌스 및 보고 목적으로 ML 모델에 대한 중요한 세부 정보를 문서화하는 데 도움이 될 수 있습니다. 이러한 세부 정보에는 모델 소유자, 범용, 의도한 사용 사례, 가정, 모델의 위험 등급, 훈련 세부 정보 및 지표, 평가 결과가 포함될 수 있습니다. 자세한 내용은 AWS 인공 지능 및 Machine Learning 솔루션을 사용한 모델 설명 가능성(AWS 백서)을 참조하세요.
AWS 데이터 수명 주기를 관리하는 데 도움이 되는 기능
개인 데이터가 더 이상 필요하지 않은 경우 여러 데이터 스토어의 데이터에 수명 주기 및 time-to-live 정책을 사용할 수 있습니다. 데이터 보존 정책을 구성할 때는 개인 데이터가 포함될 수 있는 다음 위치를 고려하세요.
-
Amazon DynamoDB 및 Amazon Relational Database Service(Amazon RDS)와 같은 데이터베이스
-
Amazon S3 버킷
-
CloudWatch 및 CloudTrail의 로그
-
AWS Database Migration Service (AWS DMS) 및 AWS Glue DataBrew 프로젝트의 마이그레이션에서 캐시된 데이터
-
백업 및 스냅샷
다음 AWS 서비스 및 기능은 AWS 환경에서 데이터 보존 정책을 구성하는 데 도움이 될 수 있습니다.
-
Amazon S3 수명 주기 - Amazon S3가 객체 그룹에 적용하는 작업을 정의하는 규칙 세트입니다. Amazon S3 수명 주기 구성에서 만료 작업을 생성할 수 있습니다. 만료 작업은 Amazon S3가 사용자를 대신하여 만료된 객체를 삭제하는 시기를 정의합니다. 자세한 내용은 스토리지 수명 주기 관리를 참조하세요.
-
Amazon Data Lifecycle Manager - Amazon EC2에서 Amazon Elastic Block Store(Amazon EBS) 스냅샷 및 EBS 지원 Amazon Machine Image(AMIs)의 생성, 보존 및 삭제를 자동화하는 정책을 생성합니다.
-
DynamoDB TTL(Time to Live) - 항목이 더 이상 필요하지 않은 시기를 결정하는 항목별 타임스탬프를 정의합니다. 지정된 타임스탬프의 날짜 및 시간 직후 DynamoDB는 테이블에서 항목을 삭제합니다.
-
CloudWatch Logs의 로그 보존 설정 - 각 로그 그룹의 보존 정책을 1일에서 10년 사이의 값으로 조정할 수 있습니다.
-
AWS Backup - 데이터 보호 정책을 중앙에서 배포하여 S3 버킷, RDS 데이터베이스 인스턴스, DynamoDB 테이블, EBS 볼륨 등 다양한 AWS 리소스에서 백업 활동을 구성, 관리 및 관리합니다. AWS 리소스 유형을 지정하여 리소스에 백업 정책을 적용하거나 기존 리소스 태그를 기반으로를 적용하여 추가 세분화를 제공합니다. 중앙 집중식 콘솔에서 백업 활동을 감사하고 보고하여 백업 규정 준수 요구 사항을 충족할 수 있습니다.
데이터 세그먼트를 지원하는 AWS 서비스 및 기능
데이터 분할은 별도의 컨테이너에 데이터를 저장하는 프로세스입니다. 이를 통해 각 데이터 세트에 차별화된 보안 및 인증 조치를 제공하고 전체 데이터 세트에 대한 노출의 영향 범위를 줄일 수 있습니다. 예를 들어 모든 고객 데이터를 하나의 대규모 데이터베이스에 저장하는 대신이 데이터를 더 작고 관리 가능한 그룹으로 분할할 수 있습니다.
물리적 및 논리적 분리를 사용하여 개인 데이터를 분할할 수 있습니다.
-
물리적 분리 - 데이터를 별도의 데이터 스토어에 저장하거나 데이터를 별도의 AWS 리소스에 배포하는 행위입니다. 데이터가 물리적으로 분리되어 있지만 동일한 보안 주체가 두 리소스에 액세스할 수 있습니다. 따라서 물리적 분리와 논리적 분리를 결합하는 것이 좋습니다.
-
논리적 분리 - 액세스 제어를 사용하여 데이터를 격리하는 작업입니다. 직무에 따라 개인 데이터의 하위 집합에 대한 액세스 수준이 달라집니다. 논리적 분리를 구현하는 샘플 정책은이 가이드특정 Amazon DynamoDB 속성에 대한 액세스 권한 부여의 섹션을 참조하세요.
논리적 분리와 물리적 분리의 조합은 직무 전반의 차별화된 액세스를 지원하기 위해 자격 증명 기반 및 리소스 기반 정책을 작성할 때 유연성, 단순성 및 세밀성을 제공합니다. 예를 들어 단일 S3 버킷에서 서로 다른 데이터 분류를 논리적으로 구분하는 정책을 생성하는 것은 운영상 복잡할 수 있습니다. 각 데이터 분류에 전용 S3 버킷을 사용하면 정책 구성 및 관리가 간소화됩니다.