Protección de los datos - Amazon EMR

Las traducciones son generadas a través de traducción automática. En caso de conflicto entre la traducción y la version original de inglés, prevalecerá la version en inglés.

Protección de los datos

El modelo de responsabilidad AWS compartida se aplica a la protección de datos en Amazon EMR Serverless. Como se describe en este modelo, AWS es responsable de proteger la infraestructura global que ejecuta toda la AWS nube. Eres responsable de mantener el control sobre el contenido alojado en esta infraestructura. Este contenido incluye las tareas de configuración y administración de la seguridad de AWS los servicios que utiliza. Para obtener más información sobre la privacidad de datos, consulte Preguntas frecuentes sobre la privacidad de datos. Para obtener información sobre la protección de datos en Europa, consulte la entrada del blog sobre el modelo de responsabilidad AWS compartida y el RGPD en el blog sobre AWS seguridad.

Con fines de protección de datos, le recomendamos que proteja las credenciales de las AWS cuentas y configure cuentas individuales con AWS Identity and Access Management (IAM). De esta manera, cada usuario recibe únicamente los permisos necesarios para cumplir con sus obligaciones laborales. También recomendamos proteger sus datos de las siguientes maneras:

  • Utiliza la autenticación multifactor (MFA) en cada cuenta.

  • Úselo SSL/TLS para comunicarse con AWS los recursos. Recomendamos TLS 1.2 o una versión posterior.

  • Configure la API y el registro de actividad de los usuarios con AWS CloudTrail.

  • Utilice soluciones de AWS cifrado, junto con todos los controles de seguridad predeterminados de AWS los servicios.

  • Utilice avanzados servicios de seguridad administrados, como Amazon Macie, que lo ayuden a detectar y proteger los datos personales almacenados en Amazon S3.

  • Utilice las opciones de cifrado de Amazon EMR sin servidor para cifrar datos en reposo y en tránsito.

  • Si necesita módulos criptográficos validados por FIPS 140-2 para acceder a AWS través de una interfaz de línea de comandos o una API, utilice un punto final FIPS. Para obtener más información acerca de los puntos de conexión de FIPS disponibles, consulte Estándar de procesamiento de la información federal (FIPS) 140-2.

Le recomendamos encarecidamente que nunca introduzca información de identificación confidencial, como, por ejemplo, números de cuenta de sus clientes, en los campos de formato libre, como el campo Nombre. Esto incluye cuando trabaja con Amazon EMR Serverless u otros AWS servicios mediante la consola, la API o. AWS CLI AWS SDKs Es posible que cualquier dato que introduzca en Amazon EMR sin servidor u otros servicios se incluya en los registros de diagnóstico. Cuando proporcione una URL a un servidor externo, no incluya información de credenciales en la URL para validar la solicitud para ese servidor.

Cifrado en reposo

El cifrado de datos ayuda a impedir que los usuarios no autorizados lean los datos en un clúster y sistemas de almacenamiento de datos asociados. Esto incluye los datos guardados en medios persistentes, conocidos como datos en reposo y datos que pueden ser interceptados cuando recorren la red, conocidos como datos en tránsito.

El cifrado de datos requiere las claves y los certificados. Puede elegir entre varias opciones, incluidas las claves administradas por AWS Key Management Service, las claves administradas por Amazon S3 y las claves y certificados de los proveedores personalizados que usted suministre. Si AWS KMS lo utilizas como proveedor de claves, se aplican cargos por el almacenamiento y el uso de las claves de cifrado. Para obtener más información, consulte Precios de AWS KMS.

Antes de especificar las opciones de cifrado, decida qué sistemas de administración de claves y certificados quiere usar. A continuación, cree las claves y los certificados para los proveedores personalizados que especifique como parte de la configuración de cifrado.

Cifrado en reposo para datos de EMRFS en Amazon S3

Cada aplicación EMR sin servidor utiliza una versión de lanzamiento específica, que incluye EMRFS (Sistema de archivos EMR). El cifrado de Amazon S3 funciona con objetos del sistema de archivos de EMR (EMRFS) que se leen y se escriben en Amazon S3. Puede especificar el cifrado del servidor (SSE) o el cifrado del cliente (CSE) de Amazon S3 como Modo de cifrado predeterminado al habilitar el cifrado en reposo. También puede especificar métodos de cifrado diferentes para buckets individuales utilizando Per bucket encryption overrides (Reemplazos de cifrado por bucket). Independientemente de si el cifrado de Amazon S3 está habilitado, la seguridad de la capa de transporte (TLS) cifra los objetos de EMRFS en tránsito entre los nodos del clúster de EMR y Amazon S3. Si utiliza Amazon S3 CSE con claves administradas por el cliente, su rol de ejecución utilizado para ejecutar trabajos en una aplicación EMR sin servidor debe tener acceso a la clave. Para obtener más información detallada sobre cómo lleva a cabo Amazon S3 el cifrado, consulte Protección de datos mediante cifrado en la Guía para desarrolladores de Amazon Simple Storage Service.

nota

Al utilizarlas AWS KMS, se cobran cargos por el almacenamiento y el uso de las claves de cifrado. Para obtener más información, consulte Precios de AWS KMS.

Cifrado del servidor de Amazon S3

Todos los buckets de Amazon S3 tienen el cifrado configurado de forma predeterminada y todos los objetos nuevos que se cargan en un bucket de S3 se cifran automáticamente en reposo. Amazon S3 cifra los datos a nivel de objeto a medida que los escribe en el disco y los descifra cuando se accede a ellos. Para obtener más información sobre SSE, consulte Protección de datos mediante el cifrado del servidor en la Guía para desarrolladores de Amazon Simple Storage Service.

Puede elegir entre dos sistemas de administración de claves distintos al especificar SSE en Amazon EMR sin servidor:

  • SSE-S3: Amazon S3 administra las claves en su nombre. No se requiere ninguna configuración adicional en EMR sin servidor.

  • SSE-KMS ‐ Se utiliza an AWS KMS key para configurarlo con políticas adecuadas para EMR Serverless. No se requiere ninguna configuración adicional en EMR sin servidor.

Para usar el AWS KMS cifrado de los datos que escribe en Amazon S3, tiene dos opciones al usar la StartJobRun API. Puede habilitar el cifrado de todo lo que escriba en Amazon S3 o puede habilitar el cifrado de los datos que escriba en un bucket específico. Para obtener más información sobre la API de StartJobRun, consulte la Referencia de la API de EMR sin servidor.

Para activar el AWS KMS cifrado de todos los datos que escriba en Amazon S3, utilice los siguientes comandos cuando llame a la StartJobRun API.

--conf spark.hadoop.fs.s3.enableServerSideEncryption=true --conf spark.hadoop.fs.s3.serverSideEncryption.kms.keyId=<kms_id>

Para activar el AWS KMS cifrado de los datos que escriba en un bucket específico, utilice los siguientes comandos cuando llame a la StartJobRun API.

--conf spark.hadoop.fs.s3.bucket.<amzn-s3-demo-bucket1>.enableServerSideEncryption=true --conf spark.hadoop.fs.s3.bucket.<amzn-s3-demo-bucket1>.serverSideEncryption.kms.keyId=<kms-id>

El SSE con claves proporcionadas por el cliente (SSE-C) no está disponible para su uso con EMR sin servidor.

Cifrado del cliente de Amazon S3

Con el cifrado del cliente de Amazon S3, el proceso de cifrado y descifrado de Amazon S3 se produce en el cliente de EMRFS disponible en cualquier aplicación de Amazon EMR. Los objetos se cifran antes de cargarlos en Amazon S3 y se descifran después de que se descarguen. El proveedor que especifique proporciona la clave de cifrado que utiliza el cliente. El cliente puede usar claves proporcionadas por AWS KMS (CSE-KMS) o una clase de Java personalizada que proporciona la clave raíz del cliente (CSE-C). Los detalles de cifrado son ligeramente diferentes entre CSE-KMS y CSE-C, en función del proveedor especificado y de los metadatos del objeto que se descifra o se cifra. Si utiliza Amazon S3 CSE con claves administradas por el cliente, su rol de ejecución utilizado para ejecutar trabajos en una aplicación EMR sin servidor debe tener acceso a la clave. Podrían aplicarse cargos adicionales de KMS. Para obtener más información sobre estas diferencias, consulte Protección de los datos con el cifrado del cliente en la Guía para desarrolladores de Amazon Simple Storage Service.

Cifrado de disco local

Los datos almacenados en un almacenamiento efímero se cifran con claves propias del servicio mediante el algoritmo de cifrado AES-256 estándar del sector.

Administración de claves

Puede configurar KMS para que rote automáticamente las claves de KMS. De este modo, las claves se rotan una vez al año y se guardan las antiguas de forma indefinida para poder seguir descifrando los datos. Para obtener más información, consulte Rotación de claves maestras de cliente.

Cifrado en tránsito

Las siguientes características de cifrado específicas de la aplicación están disponibles con Amazon EMR sin servidor:

  • Spark

    • De forma predeterminada, la comunicación entre los controladores y los ejecutores de Spark está autenticada y es interna. La comunicación RPC entre los controladores y los ejecutores está cifrada.

  • Hive

    • La comunicación entre el metaalmacén de AWS Glue y las aplicaciones EMR Serverless se realiza a través de TLS.

Debe permitir únicamente las conexiones cifradas a través de HTTPS (TLS) mediante la SecureTransport condición aws: en las políticas de IAM de bucket de Amazon S3.