Seguridad en Amazon EMR - Amazon EMR

Las traducciones son generadas a través de traducción automática. En caso de conflicto entre la traducción y la version original de inglés, prevalecerá la version en inglés.

Seguridad en Amazon EMR

La seguridad y el cumplimiento son una responsabilidad que usted comparte. AWS Este modelo de responsabilidad compartida puede ayudar a aliviar la carga operativa al AWS operar, administrar y controlar los componentes desde el sistema operativo anfitrión y la capa de virtualización hasta la seguridad física de las instalaciones en las que operan los clústeres de EMR. Usted asume la responsabilidad de gestionar y actualizar los clústeres de Amazon EMR, así como de configurar el software de la aplicación y los controles de seguridad AWS proporcionados. Esta diferenciación de responsabilidad se conoce comúnmente como seguridad de la nube y seguridad en la nube.

  • Seguridad de la nube: AWS es responsable de proteger la infraestructura Servicios de AWS en la que se ejecuta AWS. AWS también le proporciona servicios que puede utilizar de forma segura. Auditores independientes prueban y verifican periódicamente la eficacia de nuestra seguridad en el marco de los programas de conformidad de AWS. Para obtener más información sobre los programas de conformidad que se aplican a Amazon EMR, consulte Servicios de AWS el alcance por programa de conformidad.

  • Seguridad en la nube: también es responsable de realizar todas las tareas de configuración y administración de la seguridad necesarias para proteger un clúster de Amazon EMR. Los clientes que despliegan un clúster de Amazon EMR son responsables de la administración del software de aplicación instalado en las instancias y de la configuración de las funciones AWS proporcionadas, como los grupos de seguridad, el cifrado y el control de acceso, de acuerdo con sus requisitos y las leyes y normativas aplicables.

Esta documentación le permite comprender cómo aplicar el modelo de responsabilidad compartida cuando se utiliza Amazon EMR. Los temas de este capítulo muestran cómo configurar Amazon EMR y utilizar otros Servicios de AWS para cumplir sus objetivos de seguridad y conformidad.

Seguridad de redes e infraestructuras

Como servicio gestionado, Amazon EMR está protegido por los procedimientos de seguridad de la red AWS global que se describen en el documento técnico Amazon Web Services: descripción general de los procesos de seguridad. AWS Los servicios de protección de redes e infraestructuras le ofrecen protecciones detalladas tanto a nivel de host como de red. Amazon EMR admite Servicios de AWS y funciones de la aplicación que abordan los requisitos de conformidad y protección de la red.

  • Los grupos de seguridad de Amazon EC2 actúan como un firewall virtual para las instancias de clúster de Amazon EMR, lo que limita el tráfico de red entrante y saliente. Para obtener más información, consulte Controlar el tráfico de red con grupos de seguridad.

  • El bloqueo de acceso público (BPA) de Amazon EMR le impide lanzar un clúster en una subred pública si el clúster tiene una configuración de seguridad que permite el tráfico entrante desde direcciones IP públicas de un puerto. Para obtener más información, consulte Uso de Amazon EMR para bloquear el acceso público.

  • Secure Shell (SSH) ayuda a proporcionar a los usuarios una forma segura de conectarse a la línea de comandos en las instancias de clúster. También puede usar SSH para ver las interfaces web que las aplicaciones alojan en el nodo principal de un clúster. Para obtener más información, consulte Usar un par de claves EC2 para las credenciales SSH y Conectarse a un clúster.

Actualizaciones de la AMI de Amazon Linux predeterminada para Amazon EMR

importante

Los clústeres de Amazon EMR que ejecutan las imágenes de máquina de Amazon (AMI) de Amazon Linux o Amazon Linux 2 utilizan el comportamiento predeterminado de Amazon Linux y no descargan ni instalan automáticamente actualizaciones importantes y críticas del kernel que requieren un reinicio. Este comportamiento es el mismo que el de otras instancias de Amazon EC2 que ejecutan la AMI predeterminada de Amazon Linux. Si aparecen nuevas actualizaciones de software de Amazon Linux que requieren un reinicio (por ejemplo, actualizaciones del kernel, NVIDIA y CUDA) tras el lanzamiento de una versión de Amazon EMR, las instancias de clúster de Amazon EMR que ejecutan la AMI predeterminada no descargan ni instalan automáticamente esas actualizaciones. Para obtener actualizaciones del kernel, puede personalizar la AMI de Amazon EMR para que utilice la AMI de Amazon Linux más reciente.

En función del nivel de seguridad de la aplicación y del tiempo que lleve ejecutándose un clúster, puede optar por reiniciar el clúster periódicamente para aplicar las actualizaciones de seguridad, o crear una acción de arranque para personalizar la instalación y las actualizaciones de los paquetes. También puede optar por probar y, a continuación, instalar determinadas actualizaciones de seguridad en las instancias del clúster en ejecución. Para obtener más información, consulte Uso de la AMI de Amazon Linux predeterminada para Amazon EMR. Tenga en cuenta que la configuración de red debe permitir la salida de HTTP y HTTPS a los repositorios de Linux en Amazon S3; de lo contrario, las actualizaciones de seguridad no se realizarán correctamente.

AWS Identity and Access Management con Amazon EMR

AWS Identity and Access Management (IAM) es un AWS servicio que ayuda a un administrador a controlar de forma segura el acceso a los AWS recursos. Los administradores de IAM controlan quién se puede autenticar (iniciar sesión) y autorizar (tener permisos) para utilizar los recursos de Amazon EMR. Las identidades de IAM incluyen usuarios, grupos y roles. Una función de IAM es similar a la de un usuario de IAM, pero no está asociada a una persona específica y está pensada para que pueda asumirla cualquier usuario que necesite permisos. Para obtener más información, consulte AWS Identity and Access Management Amazon EMR. Amazon EMR utiliza varias funciones de IAM para ayudarle a implementar controles de acceso para los clústeres de Amazon EMR. La IAM es un AWS servicio que puede utilizar sin coste adicional.

  • Función de IAM para Amazon EMR (función EMR): controla la forma en que el servicio Amazon EMR puede acceder a Servicios de AWS otros en su nombre, como el aprovisionamiento de instancias de Amazon EC2 cuando se lanza el clúster de Amazon EMR. Para obtener más información, consulte Configurar las funciones de servicio de IAM para los permisos Servicios de AWS y los recursos de Amazon EMR.

  • Función de IAM para instancias EC2 en clúster (perfil de instancia EC2): función que se asigna a cada instancia EC2 del clúster de Amazon EMR cuando se lanza la instancia. Los procesos de aplicación que se ejecutan en el clúster utilizan este rol para interactuar con otros Servicios de AWS, como Amazon S3. Para obtener más información, consulte la función de IAM para las instancias EC2 del clúster.

  • Función de IAM para aplicaciones (función de tiempo de ejecución): función de IAM que puede especificar al enviar un trabajo o una consulta a un clúster de Amazon EMR. El trabajo o la consulta que envíe a su clúster de Amazon EMR utiliza el rol de tiempo de ejecución para acceder a AWS los recursos, como los objetos de Amazon S3. Puede especificar roles en tiempo de ejecución con Amazon EMR para los trabajos de Spark y Hive. Al utilizar funciones de tiempo de ejecución, puede aislar los trabajos que se ejecutan en el mismo clúster mediante distintas funciones de IAM. Para obtener más información, consulte Uso del rol de IAM como rol de tiempo de ejecución con Amazon EMR.

Las identidades de la fuerza laboral se refieren a los usuarios que crean u operan cargas de trabajo en ellas. AWS Amazon EMR proporciona soporte para las identidades de los empleados con lo siguiente:

  • AWS El centro de identidad de IAM (Idc) es el recomendado Servicio de AWS para administrar el acceso de los usuarios a los recursos. AWS Es un lugar único donde puede asignar las identidades de sus empleados y acceder de forma uniforme a varias AWS cuentas y aplicaciones. Amazon EMR respalda las identidades de los empleados mediante una propagación de identidades fiable. Con una capacidad confiable de propagación de identidades, un usuario puede iniciar sesión en la aplicación y esa aplicación puede transmitir la identidad del usuario a otro usuario Servicios de AWS para que autorice el acceso a los datos o los recursos. Para obtener más información, consulte Habilitar el soporte para el centro de identidad de AWS IAM con Amazon EMR.

    El Protocolo ligero de acceso a directorios (LDAP) es un protocolo de aplicación estándar del sector, abierto, independiente del proveedor y que permite acceder a la información sobre los usuarios, los sistemas, los servicios y las aplicaciones y mantenerla a través de la red. El LDAP se utiliza habitualmente para la autenticación de usuarios en servidores de identidad corporativa como Active Directory (AD) y OpenLDAP. Al habilitar LDAP con clústeres de EMR, permite a los usuarios utilizar sus credenciales existentes para autenticarse y acceder a los clústeres. Para obtener más información, consulte Habilitar el soporte para LDAP con Amazon EMR.

    Kerberos es un protocolo de autenticación de red diseñado para proporcionar una autenticación sólida para las aplicaciones cliente/servidor mediante el uso de criptografía de clave secreta. Cuando utiliza Kerberos, Amazon EMR configura Kerberos para las aplicaciones, los componentes y los subsistemas que instala en el clúster, de modo que se autentican entre sí. Para acceder a un clúster con Kerberos configurado, debe haber un elemento principal de Kerberos en el controlador de dominio de Kerberos (KDC). Para obtener más información, consulte Habilitar la compatibilidad con Kerberos con Amazon EMR.

Clústeres de un solo inquilino y de varios inquilinos

De forma predeterminada, un clúster está configurado para un solo arrendamiento con el perfil de instancia EC2 como identidad de IAM. En un clúster de un solo inquilino, cada trabajo tiene acceso total y completo al clúster y el acceso a todos los Servicios de AWS recursos se realiza en función del perfil de la instancia EC2. En un clúster con varios inquilinos, los inquilinos están aislados unos de otros y no tienen acceso total ni completo a los clústeres ni a las instancias de EC2 del clúster. La identidad de los clústeres de varios inquilinos son las funciones de tiempo de ejecución o las que identifica el personal. En un clúster multiusuario, también puede habilitar la compatibilidad con el control de acceso detallado (FGAC) mediante Apache Ranger. AWS Lake Formation En un clúster que tiene habilitadas las funciones de ejecución o el FGAC, el acceso al perfil de instancia EC2 también está inhabilitado a través de iptables.

importante

Cualquier usuario que tenga acceso a un clúster de un solo inquilino puede instalar cualquier software en el sistema operativo (SO) Linux, cambiar o eliminar los componentes de software instalados por Amazon EMR y afectar a las instancias EC2 que forman parte del clúster. Si quiere asegurarse de que los usuarios no puedan instalar o cambiar las configuraciones de un clúster de Amazon EMR, le recomendamos que habilite la multitenencia para el clúster. Para habilitar la multitenencia en un clúster, habilite la compatibilidad con el rol de tiempo de ejecución, el centro de identidad de AWS IAM, Kerberos o LDAP.

Protección de datos

Con él AWS, puede controlar sus datos mediante el uso Servicios de AWS de herramientas para determinar cómo están protegidos los datos y quién tiene acceso a ellos. Los servicios como AWS Identity and Access Management (IAM) le permiten administrar de forma segura el acceso Servicios de AWS y los recursos. AWS CloudTrail permite la detección y la auditoría. Amazon EMR le facilita el cifrado de los datos en reposo en Amazon S3 mediante claves gestionadas por usted AWS o totalmente gestionadas por usted. Amazon EMR también admite la activación del cifrado de los datos en tránsito. Para obtener más información, consulte Cifrar datos en reposo y en tránsito.

Control de acceso a los datos

Con el control de acceso a los datos, puede controlar a qué datos puede acceder una identidad de IAM o una identidad de personal. Amazon EMR admite los siguientes controles de acceso:

  • Políticas de IAM basadas en la identidad: administre los permisos para las funciones de IAM que utilice con Amazon EMR. Las políticas de IAM se pueden combinar con el etiquetado para controlar el acceso de forma individualizada. cluster-by-cluster Para obtener más información, consulte AWS Identity and Access Management Amazon EMR.

  • AWS Lake Formationcentraliza la administración de permisos de sus datos y facilita su uso compartido en toda la organización y de forma externa. Puede usar Lake Formation para permitir un acceso detallado a nivel de columnas a las bases de datos y tablas del catálogo de datos de Glue. AWS Para obtener más información, consulte Uso AWS Lake Formation con Amazon EMR.

  • El acceso a Amazon S3 otorga identidades de mapas que mapean identidades en directorios como Active Directory o entidades principales AWS Identity and Access Management (IAM) a conjuntos de datos de S3. Además, el acceso a S3 otorga al registro la identidad del usuario final y la aplicación utilizada para acceder a los datos de S3. AWS CloudTrail Para obtener más información, consulte Uso de las concesiones de acceso a Amazon S3 con Amazon EMR.

  • Apache Ranger es un marco para habilitar, monitorear y administrar la seguridad integral de los datos en toda la plataforma Hadoop. Amazon EMR admite un control de acceso detallado basado en Apache Ranger para Apache Hive Metastore y Amazon S3. Para obtener más información, consulte Integrar Apache Ranger con Amazon EMR.