Requisitos y opciones de listas de permitidos en Amazon Macie - Amazon Macie

Las traducciones son generadas a través de traducción automática. En caso de conflicto entre la traducción y la version original de inglés, prevalecerá la version en inglés.

Requisitos y opciones de listas de permitidos en Amazon Macie

En Amazon Macie, puede utilizar listas de permitidos para especificar texto o patrones de texto que desea que Macie ignore cuando inspeccione objetos de Amazon Simple Storage Service (Amazon S3) en busca de datos confidenciales. Macie ofrece opciones para dos tipos de listas de permitidos, texto predefinido y expresiones regulares.

Una lista de texto predefinido es útil si desea que Macie ignore palabras, frases y otros tipos de secuencias de caracteres específicos que no considera confidenciales. Algunos ejemplos son los nombres de los representantes públicos de su organización, números de teléfono concretos o datos de muestra específicos que su organización utiliza para las pruebas. Si Macie encuentra texto que coincide con los criterios de un identificador de datos gestionado o personalizado y el texto también coincide con una entrada de una lista de permitidos, Macie no informa de esa aparición de texto en las búsquedas de datos confidenciales, las estadísticas y otros tipos de resultados.

Una expresión regular (regex) es útil si desea que Macie ignore el texto que varía o que es probable que cambie y que, al mismo tiempo, sigue un patrón común. La regex especifica un patrón de texto que debe ignorarse. Algunos ejemplos son los números de teléfono públicos de su organización, las direcciones de correo electrónico del dominio de su organización o los datos de muestra de patrones que su organización utiliza para realizar pruebas. Si Macie encuentra texto que coincide con los criterios de un identificador de datos gestionado o personalizado y el texto también coincide con un patrón de expresiones regulares en una lista de permitidos, Macie no informa de esa aparición de texto en las búsquedas de datos confidenciales, las estadísticas y otros tipos de resultados.

Puede crear y usar ambos tipos de listas de permitidos en todos los Regiones de AWS lugares en los que Macie esté disponible actualmente, excepto en la región de Asia Pacífico (Osaka). Cuando cree y gestione listas de permitidos, tenga en cuenta las siguientes opciones y requisitos. Tenga en cuenta también que las entradas de listas de permitidos y los patrones regex para direcciones de correo no son compatibles.

Opciones y requisitos para las listas de texto predefinidas

Para este tipo de lista de permitidos, se proporciona un archivo de texto plano delimitado por líneas que enumera las secuencias de caracteres específicas que se deben ignorar. Las entradas de la lista suelen ser palabras, frases y otros tipos de secuencias de caracteres que no se consideran confidenciales, que no es probable que cambien y que no se adhieren necesariamente a un patrón específico. Si utiliza este tipo de lista, Amazon Macie no informa de las apariciones de texto que coincidan exactamente con una entrada de la lista. Macie trata cada entrada de la lista como un valor literal de cadena.

Para utilizar este tipo de lista de permitidos, empiece por crear la lista en un editor de texto y guárdela como archivo de texto sin formato. A continuación, sube la lista a un depósito de uso general de S3. Asegúrese también de que la configuración de almacenamiento y cifrado del depósito y del objeto permita a Macie recuperar y descifrar la lista. A continuación, cree y configure los ajustes de la lista en Macie.

Después de configurar los ajustes en Macie, le recomendamos que pruebe la lista de permitidos con un conjunto de datos pequeño y representativo de su cuenta u organización. Para probar una lista, puede crear un trabajo único y configurarlo para que utilice la lista además de los identificadores de datos administrados y los identificadores de datos personalizados que suele utilizar para analizar los datos. A continuación, puede revisar los resultados del trabajo: resultados de datos confidenciales, resultados de detección de datos confidenciales o ambos. Si los resultados del trabajo difieren de lo que espera, puede cambiar y probar la lista hasta que los resultados sean los esperados.

Cuando termine de configurar y probar una lista de permitidos, puede crear y configurar trabajos adicionales para utilizarla, o añadirla a su configuración automática de detección de datos confidenciales de su cuenta. Cuando esos trabajos comienzan a ejecutarse o se inicia el siguiente ciclo de análisis de detección automatizado, Macie recupera la última versión de la lista de Amazon S3 y la almacena en la memoria temporal. Luego, Macie utiliza esta copia temporal de la lista cuando inspecciona los objetos de S3 en busca de datos confidenciales. Cuando finaliza la ejecución de un trabajo o el ciclo de análisis, Macie borra permanentemente de la memoria su copia de la lista. La lista no persiste en Macie. Solo persisten en Macie los ajustes de la lista.

importante

Dado que las listas de texto predefinido no persisten en Macie, es importante comprobar periódicamente el estado de las listas de permitidos. Si Macie no puede recuperar o analizar una lista para cuya utilización se ha configurado un trabajo o una detección automatizada, Macie no utilizará la lista. Esto podría provocar resultados inesperados, como resultados de datos confidenciales para el texto que especificó en la lista.

Requisitos de sintaxis

Cuando cree este tipo de lista de permitidos, tenga en cuenta los siguientes requisitos para el archivo de la lista:

  • La lista debe almacenarse como un archivo de texto plano (text/plain), como un archivo .txt, .text o .plain.

  • La lista debe utilizar saltos de línea para separar las entradas individuales. Por ejemplo:

    Akua Mansa John Doe Martha Rivera 425-555-0100 425-555-0101 425-555-0102

    Macie trata cada línea como una entrada única y distinta de la lista. El archivo también puede contener líneas en blanco para mejorar la legibilidad. Macie omite las líneas en blanco cuando analiza el archivo.

  • Cada entrada puede contener entre 1 y 90 caracteres UTF-8.

  • Cada entrada debe ser una coincidencia completa y exacta para que el texto sea ignorado. Macie no admite el uso de caracteres comodín ni valores parciales para las entradas. Macie trata cada entrada como un valor literal de cadena. Las coincidencias no distinguen entre mayúsculas y minúsculas.

  • El archivo puede contener entre 1 y 100 000 entradas.

  • El tamaño total del archivo no puede superar los 35 MB.

Requisitos de almacenamiento

A medida que añada y administre listas de permitidos en Amazon S3, tenga en cuenta los siguientes requisitos y recomendaciones de almacenamiento:

  • Soporte regional: la lista de personas permitidas debe almacenarse en un depósito que se encuentre en el mismo Región de AWS lugar que tu cuenta de Macie. Macie no puede acceder a una lista de permitidos si está almacenada en otra región.

  • Propiedad de un grupo: una lista de personas permitidas debe almacenarse en un grupo que sea de tu Cuenta de AWS propiedad. Si desea que otras cuentas utilicen la misma lista de permitidos, considere la posibilidad de crear una regla de replicación de Amazon S3 para replicar la lista en los buckets propiedad de esas cuentas. Para obtener información acerca de cómo replicar objetos de S3, consulte Replicación de objetos en la Guía del usuario de Amazon Simple Storage Service.

    Además, tu identidad AWS Identity and Access Management (IAM) debe tener acceso de lectura al depósito y al objeto que almacenan la lista. De lo contrario, no podrá crear o actualizar la configuración de la lista ni comprobar su estado mediante Macie.

  • Tipos y clases de almacenamiento: una lista de objetos permitidos debe almacenarse en un depósito de uso general, no en un depósito de directorios. Además, debe almacenarse con una de las siguientes clases de almacenamiento: redundancia reducida (RRS), S3 Glacier Instant Retrieval, S3 Intelligent-Tiering, S3 One Zone-IA, S3 Standard o S3 Standard-IA.

  • Políticas de bucket: si guardas una lista de permitidos en un bucket que tiene una política de bucket restrictiva, asegúrate de que la política permita a Macie recuperar la lista. Para ello, puede añadir una condición para la función vinculada al servicio de Macie a la política de bucket. Para obtener más información, consulte Permitir a Macie el acceso a buckets y objetos de S3.

    Asegúrese también de que la política permita que su identidad de IAM tenga acceso de lectura al bucket. De lo contrario, no podrá crear o actualizar la configuración de la lista ni comprobar su estado mediante Macie.

  • Rutas de objetos: si almacena más de una lista de permitidos en Amazon S3, la ruta de objetos de cada lista debe ser única. En otras palabras, cada lista de permitidos debe almacenarse por separado como su propio objeto de S3.

  • Control de versiones: cuando añada una lista de permitidos a un bucket, le recomendamos que también active el control de versiones del bucket. A continuación, puede utilizar los valores de fecha y hora para correlacionar las versiones de la lista con los resultados de los trabajos de detección de datos confidenciales y los ciclos automatizados de detección de datos confidenciales que utilizan la lista. Esto puede ayudarle en las auditorías o investigaciones sobre protección y privacidad de datos que realice.

  • Bloqueo de objetos: para evitar que una lista de objetos permitidos se elimine o sobrescriba durante un período de tiempo determinado o indefinidamente, puedes habilitar el bloqueo de objetos para el depósito que almacena la lista. Activar esta opción no impide que Macie acceda a la lista. Para obtener información sobre este ajuste, consulte Usar Bloqueo de objetos de S3 en la Guía del usuario de Amazon Simple Storage Service.

Requisitos de cifrado y descifrado

Si cifra una lista de permitidos en Amazon S3, la política de permisos de la función vinculada al servicio de Macie suele conceder a Macie los permisos que necesita para descifrar la lista. Sin embargo, esto depende del tipo de cifrado utilizado:

  • Si una lista se cifra mediante el cifrado del lado del servidor con una clave gestionada por Amazon S3 (SSE-S3), Macie puede descifrar la lista. La función vinculada al servicio para su cuenta de Macie concede a Macie los permisos que necesita.

  • Si una lista se cifra mediante un cifrado del lado del servidor con un cifrado AWS gestionado AWS KMS key (DSSE-KMS o SSE-KMS), Macie puede descifrar la lista. La función vinculada al servicio para su cuenta de Macie concede a Macie los permisos que necesita.

  • Si una lista se cifra mediante un cifrado del lado del servidor gestionado por el cliente AWS KMS key (DSSE-KMS o SSE-KMS), Macie solo podrá descifrar la lista si usted permite que Macie utilice la clave. Para obtener información sobre como hacer esto, consulte Permitir a Macie utilizar un sistema gestionado por clientes AWS KMS key.

    nota

    Puede cifrar una lista con un cliente gestionado en un almacén de claves externo. AWS KMS key Sin embargo, es posible que la clave sea más lenta y menos fiable que una clave que se gestione íntegramente dentro de AWS KMS. Si la latencia o un problema de disponibilidad impiden a Macie descifrar la lista, Macie no utiliza la lista cuando analiza objetos de S3. Esto podría provocar resultados inesperados, como resultados de datos confidenciales para el texto que especificó en la lista. Para reducir este riesgo, considere la posibilidad de almacenar la lista en un bucket de S3 que esté configurado para utilizar la clave como clave de bucket de S3.

    Para obtener información sobre el uso de claves de KMS en almacenes de claves externos, consulte Almacenes de claves externos en la AWS Key Management Service Guía para desarrolladores. Para obtener más información sobre el uso de claves de Bucket de S3, consulte Reducción del costo de SSE-KMS con las claves de bucket de Amazon S3 en la Guía del usuario de Amazon Simple Storage Service.

  • Si una lista está cifrada mediante cifrado del lado del servidor con una clave proporcionada por el cliente (SSE-C) o cifrado del cliente, Macie no puede descifrar la lista. Considere utilizar en su lugar el cifrado SSE-S3, DSSE-KMS o SSE-KMS.

Si una lista está cifrada con una clave KMS AWS administrada o una clave KMS administrada por el cliente, su identidad AWS Identity and Access Management (IAM) también debe poder usar la clave. De lo contrario, no podrá crear o actualizar la configuración de la lista ni comprobar su estado mediante Macie. Para saber cómo comprobar o cambiar los permisos de una clave KMS, consulte Políticas de claves en AWS KMS en la Guía para desarrolladores de AWS Key Management Service .

Para obtener información detallada sobre las opciones de cifrado de los datos de Amazon S3, consulte Protección de datos con cifrado en la Guía del usuario de Amazon Simple Storage Service.

Recomendaciones y consideraciones de diseño

En general, Macie trata cada entrada de una lista de permitidos como un valor literal de cadena. Es decir, Macie ignora cada aparición de texto que coincida exactamente con una entrada completa de una lista de permitidos. Las coincidencias no distinguen entre mayúsculas y minúsculas.

Sin embargo, Macie utiliza las entradas como parte de un marco más amplio de extracción y análisis de datos. El marco incluye funciones de machine learning y concordancia de patrones que tienen en cuenta dimensiones como las variaciones gramaticales y sintácticas y, en muchos casos, la proximidad de palabras clave. El marco también determina el tipo de archivo o el formato de almacenamiento de un objeto de S3. Por lo tanto, tenga en cuenta las siguientes consideraciones y recomendaciones a la hora de añadir y gestionar las entradas de una lista de permitidos.

Prepárese para diferentes tipos de archivos y formatos de almacenamiento

En el caso de los datos no estructurados, como el texto de un archivo en formato de documento portátil de Adobe (.pdf), Macie ignora el texto que coincide exactamente con una entrada completa de una lista de permitidos, incluido el texto que abarca varias líneas o páginas.

En el caso de los datos estructurados, como los datos en columnas de un archivo CSV o los datos basados en registros de un archivo JSON, Macie ignora el texto que coincide exactamente con una entrada completa de una lista de permitidos si todo el texto está almacenado en un único campo, celda o matriz. Este requisito no se aplica a los datos estructurados almacenados en un archivo no estructurado, como una tabla en un archivo .pdf.

Por ejemplo, considere el siguiente contenido en un archivo CSV:

Name,Account ID Akua Mansa,111111111111 John Doe,222222222222

Si Akua Mansa y John Doe son entradas de una lista de permitidos, Macie ignora esos nombres en el archivo CSV. El texto completo de cada entrada de la lista se guarda en un único campo Name.

Por el contrario, considere un archivo CSV que contenga las siguientes columnas y campos:

First Name,Last Name,Account ID Akua,Mansa,111111111111 John,Doe,222222222222

Si Akua Mansa y John Doe son entradas de una lista de permitidos, Macie no ignora esos nombres en el archivo CSV. Ninguno de los campos del archivo CSV contiene el texto completo de una entrada de la lista de permitidos.

Incluya las variantes más comunes

Añada entradas para variaciones comunes de datos numéricos, nombres propios, términos y secuencias de caracteres alfanuméricos. Por ejemplo, si añade nombres o frases que contengan solo un espacio entre palabras, añada también variaciones que incluyan dos espacios entre palabras. Del mismo modo, añada palabras y frases que contengan y no contengan caracteres especiales, y considere la posibilidad de incluir variaciones sintácticas y semánticas comunes.

Para el número de teléfono estadounidense 425-555-0100, por ejemplo, podría añadir estas entradas a una lista de permitidos:

425-555-0100 425.555.0100 (425) 555-0100 +1-425-555-0100

Para la fecha del 1 de febrero de 2022, en un contexto multinacional, podría añadir entradas que incluyan variaciones sintácticas comunes para el inglés y el francés, incluidas las variaciones que incluyen y no incluyen caracteres especiales:

February 1, 2022 1 février 2022 1 fevrier 2022 Feb 01, 2022 1 fév 2022 1 fev 2022 02/01/2022 01/02/2022

Para los nombres de personas, incluya entradas para las distintas formas de un nombre que no considere confidenciales. Por ejemplo, incluya: el nombre seguido del apellido; el apellido seguido del nombre, el nombre y el apellido separados por un espacio; el nombre y el apellido separados por dos espacios; y apodos.

Para el nombre Martha Rivera, por ejemplo, podría añadir:

Martha Rivera Martha Rivera Rivera, Martha Rivera, Martha Rivera Martha Rivera Martha

Si desea ignorar variaciones de un nombre específico que contiene muchas partes, cree una lista de permitidos que utilice una expresión regular en su lugar. Por ejemplo, para el nombre Dra. Martha Lyda Rivera, PhD, podría utilizar la siguiente expresión regular: ^(Dr. )?Martha\s(Lyda|L\.)?\s?Rivera,?( PhD)?$.

Opciones y requisitos de las expresiones regulares en las listas de permitidos

Para este tipo de lista, se especifica una expresión regular (regex) que define un patrón de texto que se debe ignorar; por ejemplo, números de teléfono públicos de su organización, direcciones de correo electrónico del dominio de su organización o datos de muestra con patrones que su organización utiliza para realizar pruebas. La regex define un patrón común para un tipo específico de datos que usted no considera confidenciales. Si usa este tipo de lista de permitidos, Amazon Macie no informa de los resultados de texto que coincidan exactamente con el patrón especificado. A diferencia de una lista de permitidos que especifica el texto predefinido que debe ignorarse, usted crea y almacena la expresión regular y el resto de la configuración de la lista en Macie.

Al crear o actualizar este tipo de lista de permitidos, puede probar la expresión regular de la lista con datos de muestra antes de guardarla. Le recomendamos que lo haga con varios conjuntos de datos de muestra. Si crea una expresión regular demasiado general, Macie podría ignorar las apariciones de texto que considere confidenciales. Si la expresión regular es demasiado específica, Macie podría ignorar las apariciones de texto que no considere confidenciales. Para protegerse contra expresiones malformadas o de larga duración, Macie también compila y comprueba automáticamente la expresión regular contra una colección de texto de muestra, y le notifica los problemas que debe resolver.

Para realizar pruebas adicionales, le recomendamos que también pruebe la expresión regular de la lista con un conjunto de datos pequeño y representativo de su cuenta u organización. Para ello, puede crear un trabajo único y configurarlo para que utilice la lista además de los identificadores de datos administrados y los identificadores de datos personalizados que suele utilizar para analizar los datos. A continuación, puede revisar los resultados del trabajo: resultados de datos confidenciales, resultados de detección de datos confidenciales o ambos. Si los resultados del trabajo difieren de lo que espera, puede cambiar y probar la expresión regular hasta que los resultados sean los esperados.

Cuando configure y pruebe una lista de permitidos, puede crear y configurar trabajos adicionales para utilizarla, o añadirla a su configuración automática de detección de datos confidenciales de su cuenta. Cuando se ejecutan esos trabajos o Macie realiza una detección automática para tu cuenta, Macie utiliza la última versión de la expresión regular de la lista para analizar los datos.

Soporte y recomendaciones sobre la sintaxis

Una lista de permitidos puede especificar una expresión regular (regex) que contenga hasta 512 caracteres. Macie admite un subconjunto de la sintaxis de patrones de expresiones regulares proporcionado por la biblioteca de expresiones regulares compatibles con Perl (PCRE). De las construcciones que proporciona la biblioteca PCRE, Macie no admite los siguientes elementos de patrón:

  • Referencias inversas

  • Capturar grupos

  • Patrones condicionales

  • Código incrustado

  • Indicadores de patrones globales, como /i, /m y /x

  • Patrones recursivos

  • Afirmaciones positivas y negativas de ancho cero retrospectivas y prospectivas, como ?=, ?!, ?<= y ?<!

Para crear patrones de expresiones regulares eficaces para las listas de permitidos, tenga en cuenta también los siguientes consejos y recomendaciones:

  • Anclajes: utilice anclajes (^ o $) solo si espera que el patrón aparezca al principio o al final de un archivo, no al principio o al final de una línea.

  • Repeticiones acotadas: por motivos de rendimiento, Macie limita el tamaño de los grupos de repeticiones acotadas. Por ejemplo, \d{100,1000} no se compilará en Macie. Para aproximarse a esta funcionalidad, puede utilizar una repetición abierta, como \d{100,}.

  • Indistinción entre mayúsculas y minúsculas: para hacer que partes de un patrón no distingan mayúsculas de minúsculas, puede usar el constructo (?i) en lugar de la bandera /i.

  • Rendimiento: no es necesario optimizar los prefijos o las alternancias manualmente. Por ejemplo, cambiar /hello|hi|hey/ a /h(?:ello|i|ey)/ no mejorará el rendimiento.

  • Comodín: por motivos de rendimiento, Macie limita el número de comodines que se repiten. Por ejemplo, a*b*a* no se compilará en Macie.

  • Alternancia: para especificar más de un patrón en una única lista de permitidos, puede utilizar el operador de alternancia (|) para concatenar los patrones. Si lo hace, Macie utiliza la lógica OR para combinar los patrones y formar uno nuevo. Por ejemplo, si especifica (apple|orange), Macie reconoce tanto manzana como naranja como coincidencia e ignora las apariciones de ambas palabras. Si concatena patrones, asegúrese de limitar la longitud total de la expresión concatenada a 512 caracteres o menos.

Por último, cuando desarrolle la expresión regular, diséñela para que se adapte a distintos tipos de archivos y formatos de almacenamiento. Macie utiliza la regex como parte de un marco más amplio de extracción y análisis de datos. El marco determina el tipo de archivo o el formato de almacenamiento de un objeto de S3. En el caso de los datos estructurados, como los datos en columnas de un archivo CSV o los datos basados en registros de un archivo JSON, Macie ignora el texto que coincide completamente con el patrón solo si todo el texto está almacenado en un único campo, celda o matriz. Este requisito no se aplica a los datos estructurados almacenados en un archivo no estructurado, como una tabla en un archivo Adobe Portable Document Format (.pdf). En el caso de los datos no estructurados, como el texto de un archivo .pdf, Macie ignora el texto que coincide completamente con el patrón, incluido el texto que abarca varias líneas o páginas.

Ejemplos

Los siguientes ejemplos muestran patrones de expresiones regulares válidos para algunos escenarios comunes.

Direcciones de correo electrónico

Si utiliza un identificador de datos personalizados para detectar direcciones de correo electrónico, puede ignorar las direcciones de correo electrónico que no considere confidenciales, como las direcciones de correo electrónico de su organización.

Para ignorar las direcciones de correo electrónico de un determinado dominio de segundo y primer nivel, puede utilizar este patrón:

[a-zA-Z0-9_.+\\-]+@example\.com

Donde example es el nombre del dominio de segundo nivel y com es el dominio de primer nivel. En este caso, Macie hace coincidir e ignora direcciones como johndoe@example.com y john.doe@example.com.

Para ignorar las direcciones de correo electrónico de un dominio concreto en cualquier dominio de nivel superior genérico (gTLD), como .com o .gov, puede utilizar este patrón:

[a-zA-Z0-9_.+\\-]+@example\.[a-zA-Z]{2,}

Donde example es el nombre del dominio. En este caso, Macie hace coincidir e ignora direcciones como johndoe@example.com, john.doe@example.gov y johndoe@example.edu.

Para ignorar las direcciones de correo electrónico de un dominio concreto en cualquier dominio de nivel superior de código de país (gTLD), como .com o .gov, puede utilizar este patrón:

[a-zA-Z0-9_.+\\-]+@example\.(ca|au)

Donde example es el nombre del dominio y ca y au son ccTLD específicos que hay que ignorar. En este caso, Macie hace coincidir e ignora direcciones como johndoe@example.ca y john.doe@example.au.

Para ignorar las direcciones de correo electrónico que corresponden a un dominio y gTLD concretos e incluir dominios de tercer y cuarto nivel, puede utilizar este patrón:

[a-zA-Z0-9_.+\\-]+@([a-zA-Z0-9-]+\.)?[a-zA-Z0-9-]+\.example\.com

Donde example es el nombre del dominio y com es el gTLD. En este caso, Macie hace coincidir e ignora direcciones como johndoe@www.example.com y john.doe@www.team.example.com.

Números de teléfono

Macie proporciona identificadores de datos administrados que pueden detectar números de teléfono de varios países y regiones. Para ignorar determinados números de teléfono, como los números gratuitos o los números de teléfono públicos de su organización, puede utilizar patrones como los siguientes.

Para ignorar los números de teléfono estadounidenses gratuitos que utilizan el prefijo 800 y tienen el formato (800) ###-####:

^\(?800\)?[ -]?\d{3}[ -]?\d{4}$

Para ignorar los números de teléfono estadounidenses gratuitos que utilizan el prefijo 888 y tienen el formato (888) ###-####:

^\(?888\)?[ -]?\d{3}[ -]?\d{4}$

Para ignorar los números de teléfono franceses de 10 dígitos que incluyen el prefijo 33 y tienen el formato +33 ## ## ## ##:

^\+33 \d( \d\d){4}$

Para ignorar los números de teléfono de EE. UU. y Canadá que utilizan determinados prefijos y códigos de área, no incluyen prefijo de país y tienen el formato (###) ###-####:

^\(?123\)?[ -]?555[ -]?\d{4}$

Donde 123 es el prefijo y 555 es el código de centralita.

Para ignorar los números de teléfono de EE. UU. y Canadá que utilizan determinados prefijos y códigos de área, incluyen prefijo de país y tienen el formato +1 (###) ###-####:

^\+1\(?123\)?[ -]?555[ -]?\d{4}$

Donde 123 es el prefijo y 555 es el código de centralita.