Creación de identificadores de datos personalizados en Amazon Macie - Amazon Macie

Las traducciones son generadas a través de traducción automática. En caso de conflicto entre la traducción y la version original de inglés, prevalecerá la version en inglés.

Creación de identificadores de datos personalizados en Amazon Macie

Un identificador de datos personalizado es un conjunto de criterios que se definen para detectar datos confidenciales en objetos de Amazon Simple Storage Service (Amazon S3). Los criterios consisten en una expresión regular (regex) que define un patrón de texto para que coincida y, opcionalmente, secuencias de caracteres y una regla de proximidad que perfeccionen los resultados.

Con identificadores de datos personalizados, puede definir criterios de detección que reflejen escenarios particulares de su organización, propiedad intelectual o datos de propietario, por ejemplo, identificaciones de empleados, números de cuentas de clientes o clasificaciones de datos internas. Si configura trabajos de descubrimiento de datos confidenciales o el descubrimiento automatizado de datos confidenciales para usar estos identificadores, puede analizar los objetos de S3 de una manera que complemente los identificadores de datos administrados que proporciona Amazon Macie.

Además de los criterios de detección, puede definir ajustes de gravedad personalizados para los resultados de datos confidenciales que genere un identificador de datos personalizado. De forma predeterminada, Macie asigna la gravedad media a todos los resultados que produce un identificador de datos personalizado; la gravedad no cambia en función del número de apariciones de texto que coincidan con los criterios de detección de un identificador de datos personalizado. Al definir una configuración de gravedad personalizada, puede especificar qué gravedad asignar en función del número de apariciones de texto que coincidan con los criterios.

Definir los criterios de detección para los identificadores de datos personalizados

Cuando crea un identificador de datos personalizado, especifica una expresión regular (regex) que define un patrón de texto para que coincida con objetos de S3. Macie admite un subconjunto de la sintaxis de patrones de expresiones regulares proporcionado por la biblioteca de expresiones regulares compatibles con Perl (PCRE). Para obtener más información, consulte Compatibilidad de experiones regulares más adelante en este tema.

También puede especificar secuencias de caracteres, como palabras y frases, y una regla de proximidad para refinar los resultados.

Palabras clave

Son secuencias de caracteres que deben estar cerca del texto que coincida con el patrón de expresiones regulares. Los requisitos de proximidad varían según el formato de almacenamiento o el tipo de archivo del objeto S3:

  • En el caso de los datos estructurados y en columnas, Macie incluye un resultado si el texto coincide con el patrón de expresiones regulares y hay una palabra clave en el nombre del campo o la columna que almacena el texto, o si el texto va precedido por una palabra clave del mismo valor de campo o celda y dentro de la distancia máxima de coincidencia de dicha palabra clave. Esto es válido para los libros de trabajo de Microsoft Excel, los archivos CSV y los archivos TSV.

  • En el caso de los datos estructurados y basados en registros, Macie incluye un resultado si el texto coincide con el patrón de expresiones regulares y el texto se encuentra dentro de la distancia máxima de coincidencia de una palabra clave. La palabra clave puede estar en el nombre de un elemento de la ruta al campo o matriz que almacena el texto, o puede preceder y formar parte del mismo valor en el campo o matriz que almacena el texto. Esto es válido para los contenedores de objetos Apache Avro, los archivos Apache Parquet, los archivos JSON y los archivos JSON Lines.

  • En el caso de los datos no estructurados, Macie incluye un resultado si el texto coincide con el patrón de expresiones regulares y va precedido por una palabra clave dentro de la distancia máxima de coincidencia de la misma. Esto es válido para los archivos de formato de documento portátil de Adobe, los documentos de Microsoft Word, los mensajes de correo electrónico y los archivos de texto no binarios distintos de los archivos CSV, JSON, JSON Lines y TSV. Esto incluye todos los datos estructurados, como las tablas, de estos tipos de archivos.

Puede especificar hasta 50 palabras clave. Cada palabra clave puede contener entre 3 y 90 caracteres UTF-8. Las palabras clave no distinguen entre mayúsculas y minúsculas.

Distancia máxima de coincidencia

Se trata de una regla de proximidad basada en caracteres para las palabras clave. Macie usa esta configuración para determinar si una palabra clave precede al texto que coincide con el patrón de expresiones regulares. La configuración define el número máximo de caracteres que puede existir entre el final de una palabra clave y el final del texto que coincide con el patrón de expresiones regulares. Si el texto coincide con el patrón de expresiones regulares, si aparece después de al menos una palabra clave completa y dentro de la distancia especificada de la palabra clave, Macie lo incluye en los resultados. De lo contrario, Macie la excluye de los resultados.

Puede especificar una distancia de 1 a 300 caracteres. La distancia por defecto es de 50 caracteres. Para obtener los mejores resultados, esta distancia debe ser mayor que el número mínimo de caracteres de texto que la expresión regular está diseñada para detectar. Si solo una parte del texto está dentro de la distancia máxima de coincidencia de una palabra clave, Macie no la incluye en los resultados.

Ignorar palabras

Son secuencias de caracteres que se excluyen de los resultados. Si el texto coincide con el patrón de regex, pero contiene una palabra ignorada, Macie no la incluye en los resultados.

Puede especificar hasta 10 palabras ignoradas. Cada palabra ignorada puede contener entre 4 y 90 caracteres UTF-8. Las palabras ignoradas distinguen mayúsculas de minúsculas.

Por ejemplo, muchas empresas tienen una sintaxis específica para las identificaciones de los empleados. Una de estas sintaxis podría ser: una letra mayúscula que indique si el empleado es empleado a tiempo completo (F) o a tiempo parcial (P), seguida de un guión (-) y una secuencia de ocho dígitos que identifica al empleado. Algunos ejemplos son: F-12345678, para un empleado a tiempo completo, y P-87654321, para un empleado a tiempo parcial.

Si crea un identificador de datos personalizado para detectar las identificaciones de los empleados que utilizan esta sintaxis, puede utilizar la siguiente expresión regular: [A-Z]-\d{8}. Para afinar el análisis y evitar los falsos positivos, también puedes configurar el identificador de datos personalizado para que utilice las palabras clave empleado e ID de empleado y una distancia máxima de coincidencia de 20 caracteres. Con estos criterios, los resultados incluyen texto que coincida con la expresión regular solo si el texto aparece después de la palabra clave empleado o identificador de empleado y todo el texto aparece dentro de los 20 caracteres de una de esas palabras clave.

Para ver una demostración de cómo las palabras clave pueden ayudarle a encontrar datos confidenciales y evitar falsos positivos, vea el siguiente vídeo:

Definir la configuración de búsqueda del nivel de gravedad para los identificadores de los resultados

Al crear un identificador de datos personalizado, también puede definir una configuración de gravedad personalizada para los datos confidenciales que produzca el identificador. De forma predeterminada, Macie asigna la gravedad media a todos los resultados que produce un identificador de datos personalizado; si un objeto S3 contiene al menos una aparición de texto que coincide con los criterios de detección de un identificador de datos personalizado, Macie asigna automáticamente la gravedad media al resultado encontrado.

Con la configuración de gravedad personalizada, puede especificar qué gravedad desea asignar en función del número de apariciones de texto que coincidan con los criterios de detección del identificador de datos personalizado. Para ello, defina umbrales de incidencia para hasta tres niveles de gravedad: bajo (menos grave), medio y alto (más grave). Un umbral de ocurrencias es el número mínimo de coincidencias que deben existir en un objeto de S3 para producir un resultado con la gravedad especificada. Si especifica más de un umbral, los umbrales deben estar en orden ascendente según la gravedad, pasando de bajo a alto.

Por ejemplo, la imagen siguiente muestra la configuración de gravedad de un identificador de datos personalizado que especifica tres umbrales de incidencia, uno para cada nivel de gravedad compatible con Macie.

La sección de Gravedad de la página de Identificadores de datos personalizados incluye tres umbrales de aparición: 1 para el nivel de gravedad bajo, 50 para el nivel de gravedad medio y 100 para el nivel de gravedad alto.

En la siguiente tabla se indica la gravedad de los resultados que produce el identificador de datos personalizado.

Umbral de aparición Nivel de gravedad Resultado
1 Baja Si un objeto de S3 contiene entre 1 y 49 apariciones de texto que coinciden con los criterios de detección, la gravedad del resultado encontrado es baja.
50 Media Si un objeto S3 contiene entre 50 y 99 apariciones de texto que coinciden con los criterios de detección, la gravedad del resultado encontrado es media.
100 Alta Si un objeto S3 contiene 100 o más apariciones de texto que coinciden con los criterios de detección, la gravedad del resultado encontrado es alta.

También puede usar la configuración de gravedad para especificar si se debe crear o no un resultado. Si un objeto S3 contiene menos ocurrencias que el umbral más bajo, Macie no crea ningún resultado.

Creación de identificadores de datos personalizados

Siga estos pasos para crear un identificador de datos personalizado mediante la consola de Amazon Macie. Para crear un identificador de datos personalizado mediante programación, utilice la operación CreateCustomDataIdentifier de la API de Amazon Macie.

Para crear un identificador de datos personalizado
  1. Abra la consola de Amazon Macie en https://console.aws.amazon.com/macie/.

  2. En el panel de navegación, en Configuración, elija Identificadores de datos personalizados.

  3. Seleccione Crear.

  4. En Nombre, introduzca un nombre único para el identificador de datos personalizado. El nombre puede contener hasta 128 caracteres.

    Evite incluir información confidencial en el nombre. Es posible que otros usuarios de su cuenta puedan ver el nombre, en función de las acciones que puedan llevar a cabo en Amazon Macie.

  5. (Opcional) En Descripción, introduzca una breve descripción del identificador de datos personalizado. La descripción puede contener hasta 512 caracteres.

    Evite incluir información confidencial en la descripción. Es posible que otros usuarios de su cuenta puedan ver la descripción, en función de las acciones que puedan llevar a cabo en Macie.

  6. En Expresión regular, introduzca la expresión regular (regex) que define el patrón de texto que debe coincidir. La expresión regular puede contener hasta 512 caracteres. Para obtener información sobre la sintaxis y las restricciones compatibles, consulte Compatibilidad de experiones regulares más adelante en esta sección.

  7. (Opcional) En el caso de las palabras clave, introduzca hasta 50 secuencias de caracteres (separadas por comas) para definir un texto específico que debe estar cerca del texto que coincida con el patrón de expresiones regulares. Cada palabra clave puede contener entre 3 y 90 caracteres UTF-8. Las palabras clave no distinguen entre mayúsculas y minúsculas.

    Macie incluye una aparición en los resultados sólo si el texto coincide con el patrón de expresiones regulares y el texto se encuentra dentro de la distancia máxima de coincidencia de una de estas palabras clave, como se ha explicado en el tema anterior.

  8. (Opcional) En Ignorar palabras, introduzca hasta 10 secuencias de caracteres (separadas por comas) que definan un texto específico para excluirlo de los resultados. Cada palabra ignorada puede contener entre 4 y 90 caracteres UTF-8. Las palabras ignoradas distinguen mayúsculas de minúsculas.

    Macie excluye una aparición de los resultados si el texto coincide con el patrón de expresiones regulares pero contiene una de estas palabras para omitir.

  9. (Opcional) En Distancia de coincidencia máxima, introduzca el número máximo de caracteres que puede existir entre el final de una palabra clave y el final del texto que coincide con el patrón de regex. La distancia puede ser de 1 a 300 caracteres. La distancia por defecto es de 50 caracteres.

    Macie incluye una aparición en los resultados sólo si el texto coincide con el patrón de expresiones regulares y el texto se encuentra dentro de esta distancia de una palabra clave completa, como se ha explicado en el tema anterior.

  10. En Gravedad, elija cómo quiere que Macie asigne la gravedad a los resultados de datos confidenciales que produzca el identificador de datos personalizado:

    • Para asignar automáticamente la gravedad media a todos los resultados, seleccione Utilizar una gravedad media para cualquier número de coincidencias (opción predeterminada). Con esta opción, Macie asigna automáticamente la gravedad media a un resultado si el objeto de S3 afectado contiene una o más apariciones de texto que coinciden con los criterios de detección.

    • Para asignar la gravedad en función de los umbrales de aparición que especifique, elija Usar una configuración personalizada para determinar la gravedad. A continuación, utilice las opciones Umbral de ocurrencias y Nivel de gravedad para especificar el número mínimo de coincidencias que deben existir en un objeto de S3 para obtener un resultado con la gravedad seleccionada.

      Por ejemplo, para asignar la gravedad alta a un resultado que muestre 100 o más apariciones de texto que coincidan con los criterios de detección, introdúzca 100 en el cuadro Umbral de ocurrencias y, a continuación, seleccione alta en la lista de niveles de gravedad.

      Puede especificar hasta tres umbrales de incidencia, uno para cada nivel de gravedad que admita Macie: bajo (para los menos graves), medio o alto (para los más graves). Si especifica más de uno, los umbrales deben estar en orden ascendente según la gravedad, pasando de bajo a alto. Si un objeto de S3 contiene menos apariciones que el umbral más bajo especificado, Macie no crea ningún resultado.

  11. (Opcional) En el caso de las etiquetas, elija Añadir etiqueta y, a continuación, introduzca hasta 50 etiquetas para asignarlas al identificador de datos personalizado.

    Una Etiqueta es una etiqueta que se define y se asigna a determinados tipos de recursos de AWS. Cada etiqueta consta de una clave de etiqueta necesaria y un valor de etiqueta opcional. Las etiquetas pueden ayudarle a identificar, clasificar y administrar recursos de distintas formas, como por finalidad, propietario, entorno u otros criterios. Para obtener más información, consulte Etiquetado de recursos de Amazon Macie.

  12. (Opcional) En Evaluar, introduzca hasta 1000 caracteres en el cuadro de Datos de muestra y, a continuación, elija Probar para probar los criterios de detección. Macie evalúa los datos de la muestra e informa del número de apariciones de texto que coinciden con los criterios. Puede repetir este paso tantas veces como desee para refinar y optimizar los criterios.

    nota

    Le recomendamos encarecidamente que pruebe y ajuste los criterios de detección antes de guardar el identificador de datos personalizado. Dado que los identificadores de datos personalizados se utilizan en los trabajos de detección de información confidencial, no puede editar un identificador de datos personalizado después de guardarlo. Esto ayuda a garantizar que tiene un historial inmutable de resultados de datos confidenciales y resultados de detección para las auditorías o investigaciones de privacidad y protección de datos que lleve a cabo.

  13. Cuando haya terminado, elija Enviar.

Macie comprueba la configuración y verifica que puede compilar la expresión regular. Si hay algún problema con alguna de las configuraciones o con la expresión regular, se produce un error que indica la naturaleza del problema. Una vez solucionados los problemas, puede guardar el identificador de datos personalizado.

Soporte de expresiones regulares en identificadores de datos personalizados

Macie admite un subconjunto de la sintaxis de patrones de expresiones regulares proporcionado por la biblioteca de expresiones regulares compatibles con Perl (PCRE). De las construcciones que proporciona la biblioteca PCRE, Macie no admite los siguientes elementos de patrón:

  • Referencias inversas

  • Capturar grupos

  • Patrones condicionales

  • Código incrustado

  • Indicadores de patrones globales, como /i, /m y /x

  • Patrones recursivos

  • Afirmaciones positivas y negativas de ancho cero retrospectivas y prospectivas, como ?=, ?!, ?<= y ?<!

Para crear patrones de expresiones regulares efectivos para identificadores de datos personalizados, ten en cuenta también los siguientes consejos y recomendaciones:

  • Anclajes: utilice anclajes (^ o $) solo si espera que el patrón aparezca al principio o al final de un archivo, no al principio o al final de una línea.

  • Repeticiones acotadas: por motivos de rendimiento, Macie limita el tamaño de los grupos de repeticiones acotadas. Por ejemplo, \d{100,1000} no se compilará en Macie. Para aproximarse a esta funcionalidad, puede utilizar una repetición abierta, como \d{100,}.

  • Indistinción entre mayúsculas y minúsculas: para hacer que partes de un patrón no distingan mayúsculas de minúsculas, puede usar la construcción (?i) en lugar de la bandera /i.

  • Rendimiento: no es necesario optimizar los prefijos o las alternancias manualmente. Por ejemplo, cambiar /hello|hi|hey/ a /h(?:ello|i|ey)/ no mejorará el rendimiento.

  • Comodín: por motivos de rendimiento, Macie limita el número de comodines que se repiten. Por ejemplo, a*b*a* no se compilará en Macie.

Para protegerse de expresiones mal formadas o de larga duración, Macie comprueba automáticamente los patrones de expresiones regulares comparándolos con una colección de textos de muestra.