Detectar y procesar información confidencial - AWS Adherencia

Las traducciones son generadas a través de traducción automática. En caso de conflicto entre la traducción y la version original de inglés, prevalecerá la version en inglés.

Detectar y procesar información confidencial

La PII transformación Detect identifica la información de identificación personal (PII) en su fuente de datos. Usted elige la PII entidad que desea identificar, cómo desea que se escaneen los datos y qué hacer con la PII entidad que ha sido identificada mediante la PII transformación de Detect.

La PII transformación Detect permite detectar, enmascarar o eliminar las entidades que usted defina o con las que estén predefinidas AWS. Esto permite aumentar la conformidad y reducir la responsabilidad. Por ejemplo, es posible que desee asegurarse de que sus datos no contengan información de identificación personal que pueda leerse y ocultar los números de la seguridad social con una cadena fija (por ejemplo xxx-xx-xxxx), números de teléfono o direcciones.

Para trabajar con datos confidenciales fuera de AWS Glue Studio, consulte Usar la detección de datos confidenciales fuera de AWS Glue Studio

Elegir cómo desea que se escaneen los datos

Cuando escaneas tu conjunto de datos en busca de datos confidenciales, como información de identificación personal (PII), puedes elegir entre detectarlos PII en cada fila o detectar las columnas que contienen PII datos.

La captura de pantalla muestra las opciones de la PII transformación Detectar al seleccionar la detección de los campos que contienen PII la fuente de datos.

Al elegir Detectar PII en cada celda, eliges escanear todas las filas de la fuente de datos. Se trata de un análisis exhaustivo para garantizar la identificación de PII las entidades.

Cuando eliges Detectar campos que contengan entidadesPII, eliges escanear una muestra de filas en busca de PII entidades. Esta es una forma de mantener bajos los costos y los recursos y, al mismo tiempo, identificar los campos en los que se encuentran PII las entidades.

Si opta por detectar campos que contienen informaciónPII, puede reducir los costos y mejorar el rendimiento muestreando una parte de las filas. La elección de esta opción permitirá que especifique opciones adicionales:

  • Porción de muestra: permite especificar el porcentaje de filas que se van a mostrar. Por ejemplo, si escribe «50», está especificando que desea que la PII entidad tenga el 50 por ciento de las filas escaneadas.

  • Umbral de detección: permite especificar el porcentaje de filas que contienen la PII entidad para que se identifique que toda la columna contiene la PII entidad. Por ejemplo, si escribe «10», está especificando que el número de la PII entidad, US Phone, en las filas que se escaneen debe ser del 10 por ciento o más para que se identifique que el campo contiene la PII entidad, US Phone. Si el porcentaje de filas que contienen la PII entidad es inferior al 10 por ciento, ese campo no se etiquetará como si tuviera la PII entidad, US Phone, en él.

Elegir las PII entidades que se van a detectar

Si selecciona Detectar PII en cada celda, puede elegir una de estas tres opciones:

  • Todos los PII patrones disponibles, incluidas AWS las entidades.

  • Seleccione categorías: al seleccionar categorías, PII los patrones incluirán automáticamente los patrones de las categorías que seleccione.

  • Seleccionar patrones específicos: solo se detectarán los patrones que seleccione.

Para obtener una lista completa de los tipos de datos confidenciales administrados, consulte Tipos de datos administrados.

Elige entre todos los PII patrones disponibles

Si elige Todos los PII patrones disponibles, seleccione las entidades predefinidas por AWS. Puede seleccionar una entidad, varias o todas ellas.

La captura de pantalla muestra las opciones de la lista de entidades predefinidas AWS .

Seleccionar categorías

Si ha elegido Seleccionar categorías como PII patrones a detectar, puede seleccionarlas entre las opciones del menú desplegable. Tenga en cuenta que algunas entidades pueden pertenecer a más de una categoría. Por ejemplo, el nombre de la persona es una entidad que pertenece a las HIPAAcategorías Universal y.

  • Universal (ejemplos: correo electrónico, tarjeta de crédito)

  • HIPAA(ejemplos: carné de conducir estadounidense, código del Sistema de Codificación de Procedimientos Comunes HCPCS Sanitarios ())

  • Redes (ejemplos: dirección IP, MAC dirección)

  • Argentina

  • Australia

  • Austria

  • Bélgica

  • Bosnia

  • Bulgaria

  • Canadá

  • Chile

  • Colombia

  • Croacia

  • Chipre

  • Chequia

  • Dinamarca

  • Estonia

  • Finlandia

  • Francia

  • Alemania

  • Grecia

  • Hungría

  • Irlanda

  • Corea

  • Japón

  • México

  • Países Bajos

  • Nueva Zelanda

  • Noruega

  • Portugal

  • Rumanía

  • Singapur

  • Eslovaquia

  • Eslovenia

  • España

  • Suecia

  • Suiza

  • Turquía

  • Ucrania

  • Estados Unidos

  • Reino Unido

  • Venezuela

Seleccionar patrones específicos

Si elige Seleccionar patrones específicos como PII patrones para detectar, puede buscar o navegar en una lista de patrones que ya haya creado o crear un nuevo patrón de entidad de detección.

En los siguientes pasos se describe la creación de un nuevo patrón personalizado para detectar información confidencial. Creará el patrón personalizado al ingresar un nombre para dicho patrón, agregará una expresión regular y, opcionalmente, definirá palabras de contexto.

  1. Para crear un nuevo patrón, haga clic en el botón Crear nuevo.

    La captura de pantalla muestra la sección Seleccionar patrones.
  2. En la página Crear entidad de detección, ingrese el nombre de la entidad y una expresión regular. La expresión regular (regex) es lo que AWS Glue utilizará para buscar coincidencias de entidades.

  3. Haga clic en Validar. Si la validación se realiza correctamente, aparecerá un mensaje de confirmación que indica que la cadena es una expresión regular válida. Si la validación no se realiza correctamente, aparecerá un mensaje que indica que la cadena no se ajusta al formato adecuado ni a los caracteres, los operadores o las construcciones aceptados.

  4. Puede optar por agregar palabras contextuales además de la expresión regular. Las palabras contextuales pueden aumentar la probabilidad de coincidencia. Pueden resultar útiles en los casos en que los nombres de los campos no ofrezcan información descriptiva sobre la entidad. Por ejemplo, los números de seguro social pueden denominarse 'SSN' o 'SS'. Agregar estas palabras contextuales puede ayudar a encontrar una coincidencia de la entidad.

  5. Haga clic en Crear para crear la entidad de detección. Todas las entidades creadas son visibles en la consola de AWS Glue Studio. Haga clic en Entidades de detección en el menú de navegación de la izquierda.

    Puede editar, eliminar o crear entidades de detección desde la página Entidades de detección. También puede buscar un patrón mediante el campo de búsqueda.

Especificar el nivel de sensibilidad de detección

Puede establecer el nivel de sensibilidad al utilizar la detección de datos confidenciales.

  • Alto: (predeterminado) detecta más entidades para los casos de uso que requieren un mayor nivel de sensibilidad. Todos los trabajos de AWS Glue creados después de noviembre de 2023 se activan automáticamente en esta configuración.

  • Bajo: detecta menos entidades y reduce los falsos positivos.

La captura de pantalla muestra las opciones de sensibilidad de detección global. Hay una opción baja, que es para una mayor precisión, pero es más estricta y puede resultar en una detección general más baja. La segunda opción es un ajuste de alta sensibilidad, que permite una detección más amplia y es más adecuada si se necesita una PII detección más alta.

Elegir qué hacer con los PII datos identificados

Si opta por detectarlos PII en toda la fuente de datos, puede seleccionar una acción global para aplicarla:

  • Enriquezca los datos con los resultados de la detección: si PII selecciona Detectar en cada celda, puede almacenar las entidades detectadas en una nueva columna.

  • Redactar el texto detectado: puede reemplazar el PII valor detectado por una cadena que especifique en el campo opcional de introducción de texto para reemplazar texto. Si no se especifica ninguna cadena, la PII entidad detectada se sustituye por '*******'.

  • Redactar parcialmente el texto detectado: puedes reemplazar parte del PII valor detectado por la cadena que elijas. Hay dos opciones posibles: dejar los extremos desenmascarados o enmascararlos proporcionando un patrón de expresiones regulares explícito. Esta característica todavía no está disponible en AWS Glue 2.0.

  • Aplicar un hash criptográfico: puede pasar el PII valor detectado a una función de hash criptográfico de SHA -256 y reemplazar el valor por el resultado de la función.

La captura de pantalla muestra las opciones de la PII transformación Detect al seleccionar todas las filas de la fuente de datos que se van a detectar. PII

Diferencias entre AWS Glue las versiones 2.0 y 3.0+

AWS GlueLos trabajos 2.0 devolverán uno nuevo DataFrame con la PII información detectada para cada columna en una columna complementaria. Cualquier redacción o trabajo hash está visible dentro del guion de AWS Glue en la pestaña visual.

AWS GlueLos trabajos 3.0 y 4.0 devolverán una nueva DataFrame con esta misma columna complementaria. Hay una nueva clave para «actionUsed» y puede ser una de las siguientes: DETECTREDACT,PARTIAL_REDACT, oSHA256_HASH. Si se selecciona una acción de enmascaramiento, DataFrame devolverá los datos con los datos confidenciales enmascarados.

Agregar anulaciones de acciones detalladas

Se pueden añadir ajustes adicionales de detección y acción a la tabla de anulaciones de acciones detalladas. Esto le permite:

  • Incluir o excluir determinadas columnas de la detección: un esquema inferido en el origen de datos rellenará la tabla con las columnas disponibles.

  • Especifique ajustes específicos que sean más detallados que mediante acciones globales. Por ejemplo, puede especificar distintos ajustes de texto de redacción para distintos tipos de entidades.

  • Especifique una acción diferente a la acción global: si desea aplicar una acción diferente a un tipo de datos confidenciales diferente, puede hacerlo aquí. Tenga en cuenta que no se pueden usar dos edit-in-place acciones diferentes (redacción y codificación) en la misma columna, pero siempre se puede usar la detección.

La captura de pantalla muestra las anulaciones de acciones detalladas. Puedes añadir, editar, eliminar o editar, ya que JSON cualquier acción anula el trabajo.