Estrategia de datos - AWS Guía prescriptiva

Las traducciones son generadas a través de traducción automática. En caso de conflicto entre la traducción y la version original de inglés, prevalecerá la version en inglés.

Estrategia de datos

Pregunta

Ejemplo de respuesta

¿Qué tipos de datos específicos son cruciales para sus cargas de trabajo de IA generativa y a qué porcentaje de ellos se puede acceder actualmente?

Los registros de llamadas de los clientes y los datos de reseñas de productos son cruciales. En la actualidad, se puede acceder al 85% de estos tipos de datos para nuestros proyectos de IA generativa.

¿Cómo garantiza y mide la calidad de sus datos?

Hemos implementado métricas de calidad de los datos, que incluyen la integridad, la precisión, la coherencia y la puntualidad. Utilizamos herramientas automatizadas para evaluar estas métricas con regularidad y contamos con un equipo dedicado a la limpieza y el enriquecimiento de los datos.

¿Qué porcentaje de sus datos cumple con sus estándares de calidad para el uso generativo de la IA?

En la actualidad, el 78% de nuestros datos cumplen con nuestros estándares de calidad. Nuestro objetivo es alcanzar el 95% en los próximos 12 meses mediante la mejora de los procesos de limpieza de datos.

¿Cómo piensa generar confianza entre sus partes interesadas sobre el uso de datos en la IA generativa?

Estamos creando un consejo de ética sobre la IA, proporcionando explicaciones claras de las decisiones en materia de IA y realizando auditorías trimestrales sobre la IA para garantizar la transparencia y la imparcialidad.

¿Qué tan completa es su documentación sobre las fuentes y el linaje de los datos?

Mantenemos un catálogo de datos detallado que incluye los metadatos de todas nuestras fuentes de datos, incluidos el origen, la frecuencia de actualización y el uso. Usamos herramientas de linaje de datos para rastrear cómo fluyen y se transforman los datos en nuestros sistemas.

¿Cómo garantiza la diversidad en sus conjuntos de datos para evitar sesgos en los modelos de IA?

Obtenemos activamente datos de diversos grupos demográficos y auditamos periódicamente nuestros conjuntos de datos para detectar sesgos representativos. También utilizamos técnicas de generación de datos sintéticos para equilibrar las categorías subrepresentadas.

¿Cuál es su frecuencia de actualización de datos para los modelos de IA generativa críticos y cómo se determina esta frecuencia?

Los modelos críticos se actualizan semanalmente. Esta frecuencia viene determinada por las métricas de rendimiento de las pruebas A/B, y nuestro objetivo es que la degradación entre actualizaciones no supere el 2%.

¿Cuántas versiones de los conjuntos de datos críticos mantiene y durante cuánto tiempo?

Mantenemos las últimas cinco versiones de cada conjunto de datos críticos, con un período de retención de 18 meses para cada versión.

¿Cuántos equipos multifuncionales participan en sus iniciativas de IA generativa y tienen acceso a sus datos?

Tenemos tres equipos multifuncionales. Cada equipo incluye científicos de datos, expertos en el campo, especialistas en ética y analistas de negocios.

¿Qué políticas y prácticas de gobierno de datos tiene implementadas?

Tenemos un comité de gobierno de datos multifuncional que supervisa nuestras políticas de datos. Hemos implementado controles de acceso basados en funciones, esquemas de clasificación de datos y auditorías periódicas para garantizar el cumplimiento de nuestro marco de gobierno.

¿Qué medidas ha adoptado para garantizar la privacidad de los datos, obtener el consentimiento adecuado y mantener la confidencialidad?

Hemos implementado un marco integral de privacidad de datos alineado con el GDPR y la CCPA. Esto incluye obtener el consentimiento explícito para el uso de los datos, implementar técnicas de anonimización de los datos y realizar evaluaciones periódicas del impacto en la privacidad.

¿Qué porcentaje de sus conjuntos de datos de entrenamiento de IA se auditaron para detectar sesgos en el último trimestre?

El 70% de nuestros conjuntos de datos de entrenamiento de IA se auditaron para detectar sesgos el trimestre pasado. Estamos implementando herramientas automatizadas de detección de sesgos para realizar auditorías trimestrales al 100%.

¿Cuál es su capacidad de procesamiento de datos actual y cuánto prevé que necesitará para las futuras cargas de trabajo generativas de IA?

Nuestra capacidad actual es de 10 TB/day. We project needing 30 TB/day en un año y estamos ampliando nuestra infraestructura para satisfacer esta demanda.

¿Cuál es su estrategia para equilibrar la privacidad de los datos con las necesidades de datos de los modelos de IA generativa?

Estamos implementando técnicas avanzadas de anonimización y generación de datos sintéticos. Nuestro objetivo es aumentar los datos utilizables para la IA en un 40% y, al mismo tiempo, reducir los riesgos de privacidad en un 60% durante el próximo año.

¿Qué porcentaje de sus conjuntos de datos de aprendizaje automático (ML) están etiquetados con precisión y cuál es su tasa de precisión objetivo?

Actualmente, el 85% de nuestros conjuntos de datos de aprendizaje automático están etiquetados con precisión. Nuestro objetivo es lograr una tasa de precisión del 95% en el próximo trimestre mediante el empleo de técnicas de etiquetado tanto humanas como automatizadas.