Por Juan Camilo Roldán.
1. Contexto del requisito En el mundo de la Inteligencia Artificial, existe una regla de oro inquebrantable: “basura entra, basura sale” (o garbage in, garbage out). El control A.7.4 de la ISO 42001 busca exactamente evitar esto, exigiendo que las empresas definan y documenten los requisitos de calidad de los datos utilizados para desarrollar y operar sistemas de IA, asegurando que cumplan con su propósito.
A nivel empresarial, este requisito resuelve un problema crítico: los modelos de IA que toman decisiones erróneas, alucinan o muestran sesgos discriminatorios porque fueron entrenados o alimentados con datos incompletos, desactualizados o “envenenados”.
2. Interpretación práctica del requisito En la práctica, la norma no te pide que tus datos sean “perfectos” a nivel teórico, sino que sean adecuados para tu contexto específico. Lo que la empresa debe hacer realmente es establecer qué significa “buen dato” para su modelo particular y crear un filtro (manual o automatizado) que bloquee la entrada de “malos datos”. Esto significa dejar de acumular información a ciegas y empezar a medir aspectos como la precisión, la integridad y la ausencia de sesgos antes de que la IA procese esa información.
3. Paso a paso para implementarlo Para una empresa de tecnología o servicios, la implementación ágil de este control requiere integrar la validación de datos en sus flujos de trabajo (pipelines) actuales:
- Paso 1: Define el “estándar de calidad” de tu caso de uso. Documenta qué necesitas exactamente. Por ejemplo: “Para nuestro recomendador de productos, los datos deben tener menos de un 2% de valores nulos y no tener más de 1 año de antigüedad”.
- Paso 2: Implementa un chequeo previo (Data Quality Checking). Antes de entrenar la IA o procesar nueva información, examina los datos buscando valores faltantes, sesgos evidentes o anomalías (valores atípicos).
- Paso 3: Limpia y prepara los datos. Aplica métodos de preparación (como normalización, imputación de valores faltantes o codificación) y deja un registro en el código o en tus herramientas de gestión de datos sobre cómo se hizo.
- Paso 4: Protege la muestra contra el envenenamiento. Asegúrate de que fuentes no confiables no puedan inyectar datos falsos o maliciosos en tu conjunto de entrenamiento, lo cual podría alterar el comportamiento de la IA de forma intencional.
- Paso 5: Monitorea la “deriva de datos” (Data Drift). Aplica el ciclo PHVA (Planificar-Hacer-Verificar-Actuar) a los datos en producción. Si las características estadísticas de los datos en el mundo real cambian (por ejemplo, cambian los hábitos de los consumidores), la precisión de tu IA caerá. Debes detectar esto a tiempo para reentrenar el modelo.
4. Relación con otras normas Este control es el puente perfecto para la integración de sistemas de gestión:
- Con ISO 9001 (Calidad): En la manufactura tradicional, inspeccionas la materia prima antes de usarla. En la IA, los datos son esa materia prima. El control A.7.4 es la evolución del control de calidad de insumos y procesos, garantizando que el servicio final cumpla con las expectativas del cliente.
- Con ISO/IEC 27001 (Seguridad): La calidad de los datos está íntimamente ligada a la integridad. Los controles de ciberseguridad protegen a la IA de ataques de envenenamiento de datos (data poisoning) y aseguran que los datos confidenciales o personales no se expongan indebidamente.
5. Ejemplo aplicado Imagina FinTech Latam, una PYME que usa un modelo de IA para pre-aprobar microcréditos. Inicialmente, entrenaron su modelo con datos históricos sin limpiar. Pronto notaron que la IA rechazaba sistemáticamente a clientes de ciertas regiones por un sesgo en los datos originales, y que el modelo fallaba si el usuario dejaba el campo “segundo apellido” vacío.
Para implementar el control A.7.4, el equipo de ingeniería creó un script automatizado que actúa como “aduana” de datos: rechaza cualquier solicitud con campos clave vacíos (integridad) y alerta si la proporción de solicitudes aprobadas por región se desvía drásticamente (control de sesgo). Además, documentaron estos criterios en su wiki interna (Confluence). Cumplieron el requisito de la norma sin crear burocracia, usando solo código y una página de documentación.
6. Evidencias para auditoría No necesitas imprimir manuales de cien páginas. Un auditor experto buscará:
- Un documento (o ticket en Jira/Confluence) que defina los criterios de aceptación y rechazo de datos para el modelo.
- Registros (logs) de las herramientas de limpieza o preparación de datos (Data Preparation) que demuestren que los filtros se aplican.
- Evidencia de monitoreo en producción, como paneles (dashboards) que midan la precisión de los datos o alertas de desviación (data drift).
7. Errores comunes
- Creer que “más datos” es igual a “mejores datos”: Priorizar el volumen sobre la precisión o la representatividad.
- Olvidar los datos en producción: Asegurar la calidad solo durante el entrenamiento inicial y olvidar que el mundo real cambia, afectando el rendimiento continuo del sistema (deriva de datos).
- Ignorar la ética y el sesgo: No revisar si los datos contienen prejuicios históricos que la IA pueda replicar y amplificar.
8. Checklist rápido
- [ ] ¿Tenemos definidos y documentados los requisitos mínimos de calidad para los datos de este sistema?
- [ ] ¿Existe un proceso (manual o en código) para limpiar y preparar los datos antes de que la IA los use?
- [ ] ¿Monitoreamos los datos en tiempo real para detectar si su estructura o calidad cambia con el tiempo?
- [ ] ¿Hemos evaluado los datos para descartar sesgos no deseados?
9. Cierre estratégico La gobernanza de IA no se trata de frenar la innovación, sino de hacerla sostenible. Al dominar la calidad de tus datos bajo la ISO 42001, no solo evitas el retrabajo y los riesgos reputacionales; también construyes una IA predecible y ética en la que tus clientes pueden confiar ciegamente. Revisa hoy mismo tu pipeline de datos más crítico y pregúntate: ¿nuestra IA está comiendo comida chatarra o información de alto valor?

