Crisp-DM

CRISP‑DM (Cross‑Industry Standard Process for Data Mining) es la metodología de facto para proyectos de minería de datos y ciencia de datos, estructurada en seis fases que pueden seguirse de forma iterativa y cíclica.

¿Qué es CRISP‑DM?

Es un modelo abierto que describe los enfoques comunes utilizados por expertos en minería de datos, proporcionando descripciones de las fases, tareas y relaciones entre ellas, pero sin especificar cómo ejecutar cada tarea. Se considera el modelo analítico más usado en la industria y ha inspirado otros estándares como SEMMA (SAS) y ASUM‑DM (IBM).

Las seis fases

  1. Comprensión del negocio – definir objetivos y requisitos del proyecto desde la perspectiva del cliente.
  2. Comprensión de los datos – explorar y obtener una visión general de los datos disponibles.
  3. Preparación de los datos – construir el conjunto de datos definitivo mediante limpieza, integración y transformación.
  4. Modelado – aplicar técnicas de modelado y ajustar parámetros para generar modelos predictivos o descriptivos.
  5. Evaluación – valorar los resultados frente a los objetivos de negocio y decidir si es necesario retroceder a fases anteriores.
  6. Despliegue – poner el modelo en producción y monitorear su rendimiento en operación real.

Las fases no son rígidamente lineales; pueden realizarse de forma iterativa, volviendo a fases anteriores cuando se descubren nuevos requisitos o se mejora la comprensión de los datos.

Características y aplicaciones

  • Flexibilidad: el modelo se puede adaptar a diferentes dominios (finanzas, salud, marketing, etc.) y tipos de problemas (detección de fraude, segmentación de clientes, mantenimiento predictivo).
  • Enfoque en el negocio y la calidad de los datos: prioriza la comprensión del problema y la fiabilidad de la información antes del modelado.
  • Ciclos de mejora continua: al basarse en iteraciones, permite refinar modelos y aumentar el valor aportado en cada versión.

CRISP‑DM sigue siendo ampliamente utilizada en proyectos de ciencia de datos y sirve como guía para estructurar el trabajo desde la definición del problema hasta la puesta en producción de soluciones analíticas.

fuentes: martescoach.oscarschmitz