CART es un método de aprendizaje automático que construye árboles de decisión para dos tareas distintas: clasificar casos en categorías y predecir valores numéricos. La idea es sencilla: el modelo va haciendo preguntas sobre los datos, los separa en grupos cada vez más homogéneos y termina dando una predicción en cada rama final.
Idea central
Las siglas CART significan Classification and Regression Trees, y el nombre se usa tanto para este tipo de árboles como para el algoritmo clásico descrito por Breiman y colaboradores. Su construcción se basa en la segmentación recursiva: empezar con todos los datos juntos y dividirlos paso a paso en subconjuntos más pequeños.
Cómo se construye
Para crear una partición, el algoritmo revisa las variables predictoras disponibles y prueba posibles umbrales de corte; en muchos casos esos umbrales se colocan entre valores consecutivos de una variable. Después repite el proceso dentro de cada grupo generado hasta llegar a nodos terminales u hojas, que son los puntos del árbol donde ya se decide la clase o el valor a predecir.
Clasificación y regresión
Si el objetivo es una categoría, hablamos de árbol de clasificación, y CART suele escoger las divisiones con medidas de impureza como la de Gini. Si el objetivo es un número, hablamos de árbol de regresión, y el modelo divide el espacio de variables en regiones donde la predicción suele ser la media de la variable respuesta observada en entrenamiento.juandomingofarnos.
Términos clave
Los términos más importantes son nodo raíz, la primera división del árbol; nodo interno, una bifurcación intermedia; hoja o nodo terminal, el punto donde sale la predicción; y umbral o split, la regla que separa los datos en cada paso. También conviene conocer la poda o control de complejidad, porque el tamaño del árbol se regula con hiperparámetros para que el modelo no crezca sin límite y siga siendo interpretable. En el mismo ecosistema aparecen nombres como ID3, C4.5 y RPART, y una de las razones por las que CART sigue siendo popular es su interpretación sencilla y su robustez frente a outliers y ciertas transformaciones de las variables.rubenfcasal.
Ejemplo intuitivo
Imagina que quieres predecir si un cliente devolverá un préstamo: el árbol podría preguntar primero por ingresos, después por estabilidad laboral y luego por historial de impagos. Esa secuencia de preguntas convierte un problema complejo en reglas fáciles de leer, que es precisamente una de las grandes virtudes prácticas de CART.