Pasar al contenido principal
Imagen
Big Data: Consejos para que tus modelos de clasificación binaria sean predictivos y robustos

Big Data: Consejos para que tus modelos de clasificación binaria sean predictivos y robustos

Tecnology | Artículo
  • Visitas
    2237
  • Enero 2018
  • Fecha de publicación
  • Enero 2018
  • Tecnology
  • Artículo
_ESIC Business & Marketing School

_ESIC Business & Marketing School

ESIC Business & Marketing School.

1. Discretiza las variables independientes que sean continuas.

Raramente la relación entre una variable independiente y la variable objetivo es lineal. Estableciendo tramos en la variable independiente conseguirás captar tanto relaciones lineales como no lineales entre ambas.

CRO

¿Te gustaría cursar nuestro Máster en Big Data y Business Analytics [MBDA]? Accede para más información

2. Ten cuidado con el sobreajuste.

Existe la posibilidad de que el modelo construido clasifique con éxito a los individuos en la fase de entrenamiento pero que pierda rendimiento al aplicarlo sobre otros individuos. Para evitarlo, asegúrate de que la distribución de cada una de las variables independientes en el grupo de usuarios empleados en el cálculo de los coeficientes del modelo sea similar a la distribución de esas variables en la población a la que vas a clasificar.

3. Reserva un porcentaje de tus datos para validar el resultado del modelo.

Si obtienes los coeficientes del modelo con una fracción de los individuos disponibles podrás utilizar al resto para estimar el rendimiento que el modelo tendrá en nuevos individuos. Si la capacidad predictiva es muy diferente en ambos grupos es muy posible que el modelo esté sobreajustado.

4.Cuánto más simple sea el modelo final, más robusto será su comportamiento.

La variabilidad de tus datos muestrales no recoge todas las casuísticas poblacionales, por lo que es posible que alguna variable independiente tenga en realidad una relación con la variable target, distinta de la que recogen tus datos muestrales. Cuantas menos variables independientes tenga tu modelo final, menos probabilidades tendrás de que para alguna de ellas no hayas recogido la relación real con la variable objetivo. Si incluyendo una variable adicional que mejora poco la capacidad predictiva del modelo, es mejor no añadirla.

5. Utiliza diferentes técnicas analíticas y evalúa los resultados de todas ellas en el dataset reservado para ese fin.

Hay distintos algoritmos que resuelven problemas de clasificación binaria. Entrena modelos con varios de ellos empleando una parte de los datos y evalúalos con el resto de registros. Selecciona el que te proporcione un mayor equilibrio entre capacidad predictiva y facilidad de interpretación y operativización.

6. Elimina la estacionalidad que puedan tener las variables explicativas.

Los atributos de los individuos que utilizas para predecir a qué grupo pertenecen pueden tener valores muy diferentes en distintos días de la semana o en distintos meses del año. Eliminando esa estacionalidad conseguirás que esa variabilidad no penalice el rendimiento de tu modelo de clasificación.

7. Define la ventana temporal de respuesta de forma que esté alineada con las posibles acciones en las que se vaya a utilizar el score generado.

Si tus campañas de prevención del abandono tienen periodicidad mensual, tu modelo será más útil si defines la variable objetivo en función de si los clientes se dieron de baja en un periodo de un mes, que si la defines atendiendo a si solicitaron la baja o no en un periodo de un año.

8. Genera un número alto de variables independientes combinando las métricas disponibles con diferentes niveles de las dimensiones, y obtén una shortlist con la que entrenar el modelo final.

A priori es complicado saber qué nivel de las dimensiones nos proporcionará variables independientes con mayor capacidad predictiva. Por ejemplo, si calcular la actividad de un cliente en la semana anterior a hacerle una oferta, o si hacerlo en el mes o en el trimestre anterior. Sé generoso combinando tus métricas con varios niveles de tus dimensiones, generando así cientos o miles de posibles variables independientes. A partir de ellas, quédate con las 50 o 60 que tengan una mayor capacidad predictiva para obtener tu modelo final.

9. Si la tasa de individuos con respuesta positiva es muy pequeña utiliza técnicas de bajomuestreo o sobremuestreo antes de entrenar el modelo.

Las técnicas que tratan de minimizar el error de predicción, ante una tasa muy baja de respuestas positivas optarán por clasificar a todos los individuos en el grupo de respuesta negativa. De esta forma cometerán muy poco error de predicción. Bajomuestrea o sobremuestrea tus datos para trabajar con una tasa de respuestas positivas superior al 10%.

10. Define la ventana temporal de análisis teniendo en cuenta el tiempo que transcurrirá entre que generes el score y que sea operativo.

Si quieres saber quiénes de tus clientes son más propensos a canjear un cupón que les vas a enviar por correo postal, tendrás que asegurarte de no incluir en las variables explicativas información de los “n” días que tarda la carta en llegar hasta el cliente desde el momento en el que utilices el resultado del modelo para seleccionar al público objetivo de la acción.

  • Fecha de publicación
  • Enero 2018
  • Tecnology
  • Artículo
  • Autor

También te puede interesar

Qué es un cliente misterioso y para qué se utiliza esta técnica

Marketing y Comunicación

No hay nada como escuchar el feedback de los consumidores para saber si el servicio que les estamos ofreciendo es bueno o no. En este sentido, existen numerosas técnicas para descubrir qué sienten l...

Qué es el Workforce Management (WFM) en un call center y cuáles son sus funciones

Marketing y Comunicación

Si trabajas en el ámbito de los recursos humanos, estas tres siglas (WFM) habrán sido desde hace un tiempo tus compañeras de viaje. De hecho, quizá las conozcas por su significado en español («g...

Email marketing automation: qué es, ejemplos y herramientas más usadas

Marketing y Comunicación

Hay quien considera el email marketing automation como la última tendencia en la era digital pero, en realidad, es mucho más. En 2024 ya es un recurso imprescindible para las empresas de cualquier t...