Pasar al contenido principal
Imagen
Big Data: Consejos para que tus modelos de clasificación binaria sean predictivos y robustos

Big Data: Consejos para que tus modelos de clasificación binaria sean predictivos y robustos

Tecnología | Artículo
  • Enero 2018
  • Fecha de publicación
  • Enero 2018
  • Tecnología
  • Artículo
Texto

1. Discretiza las variables independientes que sean continuas.

Raramente la relación entre una variable independiente y la variable objetivo es lineal. Estableciendo tramos en la variable independiente conseguirás captar tanto relaciones lineales como no lineales entre ambas.

2. Ten cuidado con el sobreajuste.

Existe la posibilidad de que el modelo construido clasifique con éxito a los individuos en la fase de entrenamiento pero que pierda rendimiento al aplicarlo sobre otros individuos. Para evitarlo, asegúrate de que la distribución de cada una de las variables independientes en el grupo de usuarios empleados en el cálculo de los coeficientes del modelo sea similar a la distribución de esas variables en la población a la que vas a clasificar.

3. Reserva un porcentaje de tus datos para validar el resultado del modelo.

Si obtienes los coeficientes del modelo con una fracción de los individuos disponibles podrás utilizar al resto para estimar el rendimiento que el modelo tendrá en nuevos individuos. Si la capacidad predictiva es muy diferente en ambos grupos es muy posible que el modelo esté sobreajustado.

4.Cuánto más simple sea el modelo final, más robusto será su comportamiento.

La variabilidad de tus datos muestrales no recoge todas las casuísticas poblacionales, por lo que es posible que alguna variable independiente tenga en realidad una relación con la variable target, distinta de la que recogen tus datos muestrales. Cuantas menos variables independientes tenga tu modelo final, menos probabilidades tendrás de que para alguna de ellas no hayas recogido la relación real con la variable objetivo. Si incluyendo una variable adicional que mejora poco la capacidad predictiva del modelo, es mejor no añadirla.

5. Utiliza diferentes técnicas analíticas y evalúa los resultados de todas ellas en el dataset reservado para ese fin.

Hay distintos algoritmos que resuelven problemas de clasificación binaria. Entrena modelos con varios de ellos empleando una parte de los datos y evalúalos con el resto de registros. Selecciona el que te proporcione un mayor equilibrio entre capacidad predictiva y facilidad de interpretación y operativización.

6. Elimina la estacionalidad que puedan tener las variables explicativas.

Los atributos de los individuos que utilizas para predecir a qué grupo pertenecen pueden tener valores muy diferentes en distintos días de la semana o en distintos meses del año. Eliminando esa estacionalidad conseguirás que esa variabilidad no penalice el rendimiento de tu modelo de clasificación.

7. Define la ventana temporal de respuesta de forma que esté alineada con las posibles acciones en las que se vaya a utilizar el score generado.

Si tus campañas de prevención del abandono tienen periodicidad mensual, tu modelo será más útil si defines la variable objetivo en función de si los clientes se dieron de baja en un periodo de un mes, que si la defines atendiendo a si solicitaron la baja o no en un periodo de un año.

8. Genera un número alto de variables independientes combinando las métricas disponibles con diferentes niveles de las dimensiones, y obtén una shortlist con la que entrenar el modelo final.

A priori es complicado saber qué nivel de las dimensiones nos proporcionará variables independientes con mayor capacidad predictiva. Por ejemplo, si calcular la actividad de un cliente en la semana anterior a hacerle una oferta, o si hacerlo en el mes o en el trimestre anterior. Sé generoso combinando tus métricas con varios niveles de tus dimensiones, generando así cientos o miles de posibles variables independientes. A partir de ellas, quédate con las 50 o 60 que tengan una mayor capacidad predictiva para obtener tu modelo final.

9. Si la tasa de individuos con respuesta positiva es muy pequeña utiliza técnicas de bajomuestreo o sobremuestreo antes de entrenar el modelo.

Las técnicas que tratan de minimizar el error de predicción, ante una tasa muy baja de respuestas positivas optarán por clasificar a todos los individuos en el grupo de respuesta negativa. De esta forma cometerán muy poco error de predicción. Bajomuestrea o sobremuestrea tus datos para trabajar con una tasa de respuestas positivas superior al 10%.

10. Define la ventana temporal de análisis teniendo en cuenta el tiempo que transcurrirá entre que generes el score y que sea operativo.

Si quieres saber quiénes de tus clientes son más propensos a canjear un cupón que les vas a enviar por correo postal, tendrás que asegurarte de no incluir en las variables explicativas información de los “n” días que tarda la carta en llegar hasta el cliente desde el momento en el que utilices el resultado del modelo para seleccionar al público objetivo de la acción.

  • Fecha de publicación
  • Enero 2018
  • Tecnología
  • Artículo

También te puede interesar

Tips para optimizar tu ecommerce

Comercial y Ventas

La importancia de la comunicación para la atracción y la fidelización de los consumidores. Crear un ecommerce no es sencillo; son muchas las variables que hay que tener en cuenta y entre l...

Los 10 activos del marketing con más tracción para generar leads

Marketing y Comunicación

En cualquier sector del mercado, un activo es un recurso que tenemos en nuestro poder y que nos ayuda a generar beneficios para nuestra empresa. Y esto no es menos en el entorno del marketing. A pa...

¿Cómo se están enfrentando las marcas deportivas a la nueva situación?

Marketing y Comunicación

Si algo nos ha traído la pandemia de covid-19 es la sacudida que han sufrido los planes de marketing y comunicación justo en el primer trimestre del año, y no por la reducción del presupuesto, com...