Imagen

Big Data: Consejos para que tus modelos de clasificación binaria sean predictivos y robustos

Tecnología | Artículo

Enero 2018

Fecha de publicación
Enero 2018
Tecnología
Artículo

_ESIC Business & Marketing School

ESIC Business & Marketing School.

Tags
- #Big data

1. Discretiza las variables independientes que sean continuas.

Raramente la relación entre una variable independiente y la variable objetivo es lineal. Estableciendo tramos en la variable independiente conseguirás captar tanto relaciones lineales como no lineales entre ambas.

CRO

¿Te gustaría cursar nuestro Máster en Big Data y Business Analytics [MBDA]? Accede para más información

2. Ten cuidado con el sobreajuste.

Existe la posibilidad de que el modelo construido clasifique con éxito a los individuos en la fase de entrenamiento pero que pierda rendimiento al aplicarlo sobre otros individuos. Para evitarlo, asegúrate de que la distribución de cada una de las variables independientes en el grupo de usuarios empleados en el cálculo de los coeficientes del modelo sea similar a la distribución de esas variables en la población a la que vas a clasificar.

3. Reserva un porcentaje de tus datos para validar el resultado del modelo.

Si obtienes los coeficientes del modelo con una fracción de los individuos disponibles podrás utilizar al resto para estimar el rendimiento que el modelo tendrá en nuevos individuos. Si la capacidad predictiva es muy diferente en ambos grupos es muy posible que el modelo esté sobreajustado.

4.Cuánto más simple sea el modelo final, más robusto será su comportamiento.

La variabilidad de tus datos muestrales no recoge todas las casuísticas poblacionales, por lo que es posible que alguna variable independiente tenga en realidad una relación con la variable target, distinta de la que recogen tus datos muestrales. Cuantas menos variables independientes tenga tu modelo final, menos probabilidades tendrás de que para alguna de ellas no hayas recogido la relación real con la variable objetivo. Si incluyendo una variable adicional que mejora poco la capacidad predictiva del modelo, es mejor no añadirla.

5. Utiliza diferentes técnicas analíticas y evalúa los resultados de todas ellas en el dataset reservado para ese fin.

Hay distintos algoritmos que resuelven problemas de clasificación binaria. Entrena modelos con varios de ellos empleando una parte de los datos y evalúalos con el resto de registros. Selecciona el que te proporcione un mayor equilibrio entre capacidad predictiva y facilidad de interpretación y operativización.

6. Elimina la estacionalidad que puedan tener las variables explicativas.

Los atributos de los individuos que utilizas para predecir a qué grupo pertenecen pueden tener valores muy diferentes en distintos días de la semana o en distintos meses del año. Eliminando esa estacionalidad conseguirás que esa variabilidad no penalice el rendimiento de tu modelo de clasificación.

7. Define la ventana temporal de respuesta de forma que esté alineada con las posibles acciones en las que se vaya a utilizar el score generado.

Si tus campañas de prevención del abandono tienen periodicidad mensual, tu modelo será más útil si defines la variable objetivo en función de si los clientes se dieron de baja en un periodo de un mes, que si la defines atendiendo a si solicitaron la baja o no en un periodo de un año.

8. Genera un número alto de variables independientes combinando las métricas disponibles con diferentes niveles de las dimensiones, y obtén una shortlist con la que entrenar el modelo final.

A priori es complicado saber qué nivel de las dimensiones nos proporcionará variables independientes con mayor capacidad predictiva. Por ejemplo, si calcular la actividad de un cliente en la semana anterior a hacerle una oferta, o si hacerlo en el mes o en el trimestre anterior. Sé generoso combinando tus métricas con varios niveles de tus dimensiones, generando así cientos o miles de posibles variables independientes. A partir de ellas, quédate con las 50 o 60 que tengan una mayor capacidad predictiva para obtener tu modelo final.

9. Si la tasa de individuos con respuesta positiva es muy pequeña utiliza técnicas de bajomuestreo o sobremuestreo antes de entrenar el modelo.

Las técnicas que tratan de minimizar el error de predicción, ante una tasa muy baja de respuestas positivas optarán por clasificar a todos los individuos en el grupo de respuesta negativa. De esta forma cometerán muy poco error de predicción. Bajomuestrea o sobremuestrea tus datos para trabajar con una tasa de respuestas positivas superior al 10%.

10. Define la ventana temporal de análisis teniendo en cuenta el tiempo que transcurrirá entre que generes el score y que sea operativo.

Si quieres saber quiénes de tus clientes son más propensos a canjear un cupón que les vas a enviar por correo postal, tendrás que asegurarte de no incluir en las variables explicativas información de los “n” días que tarda la carta en llegar hasta el cliente desde el momento en el que utilices el resultado del modelo para seleccionar al público objetivo de la acción.

Descubre más sobre nuestro Máster en Big Data y Business Analytics [MBDA]

ESIC Business & Marketing School atenderán tu solicitud de información sobre nuestros servicios formativos. Para esta finalidad y las siguientes, puedes oponerte y acceder, rectificar o suprimir tus datos y ejercitar otros derechos como se indica en nuestra política de privacidad.

Deseo mantenerme informado a través de email y teléfono sobre novedades formativas, por ESIC Business & Marketing School.

Acepto que el emisor conozca si abro sus emails, desde qué dispositivos y cuándo, así como si interactúo con ellos, con la única finalidad de que pueda mejorar sus acciones comerciales.

Fecha de publicación
Enero 2018
Tecnología
Artículo

Autor

Tags
- #Big data

Big Data: Consejos para que tus modelos de clasificación binaria sean predictivos y robustos

1. Discretiza las variables independientes que sean continuas.

2. Ten cuidado con el sobreajuste.

3. Reserva un porcentaje de tus datos para validar el resultado del modelo.

4.Cuánto más simple sea el modelo final, más robusto será su comportamiento.

5. Utiliza diferentes técnicas analíticas y evalúa los resultados de todas ellas en el dataset reservado para ese fin.

6. Elimina la estacionalidad que puedan tener las variables explicativas.

7. Define la ventana temporal de respuesta de forma que esté alineada con las posibles acciones en las que se vaya a utilizar el score generado.

8. Genera un número alto de variables independientes combinando las métricas disponibles con diferentes niveles de las dimensiones, y obtén una shortlist con la que entrenar el modelo final.

9. Si la tasa de individuos con respuesta positiva es muy pequeña utiliza técnicas de bajomuestreo o sobremuestreo antes de entrenar el modelo.

10. Define la ventana temporal de análisis teniendo en cuenta el tiempo que transcurrirá entre que generes el score y que sea operativo.

Descubre más sobre nuestro Máster en Big Data y Business Analytics [MBDA]

También te puede interesar

Micromanagement: qué es y por qué es un obstáculo para el liderazgo

¿Qué es y qué estudia la psicología evolutiva?

Estrategias de podcasting en marketing para potenciar tu marca digital

¿Quieres que un asesor se ponga
en contacto telefónico contigo?

Big Data: Consejos para que tus modelos de clasificación binaria sean predictivos y robustos

1. Discretiza las variables independientes que sean continuas.

2. Ten cuidado con el sobreajuste.

3. Reserva un porcentaje de tus datos para validar el resultado del modelo.

4.Cuánto más simple sea el modelo final, más robusto será su comportamiento.

5. Utiliza diferentes técnicas analíticas y evalúa los resultados de todas ellas en el dataset reservado para ese fin.

6. Elimina la estacionalidad que puedan tener las variables explicativas.

7. Define la ventana temporal de respuesta de forma que esté alineada con las posibles acciones en las que se vaya a utilizar el score generado.

8. Genera un número alto de variables independientes combinando las métricas disponibles con diferentes niveles de las dimensiones, y obtén una shortlist con la que entrenar el modelo final.

9. Si la tasa de individuos con respuesta positiva es muy pequeña utiliza técnicas de bajomuestreo o sobremuestreo antes de entrenar el modelo.

10. Define la ventana temporal de análisis teniendo en cuenta el tiempo que transcurrirá entre que generes el score y que sea operativo.

Descubre más sobre nuestro Máster en Big Data y Business Analytics [MBDA]

También te puede interesar

Micromanagement: qué es y por qué es un obstáculo para el liderazgo

¿Qué es y qué estudia la psicología evolutiva?

Estrategias de podcasting en marketing para potenciar tu marca digital

¿Quieres que un asesor se ponga en contacto telefónico contigo?

SOLICITAR INFORMACIÓN

¿Quieres que un asesor se ponga
en contacto telefónico contigo?