Los datos no son todo. Lo importante es saber usarlos

Tiempo de lectura 7 minutos

Este artículo tiene como base una publicación que hice en LinkedIn y que me sorprendió por su receptividad: el post tuvo más de 41.000 visualizaciones y 650 comentarios. Lo publico y lo complemento con nuevas ideas aquí, pues me pareció muy curioso tanto interés. 

Seguramente, se debe a la atención que damos hoy al tema de los datos, que se convirtieron, según lo que se lee a menudo, en el nuevo «petróleo» o el nuevo «oro», sin duda, una gran fuente de valor. Sin embargo, los datos, por su naturaleza, invitan a la interpretación, al sesgo y al error, con lo cual, a veces, disponemos de muchos, pero no nos sirven. Como quedó inmortalizado en una frase erróneamente atribuida a Einstein y formulada en realidad por el sociólogo William Bruce Cameron en 1963, «ni todo lo que cuenta puede ser contado ni todo que puede ser contado cuenta». Bien, primero vamos al caso y al final presentaré una reflexión más amplia sobre el tema.

Durante la Segunda Guerra Mundial, en un intento por reducir el número de aviones abatidos por el enemigo, los aliados estudiaron dónde sufrieron más daños los aviones que regresaban de sus misiones. De esta manera, podrían reforzar estas partes.

La conclusión fue que se deberían reforzar las puntas de las alas, los timones y el centro del avión, que es donde identificaron más impactos. Pero Abraham Wald, un estadístico que trabajó para el departamento de Defensa (y uno de los mejores estadísticos que el mundo haya conocido), propuso algo diferente: reforzar la cabina, los motores y la parte posterior del fuselaje. ¿Será que Wald no veía lo obvio? ¿Por qué reforzar las áreas donde no hubo impactos?

Wald fue más allá de los datos superficiales. O quizá observó la situación desde otra perspectiva, mucho más inteligente, y no se dejó llevar por su intuición de experto. Lo que sus compañeros no habían considerado era que había un sesgo importante en la selección de los datos, y, consecuentemente, eso afectaba la conclusión. Ellos solo tenían en cuenta los aviones que, a pesar de haber sufrido daños, habían podido regresar a la base. Sin embargo, si un avión sufre daños importantes en la cabina, los motores y la cola, será derribado y, por lo tanto, no podrá regresar a la base. Así que estos no fueron considerados en el estudio inicial, lo que produjo un sesgo en sus conclusiones.

Este fenómeno es algo que en las estadísticas se llama «sesgo de selección». A menudo, los datos mal interpretados o la intuición nos llevan a sacar conclusiones erróneas. Y en un momento en que tenemos abundancia de datos (como se afirma en el libro Outside Insight que traduje para ESIC Editorial), debemos tener mucho cuidado con las técnicas utilizadas en nuestro análisis.

Por lo tanto, piensen en eso: los datos no son todo. Lo importante es saber usarlos. O, como ya decía Nietzsche: «No hay hechos, solo interpretaciones».

Por una cultura de datos más inteligente

Este caso llegó a mi conocimiento por las redes sociales y, como era apócrifo, decidí verificar su veracidad. En efecto, es real, según el libro How Not to Be Wrong de Jordan Ellenberg (2014), que aborda el razonamiento matemático. Además del tema de los riesgos del sesgo de selección, el caso invita a algunas reflexiones: la primera es que la estadística no es algo intuitivo, sino que demanda un esfuerzo mental grande incluso para los estadísticos.

Los profesionales formados en estadística también están sujetos a los sesgos causados por el pensamiento del tipo Sistema 1 (Kahneman, 2017): las decisiones tomadas por este «agente» suelen ser rápidas, realizadas con poco esfuerzo mental y en función de una heurística sujeta a errores sistemáticos (sesgos). Este sistema suele trabajar con «atajos» para llegar a soluciones más rápidamente y sin consumir demasiada energía mental. El Sistema 2, por otro lado, nos obliga a prestar atención y se usa en momentos que demandan esfuerzo mental, como en los cálculos complejos o en decisiones importantes.

Hagamos aquí un ejercicio mencionado en el libro de Kahneman para ver el Sistema 1 en funcionamiento:

Un individuo fue descrito por los vecinos de la siguiente manera: «Pedro es una persona muy tímida e introvertida, aunque normalmente colaborativa, pero con poco interés en las personas o en la realidad del mundo. Al ser una persona calmada y organizada, necesita de orden y estructura, y es muy detallista».

¿Qué es más probable que Pedro sea, bibliotecario o agricultor?

Si has elegido «bibliotecario», has utilizado el estereotipo del bibliotecario silencioso y metido en los libros para tomar tu decisión. Sin embargo, existen mucho más agricultores en España que bibliotecarios, con lo cual es más probable (y la probabilidad es un concepto estadístico) que Pedro sea agricultor. Eso lo descubrirías si no te dejaras llevar por el Sistema 1, y tu Sistema 2 entrase en juego.

El segundo aspecto sobre el que quiero reflexionar es que si la inteligencia humana comete estos errores, la inteligencia artificial (IA) y los algoritmos tampoco están a salvo de cometerlos. Es decir, la capacidad mucho mayor de procesar números que tienen los algoritmos no les impide generar resultados sesgados.

Los sesgos en Inteligencia Artificial

La gran mayoría de las aplicaciones de IA actualmente son de una categoría de algoritmo conocido como deep learning, que básicamente trabaja con patrones de datos, muchísimos datos. Según Hao (2019), los sesgos en IA pueden ocurrir en tres situaciones:

  1. En la definición del problema: es donde todo empieza. Por ejemplo, si una empresa quiere crear un algoritmo para aprobar préstamos, lo hace basándose en un concepto de «confianza», pero este es un concepto muy complejo (ni los académicos están de acuerdo sobre ello). De manera que la empresa lo definirá según sus intereses. Si decide que lo que quiere es aumentar sus beneficios, puede ser más laxa, y algunas personas que no deberían recibirlos (¡porque no son de fiar!) acabarían recibiéndolos; eso puede ser malo (como dejó claro la crisis subprime de 2008).
  2. Otro aspecto es la recopilación de los datos. Si el algoritmo se alimenta de fotos de un tipo (por ejemplo, gente más blanca), puede tener dificultades para reconocer las caras de personas de piel más oscura. Otro ejemplo tiene que ver con datos históricos: si una empresa alimenta su base de datos con informaciones sobre contrataciones mayoritariamente de hombres, las mujeres podrían tener dificultad para conseguir ser contratadas allí.
  3. El tercer problema está en la preparación de los datos y es casi un arte: la manera en que se eligen los atributos que el algoritmo debe considerar o ignorar puede influenciar significativamente la precisión del modelo creado. Aunque sea fácil medir el impacto en la precisión, es más difícil saber cómo afecta —y corregirlo— en términos de sesgos.

Finalmente, mi tercera reflexión es sobre la necesidad de aumentar en los profesionales y estudiantes la cultura numérica y de análisis de los datos para mejorar su comprensión de la realidad. El uso de los datos es la base del método científico y, por ende, del conocimiento moderno. Y con la abundancia de los datos, nuestra capacidad de comprender el mundo e interferir en él ha crecido exponencialmente, con lo cual tenemos más datos, pero ¿ estamos capacitados para usarlos bien?

El «analfabetismo numérico» debe ser combatido con todo el vigor, y las habilidades críticas deben ser estimuladas en los momentos de grandes cambios en que vivimos, donde es vital saber discernir lo que es un hecho de lo que es una versión, fake news, por ejemplo. Eso por no hablar de cuestiones éticas en campos novedosos como la ingeniería genética, en la que la manipulación de la verdad vía sofismos puede llevarnos a tomar decisiones calamitosas.

Nos arriesgamos mucho como sociedad cuando los estudiantes llegan al conocimiento por el atajo de una búsqueda de Google y la realidad se convierte en la primera página de las respuestas obtenidas por el buscador. O incluso al ver una foto y sacar conclusiones precipitadas sobre los acontecimientos sin saber el contexto en que se hizo. Nos arriesgamos mucho, finalmente, si los jóvenes no saben leer la realidad a través de la lente de los números y del conocimiento basado en evidencias empíricas, y se dejan llevar por las emociones a la hora de tomar decisiones importantes del tipo Sistema 2.

El excelente libro Factfulness: diez razones por las que estamos equivocados sobre el mundo (Rosling, 2018) destapa la increíble ignorancia que todos (expertos y personas corrientes) tenemos sobre el mundo, este mundo en que vivimos. En un test con 13 preguntas, algunas muy básicas sobre la actualidad, los entrevistados de diversos países y de niveles sociales de todos los tipos (hasta de los más altos, pues había premiados en el Nobel en la muestra) respondieron sistemáticamente con errores. Por ejemplo, contesta a esta cuestión:

En los últimos 20 años, la proporción de la población mundial que vive en extrema pobreza…

a) … casi se duplicó
b) … se mantuvo más o menos igual
c) … cayó a la mitad

Si has contestado la c), enhorabuena. Formarías parte de una minoría del 25% de las personas que también contestaron correctamente en Suecia (el país con el número más alto de aciertos entre los encuestados por Rosling) y de un exclusivo grupo del 3% de las personas que acertaron en España, ¡una élite!

Rosling nos da diez soluciones para corregir esta «ignorancia numérica» nuestra, que se debe a algunas preferencias cognitivas que tenemos y a los sesgos generados por las informaciones que recibimos, sobre todo de la prensa. Por ejemplo, somos proclives a la negatividad y el escándalo, y eso es algo bastante explorado por la prensa. Un viejo refrán del periodismo nos dice que «si a una persona la muerde un perro, eso no es noticia; si una persona muerde un perro, eso es noticia». Sin duda, la novedad tiene valor como noticia, pero cuando la prensa, a través de sus recortes de la realidad (frames), nos habla todos los días de lo malo que ocurre en el mundo —porque el morbo vende—, acabamos por pensar que la realidad es toda mala cuando en verdad no es así.

Las personas, aunque la prensa se esfuerce por dar la noticia, no muerden a tantos perros y el mundo tampoco va tan mal. Por el contrario, Rosling presenta 32 indicadores que van desde el acceso al agua hasta las infecciones por VIH pasando por las muertes en guerras, donde la situación ha mejorado, no empeorado.

Hay razones para mantener la cabeza erguida y ser escépticos con tantas «verdades» que nos llegan todos los días con el bombardeo de informaciones de fuentes de lo más diversas, muchas sin ningún tipo de comprobación empírica, haciéndonos simplemente transmisores de medias verdades o completas mentiras. Pero para eso, es preciso saber leer la verdad en los números.

Por ello, vuelvo al título de este artículo: los datos no son todo. Lo importante es interpretarlos y contrastarlos en función de otros datos, con sentido crítico y con conocimiento.

Deja un comentario

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *