Sus datos son un gran test de manchas de tinta

El peligro de la apofenia en el análisis de datos y lo que puedes hacer al respecto.

Cassie Kozyrkov
Ciencia y Datos
7 min readAug 14, 2019

--

Traducido por Juliana Luque de el original por Cassie Kozyrkov (editado por Daniel Entin)

Existe una delgada línea entre contar historias usando datos y contar mentiras. Y antes de explicarte cómo detectar a un analista de datos de primer nivel y cómo mejorar sustancialmente tus habilidades en análisis de datos, déjame asustarte un poco.

La Trampa Psicológica en Analítica de Datos

Los cerebros de los seres humanos son máquinas de buscar patrones…pero estos patrones no siempre tienen relación con la realidad. Somos del tipo de especie que encontramos conejos en las formas de las nubes y la cara de Elvis en un papa frita.

Crees que estas imágenes lucen como un conejo y como el retrato de Elvis? Imagen: FUENTE.

Considera por un momento el Test de Rorschach — Test que se basa en analizar las interpretaciones que cada persona hace al ver distintas manchas de tinta — y apreciarás con qué entusiasmo la mente inyecta interpretaciones falsas a la aleatoriedad.

Es un murciélago? Es una mariposa? O es solo una mancha de tinta? Ésta es la primera de las diez láminas en el Test de Rorschach creado en 1921.

Los psicólogos tienen un nombre para la tendencia a evocar falsos significados de la nada: apofenia. Dale a los humanos un estímulo vago y encontraremos rostros, mariposas y una razón para asignar presupuesto a nuestro proyecto favorito o para lanzar un sistema de inteligencia artificial.

Oh oh.

Existe una gran cantidad de ruido aleatorio en la mayoría de los conjuntos de datos, así que, ¿cuáles son las posibilidades de que no haya apofenia en tu análisis de datos? ¿Realmente puedes confiar en tu interpretación de los datos?

Lo que la mente hace con las manchas de tinta también lo hace con los datos.

Para empeorar la cosas, cuantas más formas haya de dividir esos conjuntos de datos y cuanto más complejos sean, más vagos serán como estímulos. Eso significa que prácticamente te están rogando que veas falsos patrones en ellos.

Los conjuntos de datos complejos prácticamente te ruegan para que encuentres un significado falso en ellos.

¿Estás seguro de que tu última epifanía de datos no es una apofenia disfrazada?

Otra palabra interesante es pareidolia, que es un tipo de apofenia (que se refiere a encontrar patrones o conexiones familiares en estímulos sensoriales vagos). En Japón incluso tienen un museo de rocas que parecen rostros. Es un mundo hermoso!

Mentiras, mentiras perversas, y el análisis de datos

Si eso suena triste, no he terminado aún. Tomar cursos de análisis de datos podría echarle más leña a ese “fuego psicológico”. Los estudiantes están condicionados a esperar que la observación y análisis de datos genere un significado real, pues cada ejercicio de análisis exploratorio tiene un tesoro escondido en ellos. Muy pocos profesores tienen el corazón para enviarte a una búsqueda infructuosa (¡por tu propio bien!). A ello se adiciona la dificultad, para los profesores, de calificar proyectos abiertos. Como resultado, no tienes la suficiente exposición como estudiante a fenómenos como los que te estoy describiendo.

Los estudiantes crecen creyendo que cada conjunto de datos está listo para arrojar una verdad sólida.

Contar historias usando datos está a un paso de mentir usando datos. Deja a un lado la cuestión de si los patrones son reales y ahora hablemos de las múltiples interpretaciones. El hecho de que veas una forma de murciélago en esa mancha de tinta no significa que no haya también una mariposa, una pelvis o un par de zorros. De hecho, si no hubiera mencionado a los zorros, ¿los habrías visto? Probablemente no. Los mecanismos psicológicos relacionados con la motivación y la atención se han confabulado en tu contra. Se necesita de un conjunto especial de habilidades para liberar la interpretación del murciélago y obligarte a ti mismo a ver una superposición de significados.

Una vez que las personas encuentran su “interpretación” favorita, tendrán problemas para dejar de verla.

El problema es que una vez que las personas se atan a su “interpretación” favorita, tendrán problemas para ignorarla en favor de las otras posibles interpretaciones. Las personas tienden a creer más firmemente en la interpretación que atrajo su atención primero y cada significado adicional reduce su motivación para seguir buscando. Manejar múltiples interpretaciones potenciales de tus datos sin sobrevalorar a tu interpretación favorita es un músculo mental que requiere trabajo duro para su desarrollo. Por desgracia, no todos los analistas tienen la disciplina para ello. De hecho, muchos están incentivados para “probar” un lado de la historia a través de la exploración de datos. Entonces, ¿por qué cultivar habilidades que interfieren con un aumento de tu salario como científico de datos?

¿De qué color es tu sable de luz?

Hay maneras de probar las cosas con datos de manera honesta y rigurosa (mi próximo artículo le brindará más información al respecto). Pero el análisis exploratorio de datos (EDA por sus siglas en inglés) no es una de ellas. La exploración de datos abierta es siempre como una expedición de pesca. Lo que determina el color de tu sable de luz es lo que estás pescando.

Si te unes al lado oscuro, estás “pescando” pruebas que respalden una teoría que ya “sabes” que es cierta (para poder venderla a una víctima ingenua). Es posible que ni siquiera te des cuenta que tu sable es de luz es rojo si realmente crees en la objetividad de los datos y en tu propia imparcialidad.

La exploración de datos abierta es siempre una expedición de pesca.

Con un conjunto de datos suficientemente complejo (vago), encontrarás un patrón que puede girar como soporte para tu historia favorita. Después de todo, esa es la gracia de la prueba de Rorschach. Desafortunadamente, el efecto es aún peor con datos que con manchas de tinta. Cuanto más matemático-mágico sea tu método (“p-hacking”, ¿te suena familiar?), más legítimo y convincente parecerás ante aquellos que no tienen ningún conocimiento al respecto.

Foto satelital de la “Cara en Marte” la cual muchas personas tomaron como evidencia de vida extraterrestre.

Los que rechazan el lado oscuro también “van de pesca”, pero buscan algo más: la inspiración. Ellos están buscando patrones que puedan ser interesantes o convincentes, pero saben que no deben tomarlos como evidencia. En su lugar, practican una especie de analítica con mente abierta y con la suficiente disciplina para tener en cuenta la mayor cantidad de interpretaciones posibles.

Los mejores analistas de datos se desafían a sí mismos para encontrar tantas interpretaciones como sea posible.

Esto requiere un ojo agudo y humilde y una mente abierta. En lugar de engañar a sus partes interesadas para que vean solo un lado de la historia, se desafían a sí mismos para desarrollar el pensamiento creativo necesario y digerir los mismos datos en tantas historias como sea posible. Presentan sus hallazgos reflejando un seguimiento riguroso pero sin causar un exceso de confianza que lleve a sus líderes o partes interesadas hacia un precipicio.

La mentalidad abierta le da al análisis de datos la oportunidad de tener valor.

Como un bono adicional, la disciplina para buscar múltiples interpretaciones es el arma secreta de un analista para descubrir de los verdaderos tesoros enterrados en los datos. Si te distraes con una falsedad en la que crees, el sesgo de confirmación hará que sea difícil notar la evidencia que apunta en la dirección opuesta. ¿Por qué molestarse en analizar algo si sus conclusiones se determinan de antemano? La mentalidad abierta le da a todo el esfuerzo la oportunidad de valer la pena.

Este sándwich de queso obtuvo $ 28,000 dólares en una subasta porque representa a la imagen de la Virgen María. ¿Alguien desea proponer una interpretación alternativa de lo que estamos viendo?

Contratando a un gran analista

Si te gustaron mis otros artículos sobre análisis de datos, estos son los rasgos que ya estás buscando en un gran analista:

  • No hacen inferencias que van más allá de los datos que están explorando. [1]
  • Son diestro en el manejo de herramientas para ciencia de datos y tienen habilidades para analizar grandes conjuntos de datos rápidamente. [2]
  • Tienen dominio relevante del tema, por lo que es menos probable que desperdicien el tiempo de las partes interesadas con trivialidades. [3]
  • Entienden que su trabajo es sobre la búsqueda de inspiración. [3][4]
  • Visualizan los datos de una manera amigable para el cerebro para que el tiempo de inspiración se mantenga lo más corto posible. [3]
  • Saben lo que se necesitan para hacer un seguimiento riguroso de cualquier potencial interpretación que hayan encontrado. [4] [5] [6] [7]

Adicional a todo lo listado, este artículo sugiere que busques analistas con tres características adicionales:

  • Que sean conscientes de que la mente encuentra un significado donde no existe y que se mantengan humildes para evitar conclusiones precipitadas.
  • Que no intenten venderte una historia encontrada como resultado de torturar datos hasta que confiesen. En su lugar, que utilicen un lenguaje suavizado cuando se refieran a los datos.
  • Que tengan la disciplina de derivar múltiples interpretaciones para todo. Cuanto más rápido producen múltiples explicaciones y más alternativas generan, mayor es la fuerza. (Intenta entrevistar para esta habilidad especifica la próxima vez que busques contratar a tu “Jedi de análisis de datos”).

Finalmente, si eres un líder, asegúrate de dar a tu equipo los incentivos correctos. ¿Está buscando un analista de datos o un charlatán de datos? Estos tienen diferentes mentalidades (¡y habilidades!), así que elige sabiamente y recompensa los comportamientos adecuados.

¡Olvídate de las papas fritas! El museo japonés de rocas que parecen rostros gana el premio.

Obtén más información sobre ciencia de datos e inteligencia artificial en español aquí.

--

--

Cassie Kozyrkov
Ciencia y Datos

Head of Decision Intelligence, Google. Hello (multilingual) world! This account is for translated versions of my English language articles. twitter.com/quaesita