Has elegido la edición de . Verás las noticias de esta portada en el módulo de ediciones locales de la home de elDiario.es.

Big data bueno, big data malo

El big data, un potencial casi impenetrable para las iniciativas activistas.

Miren Gutiérrez

  • Esta es una versión en castellano de un análisis publicado por el Institute of Network Cultures de Ámsterdam

¿Son los big data siempre los “mejores” datos, como argumenta Cukier? A la luz de las historias de terror que nos ha traído 2018, esta declaración debe revisarse. El último informe del AI Now Institute describe cómo en 2018 se incitó a la depuración étnica en Myanmar a través de Facebook; Cambridge Analytica intentó manipular las elecciones; Google casi crea un motor de búsqueda para los servicios de inteligencia chinos y ayudó al Departamento de Defensa de EEUU a analizar imágenes de drones; y se despertó la indignación por los contratos de Microsoft para prestar servicios de reconocimiento facial a Inmigración y Control de Aduanas de EEUU.

Las prácticas de extracción de datos de estas plataformas están bajo escrutinio debido a su impacto, no solo en la privacidad sino también en la democracia. Los big data no son necesariamente mejores datos.

Sin embargo, como asegura Anna Carlson, “la ausencia de bondad” de los big data tampoco es intrínseca. El nuevo libro Good Data, editado por Angela Daly, Kate Devitt y Monique Mann y publicado por el Institute of Network Cultures en Ámsterdam, es precisamente un intento de demostrar que los datos pueden, y deben, ser “buenos”. Los datos buenos pueden ser incluso mejores que los big data no solo con respecto a la ética, sino también con respecto a las necesidades técnicas de una investigación determinada. Por ejemplo, como investigadoras, ¿por qué deberíamos esforzarnos por trabajar con big data cuando tenemos a mano small data suficientemente buenos para un estudio en particular?

Basándome en el concepto de “datos suficientemente buenos”, que los autores Jennifer Gabrys, Helen Pritchard y Benjamin Barratt aplican a los datos ciudadanos recopilados a través de sensores, mi contribución al libro examina cómo las activistas generan y emplean datos, expandiendo y aplicando el concepto de “datos suficientemente buenos” más allá de los datos ciudadanos y del medio ambiente. El capítulo tiene como centro el caso de Syrian Archive, una organización que documenta datos relacionados con la guerra en Siria, para analizar los nuevos estándares aplicados a la recopilación y verificación de datos en este tipo de activismo, así como sus desafíos.

Pero ¿qué son datos suficientemente buenos? Más allá de localizables, accesibles, interoperables y reutilizables (FAIR, por sus siglas en inglés), los datos suficientemente buenos son los que cumplen con unos estándares concretos: ser suficientemente sólidos en cantidad y calidad e involucrar a la ciudadanía, no solo como receptora, sino como recolectora, curadora y analizadora de datos. También poder generar historias orientadas a la acción; involucrar usos alternativos de la infraestructura de datos y otras tecnologías y recurrir a fuentes de datos creíbles. Recolectar datos de forma ética también es necesario, así como que sean relevantes para el contexto y objetivos de la investigación, y se puedan conservar para su uso posterior (por ejemplo, como evidencia en un juicio).

Los datos suficientemente buenos pueden ser la base para pruebas sólidas. El capítulo compara dos informes sobre los bombardeos y ataques aéreos contra civiles en la ciudad de Alepo, Siria, en 2016. El primero fue publicado por la Oficina de la Alta Comisionada para Derechos Humanos (OACDH) y el segundo por Syrian Archive. Los resultados de la comparación muestran que ambos informes son compatibles, pero que este último es más inequívoco al señalar una participación rusa en los ataques.

Basado en 1,748 vídeos, el informe de Syrian Archive dice que, aunque todas las partes cometieron violaciones, hubo una participación rusa “abrumadora” en los bombardeos. Mientras tanto, OACDH emitió una declaración cuidadosamente redactada en la que culpaba a “todas las partes en el conflicto sirio” de perpetrar violaciones que causaron víctimas civiles, admitiendo que “las fuerzas gubernamentales y pro gubernamentales [es decir, las rusas] atacaron hospitales, escuelas y suministros de agua”. La disparidad en el lenguaje de ambos informes puede tener más cosas en común con los datos que estas organizaciones emplearon en sus estudios que con la diferencia entre una audaz ONG y una cuidadosa agencia de la ONU.

Si bien el informe de la OACDH se basó en entrevistas posteriores al evento con personas que fueron testigos de los bombardeos, Syrian Archive se basó en videos subidos a redes sociales, que luego se verificaron mediante triangulación con otras fuentes de datos, incluida una red de unas 300 personas confiables en el terreno.

El capítulo se basa en la taxonomía que se ofrece en mi libro Data activism and social change, que agrupa los métodos de extracción de datos en cinco categorías.

El capítulo también analiza las prácticas de datos de varios grupos activistas y no activistas para hacer comparaciones con los métodos de Syrian Archive. Esta organización, por ejemplo, analiza vídeos de plataformas de redes sociales subidos por la ciudadanía; estos pertenecerían a la segunda categoría (datos públicos) y a la tercera (datos de crowdsourcing)  Por lo que, según el origen de los datos, se podrán aplicar distintas iniciativas que guarden relación.

Otro ejemplo: WeRobotics es un grupo que forma a comunidades, lanzan drones y mapean territorios en países en desarrollo para dar información sobre desastres humanitarios y facilitar los procesos de toma de decisiones. Lo hacen a través de imágenes que recaban los propios drones y que son posteriormente analizados por la ciudadanía. Estos datos encajarían en la quinta categoría, al tratarse de datos primarios. En la misma línea se sitúa el estudio de Gabrys, Pritchard y Baratt citado anteriormente, que utiliza los datos ciudadanos recogidos a través de sensores para fomentar las iniciativas de carácter medioambiental.

InfoAmazonia es un proyecto donde confluyen las tres categorías de datos mencionadas: públicos, crowdsourcing y primarios. Se dedica a realizar mapeos de noticias y datos de comunidades, periodistas y activistas para poder documentar casos de abusos de derechos humanos y medioambientales en los países amazónicos. Lo hace a través de imágenes satelitales y plataformas colaborativas de datos.

El interés de este ejercicio no son los resultados de las investigaciones en Siria, sino los datos y los métodos que los respaldan. Lo que esto nos muestra es que este tipo de activismo es capaz de producir datos suficientemente buenos desde el punto de vista ético y técnico para generar información confiable (y suficiente), llenar vacíos, complementar y apoyar los esfuerzos de otros agentes. Citando a Gabrys, Pritchard y Barratt, son también capaces de crear evidencia accionable que puede “movilizar cambios de políticas, respuestas de la comunidad, monitoreo de seguimiento y una mejor rendición de cuentas”.

Etiquetas
stats