Hace unos poco días Andrés Vázquez me invitó junto a un conjunto de personas (especialistas en datos abiertos, cientistas de datos, economistas, informáticos y desarrolladores de software) a responder \(3\) preguntas que tienen que ver con los desafíos de la apertura de datos en el contexto de la crísis de la pandemia del Covid19.
Cadena de Datos / Episodio 34: En este contexto de crisis y preocupación por la pandemia donde todos queremos saber que paso ahora, que tan grave es y que va a pasar en las próximas semanas me surgen algunas dudas acerca de las políticas de apertura y uso de los datos relacionados a este tema.
Mi reacción se centró en dos ejes: (1) la demanda de datos por parte del público en general (como lo llamó Diego Kozlowski en su propia intervención) y (2) cómo esto se relaciona con la mala información y la desinformación.
- Como usuario aficionado a los datos públicos creo en la importancia del desarrollo y apertura de datos. Entiendo que una mayor disponibilidad de estos, en formatos en los que podamos reutilizarlos es saludable, al proveer a la comunidad de usuarios de datos insumos que favorecen un proceso de democratización del conocimiento. Existen experinecias que desde la sociedad civíl han empujado el desarrollo de plataformas de datos abiertos en otros niveles. Aunque no son los únicos, ejemplos como el
GgastoPublicoBahiense
o dat.ar son muestra de ello. Y, si bien falta, en Argentina venímos transitando un camino positivo. Aunque con ciertos déficits, gobiernos locales, provinciales y dependencias del gobierno nacional han ido dando pasos en este sentido.
Ahora, creo que en el contexto de la pandemia esta virtud encuentra un límite más restrictivo que lo usual en la capacidad y recursos que los estados tiene a mano para poder responder y que ellos deben ser destinados a resolver los cuellos de botella que la crisis implica.
- Por otro lado pienso que el uso de datos que muchas veces hacemos quienes conformamos la comunidad de usuarios debe hacerse con mayor responsabilidad. Sobre todo teniendo en cuenta los costos que pueden generar, no solo la (a) desinformación ( ~ fake news), que en general es intencional, sino la (b) mala información o información erronea.
Para ilustrar la primera podemos recurrir al político tuitero más famoso del mundo:
Ese mapa que Trump compartió en medio de la discusión por el juicio político en el Congreso de EE.UU. buscaba contar una historia: la mayoría de los noreteamericanos me apoya a mí. Muchos salieron a contestarle mostrando que esa manera de presentar la información era mentirosa. Otra mirada posible de los mismos datos (en los que se pone el foco en la densidad poblacional y no ya en los kilometros de extensión del territorio), y más certera desde el punto de vista de lo que se estaba discutiendo, es representada en la siguiente ilustración:
Pero, como mencionaba antes, no siempre se trata de la publicación de información falsa intencionalmente. Muchas veces lo que puede suceder es que se distribuya información erronea o poco precisa, por la falta de conocimiento de dominioo metodologías particulares Y creo que, si bien esto sucede con muchos temas y áreas de estudio, es particularmente sensible en un contexto crítico y específico como el de la pandemia. Y que los costos potenciales asociados a la viralización de contenido erroneo es un tema sobre el que deberíamos tener especial atención.
Con ello no quiero decir que la comunidad de usuarios de datos no tenga un rol que cumplir; que deba mantenerse aislada de la discusión y que no haya espacio para aportes. Pero quizás no sea éste el de analizar y compartir en sus redes sociales la evolución epidemoiológica o de las consecuencias potenciales que puede tener el virus en salud. Se puede, por ejemplo, trabajar al servicio de otras áreas que puedan requerir colaboración por los efectos asociados a la cuarentena. Me valgo del ejemplo del trabajo que coordina el Data Sociologist Germán Rosati, en el que se propusieron calcular el tiempo que demoran los habitantes de un radio censal en caminar hasta un cajero automático, un almacén o lugares similares. O tambien se puede colaborar brindando herramientas a partir de los datos con la que expertos en temas específicos de la pandemia puedan ver facilitado sus análisis. Pero, definitivamente, pienso que deberíamos limitar nuestro impetú en descargarnos un dataset y generar una visualización bonita para compartir publicamente. Y en muchos casos no colaboran al mejor entendimiento de lo que nos sucede, sino que tiene efectos nocivos sobre la calidad de información que circula.
I'm seeing people tweeting charts like the one below to argue that COVID-19 may be a big deal, but perhaps not as much as we think.
— Alberto Cairo (@AlbertoCairo) March 26, 2020
Please stop. This is data over 365 days. None of these are airborne communicable diseases that grow exponentially in a very short period of time. pic.twitter.com/xaHkQETj7v