La importancia de los datos durante el COVID-19
Un conjunto de datos omnipresentes en esta crisis lo constituyen las series temporales que recogen los números de contagios identificados, de fallecimientos y de pacientes que han recibido el alta, a diferentes escalas (mundial, por países o por regiones o incluso ciudades).
En el momento actual, puede decirse que el ansiado pico de la curva parece estar alcanzándose en Italia, y cabe esperar que pase algo análogo en España a corto plazo. Existe más incertidumbre sobre la evolución en otros países como Estados Unidos: en el extremo opuesto está China, donde en este momento apenas se registran contagios no importados.
Hay muchos aspectos que pueden analizarse de estas series de datos, tanto desde un punto de vista matemático y estadístico como en relación a su impacto en las decisiones que han tomado diversos gobiernos regionales o nacionales; destaquemos, por ejemplo, las similitudes entre las series temporales de Italia y España, con un retardo entre ambos países de aproximadamente nueve días al principio de la epidemia (retardo que se ha ido reduciendo progresivamente en las semanas posteriores).
El procesamiento fiable, rápido y eficiente de estos datos se antoja esencial para la adopción de medidas orientadas a la reducción del número de contagios, o a la ralentización de los mismos a través del ya famoso curve flattening. Remitimos al lector a las series temporales publicadas por la John Hopkins University.
Modelos de predicción y estimaciones
Otro elemento esencial en este periodo, estrechamente relacionado con lo anterior, está siendo la elaboración de modelos de predicción de la evolución del brote. En la web pueden encontrarse gran cantidad de modelos y simulaciones sobre esa posible evolución. Muchos de ellos emplean aproximaciones clásicas, basadas en el empleo de los modelos compartimentales de Kermack & McKendrick (modelos SIR, SIS, etc.).
La reflexión que queremos compartir aquí se centra en la necesidad de hacer, en este tipo de análisis, una elección bien fundamentada del modelo y de sus variables, y también en la importancia del timing en un proceso de modelado de datos necesariamente dinámicos. Como idea elemental y meramente introductoria, sería precipitado defender las bondades de un modelo SIR (susceptible-infected-recovered, o removed) frente a un SIS (susceptible-infected-susceptible), o viceversa, antes de saber si existe la posibilidad de reinfección.
Se puede encontrar una excelente introducción a algunos aspectos esenciales de estos modelos (en particular, al significado del número reproductivo básico R0, parámetro clave en ellos), en el contexto del SARS, en este trabajo publicado en Science.
“I” de los modelos anteriores
También de forma introductoria, sería equivocado identificar, como ocurría con cierta frecuencia en las primeras simulaciones que se subieron a la red, la “I” de los modelos anteriores con el número de contagios confirmados por las autoridades sanitarias, habida cuenta de que el número de infecciones reales puede ser mucho mayor que el de las infecciones identificadas (por casos leves o asintomáticos no contabilizados, y/o por limitaciones en el número de pruebas realizadas).
Es esencial incorporar al modelo estimaciones del número de casos reales: véanse, por ejemplo, los trabajos publicados por el CMMID y por Nature en este sentido.
El propio Ministerio de Sanidad español ha enfatizado la necesidad de introducir test serológicos para detectar personas que hayan pasado la enfermedad de forma leve o asintomática, encaminados a hacer estudios generales sobre la inmunidad de la población. El eslogan sería: no basta con tener los datos y conocer los modelos: hay que hacer un uso inteligente y crítico de todos ellos.
El valor de los datos
Hay muchas otras vertientes de los datos que podrían analizarse en esta época del coronavirus. Brevemente, cabe mencionar la importancia de otro elemento presente en la cadena de valor del dato: la fiabilidad, en gran parte vinculada a la fuente de la que proceden los datos y al hecho de que puedan ser o no contrastables.
Una cautela que el experto en datos nunca puede olvidar es la comprobación de la coherencia interna de los mismos: un comportamiento inesperado en una serie temporal podría deberse a factores desconocidos, pero también revelar una manipulación de los datos.
Tampoco se ha hecho mención a la responsabilidad social asociada a la información y a la publicidad de la misma, y en este sentido es interesante la lectura de este artículo publicado en el diario El País, en el que se analiza cómo el intercambio de datos está catalizando la investigación en torno al coronavirus.
Todo lo anterior puede discutirse y ampliarse en muchas direcciones. Terminaremos, sin embargo, con una reflexión reciente de Antonio Muñoz Molina, de una índole muy distinta.
“Nos ha hecho falta una calamidad como la que ahora estamos sufriendo para descubrir de golpe el valor, la urgencia, la importancia suprema del conocimiento sólido y preciso, para esforzarnos en separar los hechos de los bulos y de la fantasmagoría, y distinguir con nitidez inmediata las voces de las personas que saben de verdad, las que merecen nuestra admiración y nuestra gratitud”.
Esperemos que esta puesta en valor del conocimiento no sea solo de aplicación en el momento actual sino que se extienda a lo que está por venir, y ojalá nuestros estudiantes puedan contribuir a ello.