¿Qué nos podrán indicar las pocas pruebas de COVID que hagamos?

En días pasados se anunció que México tiene una capacidad reducida para realizar pruebas de coronavirus y que no aumentará sustancialmente en el corto y mediano plazo, al menos no a la velocidad que se requiere. El modelo Centinela será la estrategia que aplica el gobierno de México para detectar (pocos, muy pocos) casos de coronavirus y confirmarlos. Según datos publicados por la Secretaría de Salud, actualmente podemos realizar entre mil y dos mil pruebas cada día y realizar estas pruebas diarias de aquí a septiembre, tendrá un costo de mil millones de pesos, es decir, casi el triple de lo que recaudó el Teletón en 2019.

Para el tamaño de la población de nuestro país, el número de pruebas que se harán, es realmente bajo y por ello, tendremos que aplicar una estrategia de muestreo, es decir, el modelo Centinela. ¿Qué implicaciones tiene para nosotros? Mediante un modelo matemático, hemos podido medir que con mil pruebas al día, cerca de 99% de los casos se quedarán sin una prueba formal. Pero, la estadística es una herramienta que nos puede ayudar en este tipo de situaciones; por ejemplo, para detectar qué candidato o candidata tiene mayor probabilidad de ganar las elecciones, usualmente se realiza un muestreo aleatorio de la población y con unas mil personas (o a veces hasta menos) se tiene suficiente información para predecir con cierta certidumbre quién ganará. Entonces realizar mil pruebas al día debería funcionar para medir la epidemia, ¿cierto? Son más de mil pruebas diarias, con lo cual podríamos estimar con mucha precisión la evolución de la pandemia.

Si bien es cierto que realizar mil pruebas al día es manejar muchísima información, existe un componente sumamente relevante que es el sesgo con el cual se realizan las pruebas. Si, por ejemplo, las pruebas se realizan en un hospital, únicamente a personas que presentan todos los síntomas del COVID19, entonces es muy posible que de esas mil pruebas, una gran parte sean casos confirmados. Y si se confirman diariamente muchas pruebas, la información que se obtiene sobre la epidemia, de manera colectiva, no es tanta (excepto que estamos en una epidemia y que la capacidad de hacer pruebas está muy rebasada). Ese es justamente el problema: realizar mil pruebas en un hospital es prácticamente lo mismo que preguntar a las personas por qué persona piensan votar, pero realizar la encuesta afuera del evento organizado por uno de los candidatos. La muestra (es decir, las personas que son encuestadas) es muy sesgada si realizamos la encuesta afuera de un evento masivo y la muestra (las personas a las que se les aplica el test del coronavirus) es igual de sesgada si realizamos las pruebas solamente en los hospitales. Midamos entonces el efecto del sesgo y veamos qué nos informarán las pruebas de coronavirus, dependiendo de qué tan aleatorias o qué tan sesgadas están esas muestras.

Modelando el sesgo de las pruebas: desde medir dentro de un hospital hasta un muestreo aleatorio en las calles

Supongamos una ciudad de un millón de personas, en las que una epidemia crece con una velocidad de 10% diario, y en la cual los malestares de ese virus duran 30 días, antes de que la persona se recupere por completo y forme inmunidad respecto al virus (o la persona fallezca). Ese modelo de epidemiología es conocido como el SIR (por las siglas Susceptible, Infectado y Recuperado) y muy frecuentemente se utiliza para entender el impacto y la velocidad de propagación de un virus. Los parámetros, aunque no son reales (es decir, ni tenemos una ciudad de un millón de personas, ni crece al 10% diario, ni duran un mes los malestares) no son muy lejanos a lo que hemos observado hasta ahora con el COVID19.

Ahora bien, supongamos que esa ciudad tiene la capacidad de hacer hasta 200 pruebas por día (que aunque son pocas pruebas, es como si México aplicará unas 25 mil pruebas diarias y no las menos de dos mil que hace ahora). Si las pruebas se hacen principalmente en los hospitales, hemos visto ya el resultado: en el corto plazo, habrá muchos más de 200 contagiados por día; prácticamente todas las pruebas saldrán positivas a ese virus, pero los datos observados (es decir, el número total de contagiados de cada día) no se parece en nada, a los datos que las pruebas nos pueden ofrecer. Aquí la explicación más completa sobre esos resultados. Casi todas los casos de coronavirus se quedarán como cifra negra, es decir, casos desconocidos por las autoridades (y desconocidos también por las personas que lo padecen). Además, el número de casos confirmados crecerá prácticamente de manera constante (aunque los casos reales sigan creciendo de manera “exponencial”) reflejando la saturación del sistema de pruebas.

Pero, ¿qué pasa si las pruebas no se realizan únicamente en los hospitales, a personas que presenten los síntomas? Utilicemos un parámetro para medir el sesgo, donde en un extremo, todas las personas tienen exactamente la misma probabilidad de ser muestreadas, es decir, realizamos un muestreo aleatorio del millón de habitantes (incluso cuando ya las probaron alguna vez, independientemente de si tienen o no los síntomas) y en el otro extremo, la mayor parte de las pruebas se realizan en un hospital a personas que muestran los síntomas del virus. Dentro de esos dos extremos (hacer todas las pruebas en un hospital o hacer un muestreo aleatorio) existe todo un espectro de opciones, así que veamos cómo las pruebas y los casos confirmados nos reflejan la evolución de la epidemia y recordemos que un extremo es como hacer una encuesta presidencial afuera del evento de algún candidato y el otro extremo es preguntar a personas de manera aleatoria.

Notemos que lo que queremos (al menos de manera colectiva) no es que todos los casos sean confirmados, ni confirmar a la mayor cantidad de personas (pues no podemos), sino que lo que buscamos es que la curva de los casos que logramos confirmar cada día se parezca muchísimo a la curva de personas que están infectadas con el virus. Incluso si son muy pocas personas las que confirmamos, si la correlación es alta, entonces los casos que se logran confirmar mediante las pruebas nos indican la evolución del virus en esa ciudad de un millón de personas y podemos calcular, por ejemplo, que cada caso que se confirma representa diez, cien o mil personas contagiadas pero que son desconocidas, es decir, podemos estimar la cifra negra del virus.

Todo depende del sesgo

En primer lugar, veamos lo que el modelo de la epidemia nos muestra. Al principio de la epidemia, pocas personas tienen el virus, luego el número de personas contagiadas aumenta, y conforme crece el número de casos, se acelera la velocidad a la que se propaga el virus y por ello, al principio parece crecer de manera “exponencial”. Al no encontrar el virus muchas más personas susceptibles, se desacelera y las personas se recuperan. En la ciudad de un millón de personas, con un virus que crece 10% diario y que toma 30 días de recuperación, más de 90% de la población será infectada en algún momento (Figura 1, la parte de arriba) y tendremos la mayor cantidad de infectados cerca del día 130 de la epidemia.

Figura 1 – Simulación de los contagios de coronavirus en una ciudad de un millón de habitantes, en los que se tiene una capacidad máxima de hacer 200 pruebas diarias, la epidemia crece 10% cada día y las personas se recuperan o fallecen 30 días después. La primera parte de la figura muestra durante los primeros 200 días de la epidemia, el número de personas susceptibles al virus, el número de personas contagiadas y el número de personas recuperadas. Diferentes estrategias de muestreo producen diferentes curvas de casos confirmados. En la parte del centro se muestra el número de casos que se confirman en cada día, donde en color verde es un muestreo aleatorio y en amarillo es un muestreo completamente sesgado, es decir, las pruebas se realizan únicamente en hospitales y prácticamente todas las pruebas salen positivas. A partir del día 25 de la epidemia, prácticamente todas las pruebas son positivas, pues el sesgo al realizarlas en un hospital es muy grande. En la figura de abajo se muestra el número acumulado de casos que se confirman por día, que es prácticamente la curva que veríamos reportada en algún noticiero.

En este modelo sencillo (en el cual no hay medidas de distanciamiento social), se observa que en el momento más crítico, más de la mitad de la población llega a tener el virus al mismo tiempo, cerca del día 130. Además, en un solo día, se observan casi 18 mil nuevos contagios (que es el momento en el que la epidemia crece a la mayor velocidad, cerca del día 110). ¿Y cómo podemos detectar que la ciudad ya pasó por el punto máximo de la epidemia o que está pasando por el punto de mayor crecimiento? ¡Con pruebas!. Pero notemos que las estrategias de muestreo son sumamente diferentes (Figura 1, la parte del centro). Mediante un muestreo completamente aleatorio, la curva de los casos confirmados mediante pruebas es prácticamente idéntica a la curva de los casos reales, aunque es una versión a escala (mucho más chica). Mientras que la parte más alta de la curva de casos reales llega a tener a más de medio millón de personas contagiadas (es decir, la altura máxima de la curva de contagiados en la parte de arriba de la figura), la parte más alta de los casos confirmados, si hacemos un muestreo aleatorio, tiene una altura máxima de no más de 120 casos. Pero eso no nos debe de preocupar. Si a cada caso confirmado lo multiplicamos por 5 mil, obtenemos prácticamente la misma curva que la de casos reales. Solo es una cuestión de escalar.

Notemos, por otro lado, que realizar la mayor parte de las pruebas en un hospital, a personas que presentan los síntomas, es decir, el mayor sesgo posible (en amarillo), no refleja una curva similar a la de los casos reales. Al contrario. Si realizamos las pruebas principalmente en un hospital, tendremos el mayor sesgo posible, y pronto, el número de casos que se pueden confirmar se vuelve constante. Pero notemos que se vuelve constante no cuando la epidemia deja de crecer, sino cuando la capacidad de hacer más pruebas queda rebasada (Figura 1, la parte del centro). Con mucho sesgo, cerca del día 40, el número de casos que se logran confirmar cada día se vuelve constante y además, es constante prácticamente hasta el día 200. Mediante miles de costosas pruebas diarias, producir un número casi constante durante 160 días, tiene poca utilidad a nivel colectivo para entender la evolución de la epidemia.

Las pruebas negativas también son información valiosa

Lo que nos preocupa a nivel colectivo, es decir, a nivel país, no es confirmar a más personas por el virus, ni realizar más pruebas confirmadas, sino detectar los momentos críticos de la epidemia y poder estimar en cuánto tiempo habremos superado este desastre, el impacto económico, o los sectores industriales que pueden retomar sus actividades. Notemos aquí una característica muy relevante de la estrategia. Las pruebas que salen negativas por coronavirus, también nos proveen de mucha información. Por ejemplo, si se realiza un muestreo aleatorio de 200 personas y solo en 10 de esas pruebas se confirma el virus, entonces nos indica que estamos cerca del inicio (o del final) de la epidemia. Los casos negativos son también información muy valiosa.

¿Cuántos casos lograremos confirmar mediante las pruebas que hacemos? Al final de la epidemia, más de 90% de la población de esa ciudad que hemos simulado habrá tenido el virus. Si realizamos las pruebas con el mayor sesgo posible, dentro de los hospitales, habremos confirmado solo a 4% de las personas que tuvieron el virus, mientras que si lo hacemos mediante un muestreo aleatorio, solo confirmaremos a 0.6% de las personas que tuvieron el virus, es decir, muestreando de manera sesgada, en un hospital, lograríamos casi 7 veces más casos confirmados que si lo hacemos de manera aleatoria. Pero, es el mismo problema que realizar mil encuestas presidenciales y hacerlas afuera del evento de algún candidato: seguramente más personas contestarían nuestra encuesta diciendo que piensan votar por ella o él, aunque no por ello es más representativo. En esa ciudad de un millón de personas, hacer un muestreo aleatorio a 200 personas diarias es más que suficiente para detectar de manera muy precisa la evolución de la epidemia y lo único que es necesario es multiplicar cada caso confirmado por un factor (en el caso de esta ciudad simulada, es un factor de 166) para estimar el número de casos totales que hay en la ciudad. Por supuesto que se pueden realizar estrategias de muestreo mucho más sofisticadas, pero lo relevante aquí es que incluso mediante un muestreo aleatorio y con muy pocas pruebas, es posible hacer un seguimiento de la epidemia en el país.

En esta pandemia, tenemos que aceptar que no tenemos la información completa e incluso, con millones de pruebas, no sería información suficiente. Cabe plantearse la pregunta siguiente: si esa ciudad de un millón de personas tuviera la capacidad de realizar un millón de pruebas, ¿sería suficiente? Para nosotros la respuesta es no. Incluso con una prueba para cada persona, los resultados solo nos indicarían si esa persona tiene el virus en el momento de hacer la prueba, pero en caso de que el resultado muestre que alguien no tiene el virus, esa persona tendrá contacto con ciertos objetos de regreso a casa y encontrará a personas en su camino, por lo que la certeza de lo que reflejen sus resultados, decrece rápidamente. Incluso con una prueba para cada persona, el tema mismo del coronavirus está lleno de incertidumbre.

El modelo Centinela se basa en nuestra limitada capacidad de realizar muchas pruebas y es una estrategia planeada para detectar algunos casos de coronavirus en nuestro país y utilizarlos para medir la evolución de la epidemia. Si se realizan las pruebas de manera correcta y con la estrategia adecuada, podemos detectar con mucha precisión la evolución del virus y definir políticas más acertadas para controlar o reducir sus efectos en nuestro país. Ello implica pensar y actuar de manera colectiva y no de manera individual. Claro que a nivel personal, hacerte una prueba resulta muy útil para saber si tienes el virus, por ejemplo, y saber si puedes contagiar a tus seres queridos y evitar nuevos contagios, pero considerando las restricciones que tenemos, lo mejor es pensar y actuar de manera colectiva: si tienes los síntomas y sospechas que tienes coronavirus, entonces asume que te hiciste una prueba y resultó positiva: informa a tus seres queridos y aíslate durante 14 días.

Con más de mil pruebas diarias de COVID19 podemos estimar con mucha precisión la evolución de la pandemia en México.

Rafael Prieto Curiel y Ángel Robles

Rafael es mexicano y matemático y actualmente es investigador en la universidad de Oxford e investigador externo de la OCDE. Realizó un doctorado en Matemáticas, Crimen, Seguridad y Urbanismo en University College London y trabajó en el C5 de la CDMX. | | | | Ángel es Físico especialista en analítica avanzada con técnicas de inteligencia artificial y actualmente estudia el posgrado en Física en la Universidad Veracruzana. Cuenta con amplia experiencia en proyectos tanto del sector público como del sector privado. vidaanalytics.com