En los últimos años, la pandemia de COVID-19 ha ocasionado una multitud de desafíos a nivel global. Hasta la fecha se han realizado numerosas investigaciones con el objetivo de caracterizar y comprender con mayor detalle el virus SARS-CoV-2, todo con la finalidad de desarrollar nuevas estrategias para enfrentar posibles infecciones futuras. Este esfuerzo ha dado lugar a la creación de bases de datos que contienen cientos de miles de genomas secuenciados del virus.
Asimismo, diversas herramientas computacionales han tenido un impacto significativo en la investigación de este virus, ya que facilitan el análisis de cientos de miles de secuencias virales. En este proceso, el aprendizaje computacional, el análisis de datos y la visualización de datos han desempeñado roles esenciales.
En particular, debido a la vasta cantidad de secuencias disponibles, identificar los genomas más anómalos del virus ha adquirido una gran importancia. Si bien estos genomas podrían indicar problemas en su almacenamiento o incluso errores en su secuenciación, desde una perspectiva biológica, estas anomalías también podrían estar relacionadas con mutaciones en el virus. Mutaciones que podrían ser causantes de acelerar el ritmo de transmisión y/o gravedad de la infección.
Este trabajo tiene como objetivo emplear diversos métodos computacionales con el fin de detectar los genomas más inusuales secuenciados en México desde el 1 de enero de 2020 hasta el 16 de junio de 2022. Para ello, se emplean herramientas computacionales como el cálculo de distancias, el cálculo de la entropía, la reducción de dimensionalidad y diversos algoritmos de detección de anomalías.
Con todo esto, lo que se pretende es proporcionar a los especialistas una herramienta adicional que les permita realizar análisis posteriores más detallados sobre el virus SARS-CoV-2.
Este repositorio contiene la colección de Jupyter Notebooks generados para implementar la metodología descrita en el documento de Tesis "Detección de genomas anómalos de sars-cov-2 por medio de algoritmos de aprendizaje no supervisados".