Desarrollo de un score de patogenicidad basado en machine learning para la priorización de variantes genómicas en el contexto de genómica médica

Las variantes genómicas representan alteraciones en la secuencia de ADN de un individuo en comparación con un genoma de referencia. De las millones de variantes identificadas en humanos, solo una pequeña fracción tiene un impacto biológico negativo y puede ser causante de diversas enfermedades genéticas. Las consecuencias de estas variantes dependen de la región genómica afectada, ya sea codificante, reguladora o involucrada en procesos post-transcripcionales. Este proyecto se enfoca en variantes que impactan el splicing, un proceso esencial en la maduración del ARN mensajero (ARNm). Las variantes en estas regiones pueden dar lugar a la retención de intrones o la exclusión de exones en el ARNm maduro, lo que altera la secuencia y función de las proteínas resultantes, y potencialmente conduce a enfermedades.

A pesar de los avances significativos en las tecnologías de secuenciación de nueva generación (NGS), que han revolucionado la capacidad de analizar el genoma humano y mejorar el diagnóstico de enfermedades de base genética, la interpretación de los enormes volúmenes de datos generados sigue siendo un desafío considerable. El análisis de datos masivos derivados de NGS requiere herramientas computacionales avanzadas para facilitar su manejo y extracción de información biológica relevante. En este contexto, el aprendizaje automático ha emergido como una solución poderosa para mejorar la interpretación de variantes genéticas, permitiendo el entrenamiento de modelos predictivos con grandes conjuntos de datos y la identificación de patrones complejos que pueden predecir el impacto de estas variantes sobre la salud.

Este trabajo tuvo como objetivo desarrollar un score de patogenicidad mediante métodos de aprendizaje automático, enfocado en la clasificación de variantes genómicas que afectan el mecanismo de splicing. Este score está orientado a mejorar el diagnóstico de pacientes con enfermedades genéticas, con énfasis particular en las enfermedades raras. Para este estudio, se recolectaron variantes de tres bases de datos principales: ClinVar, 1000 Genomas y Urugenomes (datos locales). ClinVar proporcionó la mayoría de las variantes clasificadas como patogénicas, mientras que 1000 Genomas y Urugenomes aportaron variantes consideradas benignas (sin efecto deletéreo), además de información poblacional específica para Uruguay.

Una vez reunidos los datos, se incorporaron features mediante la anotación funcional de variantes con herramientas como ANNOVAR y VEP, permitiendo incorporar información genómica, frecuencias poblacionales, predictores in silico y datos clínicos. Se pre-procesaron los datos aplicando filtros para seleccionar variantes que afectan sitios de splicing, ya sea en posiciones canónicas o en regiones próximas a estos, y se imputaron valores faltantes mediante KNN. Para el entrenamiento, se empleó validación cruzada anidada junto con GridSearch para la selección de hiperparámetros. Se exploraron diversos modelos de clasificación (KNN, SVM, Random Forest y XGBoost) con múltiples combinaciones de parámetros, buscando maximizar el rendimiento predictivo.

Los resultados obtenidos en este trabajo final de grado muestran que el modelo XGBoost alcanzó un rendimiento sólido, con una exactitud del 85% y una puntuación F1 de 87%. Este desarrollo representa un paso preliminar hacia la creación de una herramienta de asesoramiento diagnóstico que, en el futuro, podría mejorar la precisión clínica en el diagnóstico de muchos pacientes.