Browsing by Author "Hurtado Siabato, Carlos Eduardo"
Now showing 1 - 1 of 1
Results Per Page
Sort Options
Item Clasificación basada en Machine Learning para la identificación de marcadores genéticos utilizando patrones estructurales asociados con cáncer de mama(Pontificia Universidad Javeriana Cali, 2025) González Martínez, Lina Yojana; Hurtado Siabato, Carlos Eduardo; Pérez Ruiz, Camilo Andrés; Tobar Tosse, Henry FabiánSegún el Observatorio Global del Cáncer de la Organización Mundial de la Salud, el cáncer de mama sigue siendo una de las principales causas de mortalidad a nivel mundial, presentando tasas de incidencia especialmente altas en algunas regiones de América Latina. En respuesta a esta situación, el presente estudio presenta un marco integrador fundamentado en aprendizaje automático para el análisis de datos genómicos de alta dimensión procedentes de pacientes latinoamericanos. En primer lugar, se implementó un modelo de clasificación capaz de identificar marcadores genéticos a partir de patrones estructurales y de contextos loci específicos, evaluando la probabilidad de generación de factores patogénicos. El mejor rendimiento se obtuvo con XGBoost con submuestreo, alcanzando un F1-score de 0.9625 y una exactitud de 0.9622. No obstante, el hecho de que una variante haya sido etiquetada como patogénica no siempre representa el desarrollo de la enfermedad en el paciente. Por esta razón, de manera complementaria, se realizó un análisis y modelamiento sobre un segundo dataset enfocado en el diagnóstico de pacientes con y sin cáncer de mama familiar, para el cual el mejor modelo obtenido fue XGBoost con sobremuestreo que logró un rendimiento de F1-score de 0.9969 y exactitud de 0.9969. Adicionalmente, se aplicaron enfoques de clustering y métodos avanzados de selección de características para descubrir asociaciones genómicas que enriquezcan el repertorio de atributos relevantes en el cáncer de mama. El análisis revela un panel de ARN no codificantes, incluyendo Y-RNA, snoRNA y componentes del spliceosoma, junto con genes que codifican proteínas determinantes como CDH4, SDK1, PTPRN2 y CSMD1. Estos hallazgos subrayan dos ejes centrales en la oncogénesis mamaria: la desregulación del procesamiento y traducción del ARN, y la alteración de la adhesión celular y las vías de señalización. La combinación de modelos supervisados y no supervisados no solo potencializó la identificación de patrones estructurales, sino que también facilitó el enriquecimiento de las variables genéticas que sustentan la progresión tumoral. Este enfoque integrador amplía el conocimiento molecular y sienta las bases para el desarrollo de herramientas de diagnóstico temprano, planificación terapéutica y monitorización clínica, mejorando, en última instancia, la calidad de vida de las pacientes afectadas.