Clasificación basada en Machine Learning para la identificación de marcadores genéticos utilizando patrones estructurales asociados con cáncer de mama
| dc.contributor.advisor | Tobar Tosse, Henry Fabián | |
| dc.contributor.author | González Martínez, Lina Yojana | |
| dc.contributor.author | Hurtado Siabato, Carlos Eduardo | |
| dc.contributor.author | Pérez Ruiz, Camilo Andrés | |
| dc.date.accessioned | 2025-11-07T13:58:06Z | |
| dc.date.available | 2025-11-07T13:58:06Z | |
| dc.date.issued | 2025 | |
| dc.description.abstract | Según el Observatorio Global del Cáncer de la Organización Mundial de la Salud, el cáncer de mama sigue siendo una de las principales causas de mortalidad a nivel mundial, presentando tasas de incidencia especialmente altas en algunas regiones de América Latina. En respuesta a esta situación, el presente estudio presenta un marco integrador fundamentado en aprendizaje automático para el análisis de datos genómicos de alta dimensión procedentes de pacientes latinoamericanos. En primer lugar, se implementó un modelo de clasificación capaz de identificar marcadores genéticos a partir de patrones estructurales y de contextos loci específicos, evaluando la probabilidad de generación de factores patogénicos. El mejor rendimiento se obtuvo con XGBoost con submuestreo, alcanzando un F1-score de 0.9625 y una exactitud de 0.9622. No obstante, el hecho de que una variante haya sido etiquetada como patogénica no siempre representa el desarrollo de la enfermedad en el paciente. Por esta razón, de manera complementaria, se realizó un análisis y modelamiento sobre un segundo dataset enfocado en el diagnóstico de pacientes con y sin cáncer de mama familiar, para el cual el mejor modelo obtenido fue XGBoost con sobremuestreo que logró un rendimiento de F1-score de 0.9969 y exactitud de 0.9969. Adicionalmente, se aplicaron enfoques de clustering y métodos avanzados de selección de características para descubrir asociaciones genómicas que enriquezcan el repertorio de atributos relevantes en el cáncer de mama. El análisis revela un panel de ARN no codificantes, incluyendo Y-RNA, snoRNA y componentes del spliceosoma, junto con genes que codifican proteínas determinantes como CDH4, SDK1, PTPRN2 y CSMD1. Estos hallazgos subrayan dos ejes centrales en la oncogénesis mamaria: la desregulación del procesamiento y traducción del ARN, y la alteración de la adhesión celular y las vías de señalización. La combinación de modelos supervisados y no supervisados no solo potencializó la identificación de patrones estructurales, sino que también facilitó el enriquecimiento de las variables genéticas que sustentan la progresión tumoral. Este enfoque integrador amplía el conocimiento molecular y sienta las bases para el desarrollo de herramientas de diagnóstico temprano, planificación terapéutica y monitorización clínica, mejorando, en última instancia, la calidad de vida de las pacientes afectadas. | spa |
| dc.description.abstract | According to the Global Cancer Observatory of the World Health Organization, breast cancer remains one of the leading causes of mortality worldwide, with particularly high incidence rates in certain regions of Latin America. In response to this situation, the present study introduces an integrative framework based on machine learning for the analysis of high-dimensional genomic data from Latin American patients. First, a classification model was implemented to identify genetic markers based on structural patterns and specific loci contexts, evaluating the likelihood of pathogenic factor generation. The best performance was achieved using XGBoost with undersampling, reaching an F1-score of 0.9625 and an accuracy of 0.9622. However, the fact that a variant is labeled as pathogenic does not always indicate disease development in the patient. For this reason, a complementary analysis and modeling were conducted on a second dataset focused on diagnosing patients with and without familial breast cancer. For this dataset, the best-performing model was XGBoost with oversampling, achieving an F1-score of 0.9969 and an accuracy of 0.9969. Additionally, clustering approaches and advanced feature selection methods were applied to uncover genomic associations that enrich the repertoire of relevant attributes in breast cancer. The analysis revealed a panel of non-coding RNAs, including Y-RNA, snoRNA, and spliceosome components, along with protein-coding genes such as CDH4, SDK1, PTPRN2, and CSMD1. These findings highlight two central axes in breast oncogenesis: the dysregulation of RNA processing and translation, and the alteration of cell adhesion and signaling pathways. The combination of supervised and unsupervised models not only enhanced the identification of structural patterns but also facilitated the enrichment of genetic variables underlying tumor progression. This integrative approach expands molecular knowledge and lays the groundwork for the development of early diagnostic tools, therapeutic planning, and clinical monitoring, ultimately improving the quality of life for affected patients. | eng |
| dc.description.degreelevel | Maestría | |
| dc.description.degreename | Magíster en Ciencia de Datos | |
| dc.format.extent | 89 p. | |
| dc.format.mimetype | application/pdf | |
| dc.identifier.uri | http://hdl.handle.net/11522/5060 | |
| dc.language.iso | spa | |
| dc.publisher | Pontificia Universidad Javeriana Cali | |
| dc.publisher.department | Facultad de Ingeniería y Ciencias | |
| dc.publisher.program | Maestría en Ciencia de Datos | |
| dc.rights.accessrights | http://purl.org/coar/access_right/c_abf2 | |
| dc.rights.creativecommons | https://creativecommons.org/licenses/by-nc-sa/4.0/ | |
| dc.rights.uri | https://creativecommons.org/licenses/by-nc-sa/4.0/ | |
| dc.subject | Aprendizaje automático | spa |
| dc.subject | Clasificación | spa |
| dc.subject | Marcadores genéticos | spa |
| dc.subject | Cáncer de mama | spa |
| dc.subject | Oncogenes | spa |
| dc.subject | Machine learning | eng |
| dc.subject | Classification | eng |
| dc.subject | Genetic markers | eng |
| dc.subject | Breast cancer | eng |
| dc.subject | Oncogenes | eng |
| dc.title | Clasificación basada en Machine Learning para la identificación de marcadores genéticos utilizando patrones estructurales asociados con cáncer de mama | spa |
| dc.type | master thesis | |
| dc.type.coar | http://purl.org/coar/resource_type/c_bdcc | |
| dc.type.local | Tesis/Trabajo de grado - Monografía - Maestría | |
| dc.type.redcol | https://purl.org/redcol/resource_type/TM |
Files
Original bundle
1 - 2 of 2
Loading...
- Name:
- Proyecto de Grado Final - Lina Yojana Gonzalez Martinez,Carlos Eduardo Hurtado Siabato,Camilo Andrés Pérez Ruiz.pdf
- Size:
- 9.23 MB
- Format:
- Adobe Portable Document Format
No Thumbnail Available
- Name:
- Licencia de Uso - Lina Yojana Gonzalez Martinez,Carlos Eduardo Hurtado Siabato,Camilo Andrés Pérez Ruiz.pdf
- Size:
- 278.97 KB
- Format:
- Adobe Portable Document Format
License bundle
1 - 1 of 1
No Thumbnail Available
- Name:
- license.txt
- Size:
- 1.71 KB
- Format:
- Item-specific license agreed to upon submission
- Description: