Ramírez Ovalle, Carlos ErnestoÁlvarez Bustos, AbelRiaño Díaz, John Agustín2025-11-062025-11-062025http://hdl.handle.net/11522/5055Este proyecto se centra en el análisis de la producción científica en Colombia y su vinculación con los Objetivos de Desarrollo Sostenible (ODS) establecidos por la Organización de las Naciones Unidas. A pesar del crecimiento de la producción científica en el país, no existía una caracterización sistemática que evidenciara su alineación temática con los ODS, lo que dificultaba la identificación de tendencias, brechas y áreas de oportunidad en investigación. La investigación planteó como objetivo general desarrollar un modelo de análisis que, mediante técnicas de procesamiento de lenguaje natural y redes neuronales, permitiera clasificar resúmenes de artículos científicos de las áreas de ingeniería y medicina en función de su relación con los ODS. Para ello, se realizó un proceso de recopilación de datos a partir de artículos indexados en Scopus, correspondientes al año 2018 a 2024, seguido de la selección de una muestra representativa mediante muestreo estratificado. Posteriormente, se efectuó un etiquetado manual de los resúmenes en función de su correspondencia con los ODS, con base al contenido temático y su potencial contribución al desarrollo sostenible. Esta muestra etiquetada fue empleada para entrenar modelos supervisados, particularmente utilizando la arquitectura BERT, con el fin de optimizar la clasificación automática de nuevos documentos. Adicionalmente, se implementaron estrategias de balanceo de clases mediante técnicas de traducción y parafraseo, dada la baja representación de algunos ODS en los datos recopilados. El proyecto incorporó un proceso de validación cruzada para evaluar el desempeño de los modelos entrenados en tareas de clasificación, utilizando métricas como exactitud, precisión, recall y F1-score. Los resultados obtenidos permitieron caracterizar la producción investigativa colombiana, diferenciada por áreas de conocimiento, y establecer patrones de alineación con los ODS más representativos. Asimismo, se identificaron vacíos temáticos y áreas de fortalecimiento en la agenda científica nacional. El modelo desarrollado constituye una herramienta replicable que puede ser utilizada por instituciones académicas, entidades gubernamentales y organizaciones del sector privado para orientar estrategias de investigación, asignación de recursos y formulación de políticas públicas enfocadas en el cumplimiento de la Agenda 2030.This project focuses on analyzing scientific production in Colombia and its connection to the Sustainable Development Goals (SDGs) established by the United Nations. Despite the growth of scientific output in the country, there was no systematic characterization that demonstrated its thematic alignment with the SDGs, making it difficult to identify trends, gaps, and areas of opportunity in research. The general objective of the study was to develop an analytical model that, through natural language processing techniques and neural networks, could classify abstracts of scientific articles in the fields of engineering and medicine based on their relevance to the SDGs. To achieve this, data was collected from articles indexed in Scopus between 2018 and 2024, followed by the selection of a representative sample using stratified sampling. Subsequently, manual labeling of the abstracts was carried out based on their thematic content and potential contribution to sustainable development. This labeled sample was used to train supervised models, particularly using the BERT architecture, to optimize the automatic classification of new documents. Additionally, class balancing strategies were implemented through translation and paraphrasing techniques, due to the low representation of certain SDGs in the collected data. The project incorporated a cross-validation process to evaluate the performance of the trained models in classification tasks, using metrics such as accuracy, precision, recall, and F1-score. The results enabled the characterization of Colombian research output, differentiated by knowledge areas, and the identification of alignment patterns with the most representative SDGs. The study also revealed thematic gaps and areas for strengthening within the national scientific agenda. The developed model constitutes a replicable tool that can be used by academic institutions, government entities, and private sector organizations to guide research strategies, resource allocation, and public policy formulation focused on achieving the 2030 Agenda.84 p.application/pdfspaProcesamiento de lenguaje naturalRedes neuronalesObjetivos de desarrollo sostenibleInvestigación en ColombiaNatural language processingNeural networksSustainable development goalsResearch in ColombiaRedes neuronales y procesamiento de lenguaje para la evaluación de la investigación colombiana en el contexto de los ODSmaster thesishttps://creativecommons.org/licenses/by-nc-sa/4.0/http://purl.org/coar/access_right/c_abf2