Redes neuronales y procesamiento de lenguaje para la evaluación de la investigación colombiana en el contexto de los ODS

dc.contributor.advisorRamírez Ovalle, Carlos Ernesto
dc.contributor.advisorÁlvarez Bustos, Abel
dc.contributor.authorRiaño Díaz, John Agustín
dc.date.accessioned2025-11-06T19:28:18Z
dc.date.available2025-11-06T19:28:18Z
dc.date.issued2025
dc.description.abstractEste proyecto se centra en el análisis de la producción científica en Colombia y su vinculación con los Objetivos de Desarrollo Sostenible (ODS) establecidos por la Organización de las Naciones Unidas. A pesar del crecimiento de la producción científica en el país, no existía una caracterización sistemática que evidenciara su alineación temática con los ODS, lo que dificultaba la identificación de tendencias, brechas y áreas de oportunidad en investigación. La investigación planteó como objetivo general desarrollar un modelo de análisis que, mediante técnicas de procesamiento de lenguaje natural y redes neuronales, permitiera clasificar resúmenes de artículos científicos de las áreas de ingeniería y medicina en función de su relación con los ODS. Para ello, se realizó un proceso de recopilación de datos a partir de artículos indexados en Scopus, correspondientes al año 2018 a 2024, seguido de la selección de una muestra representativa mediante muestreo estratificado. Posteriormente, se efectuó un etiquetado manual de los resúmenes en función de su correspondencia con los ODS, con base al contenido temático y su potencial contribución al desarrollo sostenible. Esta muestra etiquetada fue empleada para entrenar modelos supervisados, particularmente utilizando la arquitectura BERT, con el fin de optimizar la clasificación automática de nuevos documentos. Adicionalmente, se implementaron estrategias de balanceo de clases mediante técnicas de traducción y parafraseo, dada la baja representación de algunos ODS en los datos recopilados. El proyecto incorporó un proceso de validación cruzada para evaluar el desempeño de los modelos entrenados en tareas de clasificación, utilizando métricas como exactitud, precisión, recall y F1-score. Los resultados obtenidos permitieron caracterizar la producción investigativa colombiana, diferenciada por áreas de conocimiento, y establecer patrones de alineación con los ODS más representativos. Asimismo, se identificaron vacíos temáticos y áreas de fortalecimiento en la agenda científica nacional. El modelo desarrollado constituye una herramienta replicable que puede ser utilizada por instituciones académicas, entidades gubernamentales y organizaciones del sector privado para orientar estrategias de investigación, asignación de recursos y formulación de políticas públicas enfocadas en el cumplimiento de la Agenda 2030.spa
dc.description.abstractThis project focuses on analyzing scientific production in Colombia and its connection to the Sustainable Development Goals (SDGs) established by the United Nations. Despite the growth of scientific output in the country, there was no systematic characterization that demonstrated its thematic alignment with the SDGs, making it difficult to identify trends, gaps, and areas of opportunity in research. The general objective of the study was to develop an analytical model that, through natural language processing techniques and neural networks, could classify abstracts of scientific articles in the fields of engineering and medicine based on their relevance to the SDGs. To achieve this, data was collected from articles indexed in Scopus between 2018 and 2024, followed by the selection of a representative sample using stratified sampling. Subsequently, manual labeling of the abstracts was carried out based on their thematic content and potential contribution to sustainable development. This labeled sample was used to train supervised models, particularly using the BERT architecture, to optimize the automatic classification of new documents. Additionally, class balancing strategies were implemented through translation and paraphrasing techniques, due to the low representation of certain SDGs in the collected data. The project incorporated a cross-validation process to evaluate the performance of the trained models in classification tasks, using metrics such as accuracy, precision, recall, and F1-score. The results enabled the characterization of Colombian research output, differentiated by knowledge areas, and the identification of alignment patterns with the most representative SDGs. The study also revealed thematic gaps and areas for strengthening within the national scientific agenda. The developed model constitutes a replicable tool that can be used by academic institutions, government entities, and private sector organizations to guide research strategies, resource allocation, and public policy formulation focused on achieving the 2030 Agenda.eng
dc.description.degreelevelMaestría
dc.description.degreenameMagíster en Ciencia de Datos
dc.format.extent84 p.
dc.format.mimetypeapplication/pdf
dc.identifier.urihttp://hdl.handle.net/11522/5055
dc.language.isospa
dc.publisherPontificia Universidad Javeriana Cali
dc.publisher.departmentFacultad de Ingeniería y Ciencias
dc.publisher.programMaestría en Ciencia de Datos
dc.rights.accessrightshttp://purl.org/coar/access_right/c_abf2
dc.rights.creativecommonshttps://creativecommons.org/licenses/by-nc-sa/4.0/
dc.rights.urihttps://creativecommons.org/licenses/by-nc-sa/4.0/
dc.subjectProcesamiento de lenguaje naturalspa
dc.subjectRedes neuronalesspa
dc.subjectObjetivos de desarrollo sosteniblespa
dc.subjectInvestigación en Colombiaspa
dc.subjectNatural language processingeng
dc.subjectNeural networkseng
dc.subjectSustainable development goalseng
dc.subjectResearch in Colombiaeng
dc.titleRedes neuronales y procesamiento de lenguaje para la evaluación de la investigación colombiana en el contexto de los ODSspa
dc.typemaster thesis
dc.type.coarhttp://purl.org/coar/resource_type/c_bdcc
dc.type.localTesis/Trabajo de grado - Monografía - Maestría
dc.type.redcolhttps://purl.org/redcol/resource_type/TM
Files
Original bundle
Now showing 1 - 2 of 2
Loading...
Thumbnail Image
Name:
Proyecto de Grado Final - John Agustin Riaño Diaz,,.pdf
Size:
1.83 MB
Format:
Adobe Portable Document Format
No Thumbnail Available
Name:
Licencia de Uso - John Agustin Riaño Diaz,,.pdf
Size:
326.78 KB
Format:
Adobe Portable Document Format
License bundle
Now showing 1 - 1 of 1
No Thumbnail Available
Name:
license.txt
Size:
1.71 KB
Format:
Item-specific license agreed to upon submission
Description: