Transformación digital en la gestión contractual: automatización inteligente de la identificación de requisitos contractuales mediante ciencia de datos

dc.contributor.advisorÁlvarez Vargas, Gloria Inés
dc.contributor.advisorLinares Ospina, Diego Luis
dc.contributor.authorAntolínez Becerra, Mónica Jazmín
dc.contributor.authorGüiza Saavedra, Adriana Marcela
dc.date.accessioned2025-11-07T14:56:43Z
dc.date.available2025-11-07T14:56:43Z
dc.date.issued2025
dc.description.abstractLas entidades que contratan con recursos públicos en Colombia deben velar por la transparencia en el proceso contractual, para ello se tiene un sistema electrónico donde reposa toda la información para dicho fin denominado SECOP. Esta gestión la ejecutan profesionales de gestión contractual asegurando que se cumplan los requisitos acordados en los documentos para el seguimiento periódico. La identificación de los requisitos es una tarea que actualmente se hace manualmente y al no ser una tarea exclusiva, se corre con el riesgo de pasar por alto requisitos que puedan poner en peligro a la empresa en términos económicos, legales entre otros. Este proyecto consiste en la identificación automatizada de requisitos contractuales, utilizando técnicas avanzadas de Procesamiento de Lenguaje Natural (PLN) y Aprendizaje Automático (AA). El sistema desarrollado toma como entrada documentos contractuales en formato PDF, extrae su contenido textual y lo somete a procesos de limpieza, normalización y vectorización. A partir de una muestra de minutas etiquetadas manualmente, se entrenaron modelos supervisados de clasificación binaria para cada requisito contractual, utilizando dos técnicas de representación de texto: TF-IDF y Word2Vec. Como algoritmo de clasificación se empleó Support Vector Classifier (SVC), optimizado mediante búsqueda en cuadrícula (GridSearchCV) para maximizar el desempeño de predicción. Posteriormente, se aplicaron los modelos entrenados para etiquetar automáticamente un corpus más amplio de minutas sin ninguna etiqueta. Con la base de datos consolidada, se realizó un entrenamiento final de los modelos para cada requisito, seleccionando la técnica de vectorización más adecuada según los resultados obtenidos en validaciones anteriores. Las métricas utilizadas para evaluar el desempeño fueron: Accuracy, Precision Macro, Recall Macro, F1-Score Macro, Precision Weighted, Recall Weighted, F1-Score Weighted, esta última priorizada, debido al desbalance de las clases. La herramienta cuenta con una interfaz de usuario intuitiva y funcional que permite a los profesionales de gestión contractual adjuntar documentos contractuales y recibir un listado de todos los requisitos contractuales identificados. Esta interfaz facilita la carga de documentos y la visualización del listado con los requisitos contractuales identificados.spa
dc.description.abstractEntities that contract with public resources in Colombia must ensure transparency in the contracting process. To this end, there is an electronic system where all relevant information is stored, known as SECOP. This process is carried out by contractual management professionals who ensure that the requirements agreed upon in the documents are met for periodic monitoring. Identifying these requirements is currently a manual task, and since it is not an exclusive responsibility, there is a risk of overlooking requirements that could jeopardize the company in economic, legal, or other terms. This project focuses on the automated identification of contractual requirements using advanced Natural Language Processing (NLP) and Machine Learning (ML) techniques. The developed system takes contractual documents in PDF format as input, extracts their textual content, and applies cleaning, normalization, and vectorization processes. Based on a sample of manually labeled templates, binary classification models were trained for each contractual requirement using two text representation techniques: TF-IDF and Word2Vec. The classification algorithm used was Support Vector Classifier (SVC), optimized through grid search (GridSearchCV) to maximize prediction performance. Subsequently, the trained models were applied to automatically label a broader corpus of unlabeled templates. With the consolidated database, a final training was performed for each requirement, selecting the most suitable vectorization technique based on previous validation results. The metrics used to evaluate performance included: Accuracy, Macro Precision, Macro Recall, Macro F1-Score, Weighted Precision, Weighted Recall, and Weighted F1-Score—the latter prioritized due to class imbalance. The tool features an intuitive and functional user interface that allows contractual management professionals to upload contractual documents and receive a list of all identified contractual requirements. This interface facilitates document upload and visualization of the identified requirements list.eng
dc.description.degreelevelMaestría
dc.description.degreenameMagíster en Ciencia de Datos
dc.format.extent53 p.
dc.format.mimetypeapplication/pdf
dc.identifier.urihttp://hdl.handle.net/11522/5064
dc.language.isospa
dc.publisherPontificia Universidad Javeriana Cali
dc.publisher.departmentFacultad de Ingeniería y Ciencias
dc.publisher.programMaestría en Ciencia de Datos
dc.rights.accessrightshttp://purl.org/coar/access_right/c_abf2
dc.rights.creativecommonshttps://creativecommons.org/licenses/by-nc-sa/4.0/
dc.rights.urihttps://creativecommons.org/licenses/by-nc-sa/4.0/
dc.subjectRequisitos contractualesspa
dc.subjectAprendizaje automáticospa
dc.subjectMáquinas de vectores de soporte (SVM)spa
dc.subjectClasificación de textosspa
dc.subjectProcesamiento de lenguaje natural (PLN)spa
dc.subjectContractual requirementseng
dc.subjectMachine learningeng
dc.subjectSupport vector machines (SVM)eng
dc.subjectText classificationeng
dc.subjectNatural language processing (NLP)eng
dc.titleTransformación digital en la gestión contractual: automatización inteligente de la identificación de requisitos contractuales mediante ciencia de datosspa
dc.typemaster thesis
dc.type.coarhttp://purl.org/coar/resource_type/c_bdcc
dc.type.localTesis/Trabajo de grado - Monografía - Maestría
dc.type.redcolhttps://purl.org/redcol/resource_type/TM
Files
Original bundle
Now showing 1 - 2 of 2
Loading...
Thumbnail Image
Name:
Proyecto de Grado Final - Mónica Jazmín Antolínez Becerra,Adriana Marcela Güiza Saavedra,.pdf
Size:
819.03 KB
Format:
Adobe Portable Document Format
No Thumbnail Available
Name:
Licencia de Uso - Mónica Jazmín Antolínez Becerra,Adriana Marcela Güiza Saavedra,.pdf
Size:
310.43 KB
Format:
Adobe Portable Document Format
License bundle
Now showing 1 - 1 of 1
No Thumbnail Available
Name:
license.txt
Size:
1.71 KB
Format:
Item-specific license agreed to upon submission
Description: