Transformación digital en la gestión contractual: automatización inteligente de la  identificación de requisitos contractuales mediante ciencia de datos

Antolínez Becerra, Mónica Jazmín; Güiza Saavedra, Adriana Marcela

Transformación digital en la gestión contractual: automatización inteligente de la identificación de requisitos contractuales mediante ciencia de datos

dc.contributor.advisor	Álvarez Vargas, Gloria Inés
dc.contributor.advisor	Linares Ospina, Diego Luis
dc.contributor.author	Antolínez Becerra, Mónica Jazmín
dc.contributor.author	Güiza Saavedra, Adriana Marcela
dc.date.accessioned	2025-11-07T14:56:43Z
dc.date.available	2025-11-07T14:56:43Z
dc.date.issued	2025
dc.description.abstract	Las entidades que contratan con recursos públicos en Colombia deben velar por la transparencia en el proceso contractual, para ello se tiene un sistema electrónico donde reposa toda la información para dicho fin denominado SECOP. Esta gestión la ejecutan profesionales de gestión contractual asegurando que se cumplan los requisitos acordados en los documentos para el seguimiento periódico. La identificación de los requisitos es una tarea que actualmente se hace manualmente y al no ser una tarea exclusiva, se corre con el riesgo de pasar por alto requisitos que puedan poner en peligro a la empresa en términos económicos, legales entre otros. Este proyecto consiste en la identificación automatizada de requisitos contractuales, utilizando técnicas avanzadas de Procesamiento de Lenguaje Natural (PLN) y Aprendizaje Automático (AA). El sistema desarrollado toma como entrada documentos contractuales en formato PDF, extrae su contenido textual y lo somete a procesos de limpieza, normalización y vectorización. A partir de una muestra de minutas etiquetadas manualmente, se entrenaron modelos supervisados de clasificación binaria para cada requisito contractual, utilizando dos técnicas de representación de texto: TF-IDF y Word2Vec. Como algoritmo de clasificación se empleó Support Vector Classifier (SVC), optimizado mediante búsqueda en cuadrícula (GridSearchCV) para maximizar el desempeño de predicción. Posteriormente, se aplicaron los modelos entrenados para etiquetar automáticamente un corpus más amplio de minutas sin ninguna etiqueta. Con la base de datos consolidada, se realizó un entrenamiento final de los modelos para cada requisito, seleccionando la técnica de vectorización más adecuada según los resultados obtenidos en validaciones anteriores. Las métricas utilizadas para evaluar el desempeño fueron: Accuracy, Precision Macro, Recall Macro, F1-Score Macro, Precision Weighted, Recall Weighted, F1-Score Weighted, esta última priorizada, debido al desbalance de las clases. La herramienta cuenta con una interfaz de usuario intuitiva y funcional que permite a los profesionales de gestión contractual adjuntar documentos contractuales y recibir un listado de todos los requisitos contractuales identificados. Esta interfaz facilita la carga de documentos y la visualización del listado con los requisitos contractuales identificados.	spa
dc.description.abstract	Entities that contract with public resources in Colombia must ensure transparency in the contracting process. To this end, there is an electronic system where all relevant information is stored, known as SECOP. This process is carried out by contractual management professionals who ensure that the requirements agreed upon in the documents are met for periodic monitoring. Identifying these requirements is currently a manual task, and since it is not an exclusive responsibility, there is a risk of overlooking requirements that could jeopardize the company in economic, legal, or other terms. This project focuses on the automated identification of contractual requirements using advanced Natural Language Processing (NLP) and Machine Learning (ML) techniques. The developed system takes contractual documents in PDF format as input, extracts their textual content, and applies cleaning, normalization, and vectorization processes. Based on a sample of manually labeled templates, binary classification models were trained for each contractual requirement using two text representation techniques: TF-IDF and Word2Vec. The classification algorithm used was Support Vector Classifier (SVC), optimized through grid search (GridSearchCV) to maximize prediction performance. Subsequently, the trained models were applied to automatically label a broader corpus of unlabeled templates. With the consolidated database, a final training was performed for each requirement, selecting the most suitable vectorization technique based on previous validation results. The metrics used to evaluate performance included: Accuracy, Macro Precision, Macro Recall, Macro F1-Score, Weighted Precision, Weighted Recall, and Weighted F1-Score—the latter prioritized due to class imbalance. The tool features an intuitive and functional user interface that allows contractual management professionals to upload contractual documents and receive a list of all identified contractual requirements. This interface facilitates document upload and visualization of the identified requirements list.	eng
dc.description.degreelevel	Maestría
dc.description.degreename	Magíster en Ciencia de Datos
dc.format.extent	53 p.
dc.format.mimetype	application/pdf
dc.identifier.doi	https://doi.org/10.71618/8c94-yx02
dc.identifier.uri	http://hdl.handle.net/11522/5064
dc.language.iso	spa
dc.publisher	Pontificia Universidad Javeriana Cali
dc.publisher.department	Facultad de Ingeniería y Ciencias
dc.publisher.program	Maestría en Ciencia de Datos
dc.rights.accessrights	http://purl.org/coar/access_right/c_abf2
dc.rights.creativecommons	https://creativecommons.org/licenses/by-nc-sa/4.0/
dc.rights.uri	https://creativecommons.org/licenses/by-nc-sa/4.0/
dc.subject	Requisitos contractuales	spa
dc.subject	Aprendizaje automático	spa
dc.subject	Máquinas de vectores de soporte (SVM)	spa
dc.subject	Clasificación de textos	spa
dc.subject	Procesamiento de lenguaje natural (PLN)	spa
dc.subject	Contractual requirements	eng
dc.subject	Machine learning	eng
dc.subject	Support vector machines (SVM)	eng
dc.subject	Text classification	eng
dc.subject	Natural language processing (NLP)	eng
dc.title	Transformación digital en la gestión contractual: automatización inteligente de la identificación de requisitos contractuales mediante ciencia de datos	spa
dc.type	master thesis
dc.type.coar	http://purl.org/coar/resource_type/c_bdcc
dc.type.local	Tesis/Trabajo de grado - Monografía - Maestría
dc.type.redcol	https://purl.org/redcol/resource_type/TM

Files

Original bundle

Now showing 1 - 2 of 2

Name:: Proyecto de Grado Final - Mónica Jazmín Antolínez Becerra,Adriana Marcela Güiza Saavedra,.pdf
Size:: 819.03 KB
Format:: Adobe Portable Document Format

Download

Name:: Licencia de Uso - Mónica Jazmín Antolínez Becerra,Adriana Marcela Güiza Saavedra,.pdf
Size:: 310.43 KB
Format:: Adobe Portable Document Format

Download

License bundle

Now showing 1 - 1 of 1

Name:: license.txt
Size:: 1.71 KB
Format:: Item-specific license agreed to upon submission
Description:

Download

Collections

Maestría en Ciencia de Datos