Transformación digital en la gestión contractual: automatización inteligente de la identificación de requisitos contractuales mediante ciencia de datos
| dc.contributor.advisor | Álvarez Vargas, Gloria Inés | |
| dc.contributor.advisor | Linares Ospina, Diego Luis | |
| dc.contributor.author | Antolínez Becerra, Mónica Jazmín | |
| dc.contributor.author | Güiza Saavedra, Adriana Marcela | |
| dc.date.accessioned | 2025-11-07T14:56:43Z | |
| dc.date.available | 2025-11-07T14:56:43Z | |
| dc.date.issued | 2025 | |
| dc.description.abstract | Las entidades que contratan con recursos públicos en Colombia deben velar por la transparencia en el proceso contractual, para ello se tiene un sistema electrónico donde reposa toda la información para dicho fin denominado SECOP. Esta gestión la ejecutan profesionales de gestión contractual asegurando que se cumplan los requisitos acordados en los documentos para el seguimiento periódico. La identificación de los requisitos es una tarea que actualmente se hace manualmente y al no ser una tarea exclusiva, se corre con el riesgo de pasar por alto requisitos que puedan poner en peligro a la empresa en términos económicos, legales entre otros. Este proyecto consiste en la identificación automatizada de requisitos contractuales, utilizando técnicas avanzadas de Procesamiento de Lenguaje Natural (PLN) y Aprendizaje Automático (AA). El sistema desarrollado toma como entrada documentos contractuales en formato PDF, extrae su contenido textual y lo somete a procesos de limpieza, normalización y vectorización. A partir de una muestra de minutas etiquetadas manualmente, se entrenaron modelos supervisados de clasificación binaria para cada requisito contractual, utilizando dos técnicas de representación de texto: TF-IDF y Word2Vec. Como algoritmo de clasificación se empleó Support Vector Classifier (SVC), optimizado mediante búsqueda en cuadrícula (GridSearchCV) para maximizar el desempeño de predicción. Posteriormente, se aplicaron los modelos entrenados para etiquetar automáticamente un corpus más amplio de minutas sin ninguna etiqueta. Con la base de datos consolidada, se realizó un entrenamiento final de los modelos para cada requisito, seleccionando la técnica de vectorización más adecuada según los resultados obtenidos en validaciones anteriores. Las métricas utilizadas para evaluar el desempeño fueron: Accuracy, Precision Macro, Recall Macro, F1-Score Macro, Precision Weighted, Recall Weighted, F1-Score Weighted, esta última priorizada, debido al desbalance de las clases. La herramienta cuenta con una interfaz de usuario intuitiva y funcional que permite a los profesionales de gestión contractual adjuntar documentos contractuales y recibir un listado de todos los requisitos contractuales identificados. Esta interfaz facilita la carga de documentos y la visualización del listado con los requisitos contractuales identificados. | spa |
| dc.description.abstract | Entities that contract with public resources in Colombia must ensure transparency in the contracting process. To this end, there is an electronic system where all relevant information is stored, known as SECOP. This process is carried out by contractual management professionals who ensure that the requirements agreed upon in the documents are met for periodic monitoring. Identifying these requirements is currently a manual task, and since it is not an exclusive responsibility, there is a risk of overlooking requirements that could jeopardize the company in economic, legal, or other terms. This project focuses on the automated identification of contractual requirements using advanced Natural Language Processing (NLP) and Machine Learning (ML) techniques. The developed system takes contractual documents in PDF format as input, extracts their textual content, and applies cleaning, normalization, and vectorization processes. Based on a sample of manually labeled templates, binary classification models were trained for each contractual requirement using two text representation techniques: TF-IDF and Word2Vec. The classification algorithm used was Support Vector Classifier (SVC), optimized through grid search (GridSearchCV) to maximize prediction performance. Subsequently, the trained models were applied to automatically label a broader corpus of unlabeled templates. With the consolidated database, a final training was performed for each requirement, selecting the most suitable vectorization technique based on previous validation results. The metrics used to evaluate performance included: Accuracy, Macro Precision, Macro Recall, Macro F1-Score, Weighted Precision, Weighted Recall, and Weighted F1-Score—the latter prioritized due to class imbalance. The tool features an intuitive and functional user interface that allows contractual management professionals to upload contractual documents and receive a list of all identified contractual requirements. This interface facilitates document upload and visualization of the identified requirements list. | eng |
| dc.description.degreelevel | Maestría | |
| dc.description.degreename | Magíster en Ciencia de Datos | |
| dc.format.extent | 53 p. | |
| dc.format.mimetype | application/pdf | |
| dc.identifier.uri | http://hdl.handle.net/11522/5064 | |
| dc.language.iso | spa | |
| dc.publisher | Pontificia Universidad Javeriana Cali | |
| dc.publisher.department | Facultad de Ingeniería y Ciencias | |
| dc.publisher.program | Maestría en Ciencia de Datos | |
| dc.rights.accessrights | http://purl.org/coar/access_right/c_abf2 | |
| dc.rights.creativecommons | https://creativecommons.org/licenses/by-nc-sa/4.0/ | |
| dc.rights.uri | https://creativecommons.org/licenses/by-nc-sa/4.0/ | |
| dc.subject | Requisitos contractuales | spa |
| dc.subject | Aprendizaje automático | spa |
| dc.subject | Máquinas de vectores de soporte (SVM) | spa |
| dc.subject | Clasificación de textos | spa |
| dc.subject | Procesamiento de lenguaje natural (PLN) | spa |
| dc.subject | Contractual requirements | eng |
| dc.subject | Machine learning | eng |
| dc.subject | Support vector machines (SVM) | eng |
| dc.subject | Text classification | eng |
| dc.subject | Natural language processing (NLP) | eng |
| dc.title | Transformación digital en la gestión contractual: automatización inteligente de la identificación de requisitos contractuales mediante ciencia de datos | spa |
| dc.type | master thesis | |
| dc.type.coar | http://purl.org/coar/resource_type/c_bdcc | |
| dc.type.local | Tesis/Trabajo de grado - Monografía - Maestría | |
| dc.type.redcol | https://purl.org/redcol/resource_type/TM |
Files
Original bundle
1 - 2 of 2
Loading...
- Name:
- Proyecto de Grado Final - Mónica Jazmín Antolínez Becerra,Adriana Marcela Güiza Saavedra,.pdf
- Size:
- 819.03 KB
- Format:
- Adobe Portable Document Format
No Thumbnail Available
- Name:
- Licencia de Uso - Mónica Jazmín Antolínez Becerra,Adriana Marcela Güiza Saavedra,.pdf
- Size:
- 310.43 KB
- Format:
- Adobe Portable Document Format
License bundle
1 - 1 of 1
No Thumbnail Available
- Name:
- license.txt
- Size:
- 1.71 KB
- Format:
- Item-specific license agreed to upon submission
- Description: