Álvarez Vargas, Gloria InésLinares Ospina, Diego LuisAntolínez Becerra, Mónica JazmínGüiza Saavedra, Adriana Marcela2025-11-072025-11-072025http://hdl.handle.net/11522/5064Las entidades que contratan con recursos públicos en Colombia deben velar por la transparencia en el proceso contractual, para ello se tiene un sistema electrónico donde reposa toda la información para dicho fin denominado SECOP. Esta gestión la ejecutan profesionales de gestión contractual asegurando que se cumplan los requisitos acordados en los documentos para el seguimiento periódico. La identificación de los requisitos es una tarea que actualmente se hace manualmente y al no ser una tarea exclusiva, se corre con el riesgo de pasar por alto requisitos que puedan poner en peligro a la empresa en términos económicos, legales entre otros. Este proyecto consiste en la identificación automatizada de requisitos contractuales, utilizando técnicas avanzadas de Procesamiento de Lenguaje Natural (PLN) y Aprendizaje Automático (AA). El sistema desarrollado toma como entrada documentos contractuales en formato PDF, extrae su contenido textual y lo somete a procesos de limpieza, normalización y vectorización. A partir de una muestra de minutas etiquetadas manualmente, se entrenaron modelos supervisados de clasificación binaria para cada requisito contractual, utilizando dos técnicas de representación de texto: TF-IDF y Word2Vec. Como algoritmo de clasificación se empleó Support Vector Classifier (SVC), optimizado mediante búsqueda en cuadrícula (GridSearchCV) para maximizar el desempeño de predicción. Posteriormente, se aplicaron los modelos entrenados para etiquetar automáticamente un corpus más amplio de minutas sin ninguna etiqueta. Con la base de datos consolidada, se realizó un entrenamiento final de los modelos para cada requisito, seleccionando la técnica de vectorización más adecuada según los resultados obtenidos en validaciones anteriores. Las métricas utilizadas para evaluar el desempeño fueron: Accuracy, Precision Macro, Recall Macro, F1-Score Macro, Precision Weighted, Recall Weighted, F1-Score Weighted, esta última priorizada, debido al desbalance de las clases. La herramienta cuenta con una interfaz de usuario intuitiva y funcional que permite a los profesionales de gestión contractual adjuntar documentos contractuales y recibir un listado de todos los requisitos contractuales identificados. Esta interfaz facilita la carga de documentos y la visualización del listado con los requisitos contractuales identificados.Entities that contract with public resources in Colombia must ensure transparency in the contracting process. To this end, there is an electronic system where all relevant information is stored, known as SECOP. This process is carried out by contractual management professionals who ensure that the requirements agreed upon in the documents are met for periodic monitoring. Identifying these requirements is currently a manual task, and since it is not an exclusive responsibility, there is a risk of overlooking requirements that could jeopardize the company in economic, legal, or other terms. This project focuses on the automated identification of contractual requirements using advanced Natural Language Processing (NLP) and Machine Learning (ML) techniques. The developed system takes contractual documents in PDF format as input, extracts their textual content, and applies cleaning, normalization, and vectorization processes. Based on a sample of manually labeled templates, binary classification models were trained for each contractual requirement using two text representation techniques: TF-IDF and Word2Vec. The classification algorithm used was Support Vector Classifier (SVC), optimized through grid search (GridSearchCV) to maximize prediction performance. Subsequently, the trained models were applied to automatically label a broader corpus of unlabeled templates. With the consolidated database, a final training was performed for each requirement, selecting the most suitable vectorization technique based on previous validation results. The metrics used to evaluate performance included: Accuracy, Macro Precision, Macro Recall, Macro F1-Score, Weighted Precision, Weighted Recall, and Weighted F1-Score—the latter prioritized due to class imbalance. The tool features an intuitive and functional user interface that allows contractual management professionals to upload contractual documents and receive a list of all identified contractual requirements. This interface facilitates document upload and visualization of the identified requirements list.53 p.application/pdfspaRequisitos contractualesAprendizaje automáticoMáquinas de vectores de soporte (SVM)Clasificación de textosProcesamiento de lenguaje natural (PLN)Contractual requirementsMachine learningSupport vector machines (SVM)Text classificationNatural language processing (NLP)Transformación digital en la gestión contractual: automatización inteligente de la identificación de requisitos contractuales mediante ciencia de datosmaster thesishttps://creativecommons.org/licenses/by-nc-sa/4.0/http://purl.org/coar/access_right/c_abf2