Maestría en Ciencia de Datos
Permanent URI for this collection
Browse
Browsing Maestría en Ciencia de Datos by Author "Álvarez Vargas, Gloria Inés"
Now showing 1 - 18 of 18
Results Per Page
Sort Options
Item Análisis de sentimiento de las llamadas del Call Center de la Universidad Javeriana de Cali mediante el uso de Ciencia de Datos(Pontificia Universidad Javeriana Cali, 2025) Semma Álvarez, Luis Miguel; Quiza Vargas, Iván Felipe; Agreda Villota, Nelson Andrés; Álvarez Vargas, Gloria Inés; Linares Ospina, Diego LuisEl presente proyecto se enfocó en el análisis de sentimiento de las llamadas del Call Center de la Universidad Javeriana de Cali mediante técnicas de ciencia de datos. Su finalidad fue desarrollar una herramienta que permita analizar el sentimiento expresado en cada llamada y clasificar las interacciones según su contenido emocional, contribuyendo a mejorar la calidad del servicio y apoyar la toma de decisiones informadas. Para ello, se emplearon técnicas como GCP Speech-to-Text para la transcripción de audios, modelos de clasificación supervisada como SVM y RNN y clasificación no supervisada con NMF. Los resultados muestran un buen desempeño, destacando la utilidad del modelo SVM-TFIDF con métricas de F1 y AUC positivas. Está solución representa un avance significativo en la gestión de la información y atención al cliente en el entorno educativo.Item Aplicación de técnicas de inteligencia artificial para el análisis de los comentarios del cliente del segmento personas en Bancalibre(Pontificia Universidad Javeriana Cali, 2025) Arias Vergara, Juliana Andrea; Salcedo Vaca, Carlos Andrés; Linares Ospina, Diego Luis; Álvarez Vargas, Gloria InésActualmente, se capturan y almacenan grandes cantidades de datos en formato texto, lo cual representa un reto significativo para su procesamiento. El análisis manual de estos datos consume demasiado tiempo y es poco práctico, por lo que es necesario desarrollar estrategias para mejorar estos procesos y obtener los resultados con mayor rapidez. En este trabajo se implementan técnicas avanzadas de ciencia de datos para analizar los comentarios escritos de los clientes del segmento de Personas de BancaLibre. La importancia de este estudio radica en la creciente necesidad de las entidades financieras de escuchar y analizar las opiniones de sus clientes para mejorar su experiencia, fidelización y satisfacción. Se aplican técnicas como el análisis de sentimientos, enfocado en el NPS Relacional para conocer la satisfacción del cliente con la empresa en general, y la inteligencia artificial (IA), para identificar en detalle los temas de mejora más recurrentes. El proceso comienza con la preparación del conjunto de datos, la selección e implementación de la técnica de IA adecuada, la evaluación del desempeño del modelo y finaliza con el desarrollo de una interfaz para la visualización de resultados. Se espera obtener un modelo que permita analizar de manera eficiente los comentarios de los clientes, identificar temas recurrentes y proporcionar una herramienta útil para apoyar la toma de decisiones orientadas a mejorar la experiencia del cliente. Las posibles aplicaciones de este trabajo incluyen áreas de la organización como Mercadeo, Estrategia comercial y Servicio al Cliente, que ven en esta información un beneficio para aplicar en sus procesos y su alcance en la escalabilidad con otros tipos de retroalimentación de clientes, ampliando así su impacto y utilidad.Item Automatización de la detección y diagnóstico de leishmaniasis por medio de la identifi cación de parásitos en imágenes de placas de laboratorio(Pontificia Universidad Javeriana Cali, 2023) Cardozo Aricapa, Daniel Fernando; Álvarez Vargas, Gloria InésLa leishmaniasis es una enfermedad causada por más de 20 especies del género Leishmania un protozoo parasito. Esta enfermedad se transmite por la picadura de flebótomos hembra infectados, que necesitan ingerir sangre para producir huevos. A nivel mundial, se encuentra entre las diez enfermedades tropicales desatendidas con más de 12 millones de personas infectadas con 0,9 a 1,6 millones de nuevos casos al año y entre 20.000 a 30.000 defunciones. En la actualidad, las estrategias de prevención y control disponibles para el manejo de la leishmaniasis son limitadas, por lo cual se requiere de herramientas efectivas para el diagnóstico temprano y tratamiento adecuado. Es por esto por lo que nuestro objetivo es desarrollar un modelo automatizado capaz de realizar la identificación del parasito y diagnóstico de Leishmaniasis usando imágenes de placas de laboratorio en pacientes con sospecha clínica de la enfermedad. Para estos proponemos utilizar diferentes algoritmos de clasificación que nos permitan realizar la detección de parásitos de Leishmania por medio de la extracción de características, creación de imágenes integrales y clasificación. Como resultados esperados se espera contar con un modelo diagnostico adecuado basado en placas de laboratorio que permita realizar el diagnostico de forma oportuna y accesible capaz de funcionar de forma eficiente en cualquier área que lo requiera. Finalmente, esta tecnología será una herramienta fundamental para la salud publica en áreas endémicas en pro de disminuir la morbimortalidad de la enfermedad.Item Clasificación de emociones complejas en audio de conversaciones de Call Center de la Universidad Javeriana Cali mediante modelos semi supervisados de Machine Learning(Pontificia Universidad Javariana Cali, 2024) Ospina Cuesta, Julián Andrés; Álvarez Vargas, Gloria Inés; Linares Ospina, Diego LuisEste proyecto tuvo como objetivo identificar las expresiones emocionales complejas predominantes en llamadas del centro de contacto, para ofrecer una herramienta de medición en la satisfacción de clientes o evaluación de desempeño en la relación empleado-cliente. La problemática abordada se centró en ¿Cómo podría desarrollarse un modelo basado en técnicas de machine learning para la clasificación automática de emociones complejas en grabaciones de llamadas de un centro de contacto universitario, con el propósito de evaluar la satisfacción del cliente? El objetivo principal del proyecto fue desarrollar un modelo semi supervisado de machine learning para la clasificación automática de emociones en grabaciones de llamadas del call center de la Universidad Javeriana Cali, utilizando características acústicas. El alcance se limitó al análisis y clasificación de las emociones complejas predominantes identificadas en estas grabaciones, basándose en definiciones de emociones ajustadas a los objetivos del negocio. Los resultados de este proyecto incluyen: un conjunto de audios procesados y etiquetados de forma semi supervisada en las 'No llamadas', mientras que las 'Llamadas' fueron de manera supervisada; un modelo de clasificación automática de emociones que fue entrenado y validado, logrando una precisión del 95% en 'No llamadas' y del 41% en 'Llamadas'; y, por último, un prototipo de software diseñado como interfaz para cargar audios y clasificar las emociones según los modelos generados.Item Clasificación de emociones en audios de call center utilizando ciencia de datos(Pontificia Universidad Javeriana Cali, 2025) Marulanda Almanza, Johan Sebastian; Álvarez Vargas, Gloria Inés; Linares Ospina, Diego LuisEste proyecto se desarrolló con el objetivo de clasificar emociones en llamadas de call center utilizando transcripciones de audio y técnicas de machine learning, tomando como caso de estudio el centro de contacto de una Universidad de Cali. La investigación se enmarca dentro de una iniciativa más amplia en la que se exploraron un enfoque de análisis de transcripciones textuales, el presente trabajo se centró exclusivamente en la información textual derivada de los audios, evaluando la efectividad de diferentes modelos de clasificación. El principal desafío fue desarrollar un clasificador capaz de identificar emociones de manera automatizada y eficiente a partir de datos textuales. Para ello, se realizó una limpieza y normalización de datos, seguida de un entrenamiento supervisado con modelos como Logistic Regression, Random Forest y Multi-Layer Perceptron (MLP). Se aplicó un ajuste de hiperparámetros utilizando Grid Search, optimizando el rendimiento de los modelos.Item Clasificación de pacientes con Leishmaniasis basado en mutaciones genéticas por polimorfismo de nucleótido único (SNP) usando técnicas de Machine Learning(Pontificia Universidad Javeriana de Cali, 2023) Gómez Vasco, Carlos Andrés; Álvarez Vargas, Gloria Inés; Linares Ospina, Diego LuisLa leishmaniasis es una enfermedad tropical transmitida mediante la picadura de insectos que son los vectores de la enfermedad. Se considera una endemia en más de 88 países de diferentes geografías. Las tasas reales de incidencia son sustancialmente altas y con una alta prevalencia en países de América Latina. Aunque existen diferentes tratamientos terapéuticos, son muy complicados para los pacientes y suelen ser bastante tóxicos para otros órganos del cuerpo, y, en general, tienen altos índices porcentuales de fallo, es decir, cumplido el tratamiento los pacientes no se recuperan. Actualmente no existe una herramienta clínica que le permita a un médico tratante determinar la probabilidad a priori de que un tratamiento sea efectivo. Por el contrario, de manera indiscriminada se aplica a los pacientes las terapias bajo la premisa del ensayo y error. En este proyecto aplicado, se realiza un estudio basado en mutaciones genéticas producidas por polimorfismo de nucleótido único (SNP) a un conjunto de setenta y dos (72) pacientes tratados con las técnicas terapéuticas existentes. A estos pacientes se les realizó una secuenciación genética consiguiendo 618,872 SNPs para cada uno y la información clínica del grupo étnico, así como la respuesta al tratamiento después de aplicado, etiquetado como cura o falla. Esta información es suficiente para generar un dataset que fue analizado mediante GWAS (Estudio de asociación de genoma completo) consiguiendo tres datasets denominados COMPLETO, AFRODESCENDIENTES y NO-AFRODESCENDIENTES con 41, 14 y 36 SNPs correspondientemente. Mediante técnicas de reducción de dimensionalidad, como el análisis de componentes principales (PCA), eliminación recursiva de características y regresión LASSO, se reduce el número de variables a aquellas mutaciones genéticas más relevantes para la respuesta inmune al tratamiento consiguiendo 69 subconjuntos de características. Mediante técnicas de aprendizaje automático se construyen 483 clasificadores basados en algoritmos de Regresión Lineal (RL), Stochastic Gradient Descent (SGD), Support Vector Machine (SVM), Decision Tree (DT), Random Forest (RF), Boosting (BT) y Gradient Boosting (GB) de los 69 subconjuntos, para clasificar con precisión las mutaciones genéticas relacionadas con la respuesta inmune al tratamiento terapéutico contra la leishmaniasis. Se utilizaron métricas de evaluación, como accuracy, precision, recall y F1 score para medir el rendimiento de los clasificadores. Estas métricas proporcionaron una visión detallada de la capacidad de los modelos para identificar correctamente las mutaciones relevantes. Después de la evaluación inicial de los 683 experimentos, se realizó la optimización de los hiperparámetros de los modelos mediante una búsqueda por cuadrícula explorando diferentes combinaciones y configuraciones, lo que permitió refinar los modelos y nuevamente estimar su desempeño permitiendo evaluar y comparar los resultados antes y después de la optimización, confirmando la mejora significativa en la capacidad de los clasificadores para identificar con precisión las mutaciones genéticas relacionadas con la respuesta inmune al tratamiento terapéutico contra la leishmaniasis. Al final, se consiguió una selección de 22 SNPs ubicados en genes con funciones biológicas altamente relacionadas con movimiento, transcripción, estructura y transporte celular, así como el transporte de metales, respuesta inmune y cicatrización. Evidenciando que las técnicas aplicadas son eficientes en la identificación de biomarcadores asociados con la respuesta al tratamiento contra la leishmaniasis.Item ClientMinds – Optimización de la experiencia del cliente utilizando modelos de procesamiento de lenguaje natural (PLN)(Pontificia Universidad Javeriana Cali, 2025) Potes Blandón, Jonathan; García Quiroz, Obed; Linares Ospina, Diego Luis; Álvarez Vargas, Gloria InésEn el contexto empresarial actual, la gestión de las relaciones con los clientes (CRM, por sus siglas en inglés) es crucial para el éxito organizacional. Muchas empresas enfrentan dificultades para comprender y mejorar la satisfacción del cliente, pese a disponer de abundantes datos en sus sistemas de CRM, lo que limita la optimización de estas relaciones. Dada la problemática anterior y la oportunidad que tienen las organizaciones con los datos almacenados, este proyecto tuvo como objetivo desarrollar un sistema de Procesamiento del Lenguaje Natural (PNL) basado en un modelo de lenguaje a gran escala (LLM) para mejorar la comprensión y satisfacción del cliente. Este modelo no solo permite interpretar y responder a las solicitudes de los clientes de manera personalizada, sino que también analiza los sentimientos expresados en las interacciones y responden en consecuencia. Las estrategias implementadas incluyen la limpieza y exploración de datos textuales, el ajuste fino de los LLM preentrenados y la creación de un chatbot que integra estas capacidades. Este chatbot no solo interactúa eficazmente con los clientes, sino que también deja registro de dichas interacciones con el propósito de generar insights valiosos, los cuales permiten hacer seguimiento a la satisfacción del cliente y tomar decisiones estratégicas basadas en su comportamiento. En conclusión, este sistema basado en PLN se perfila como una herramienta innovadora para mejorar la experiencia del cliente y fortalecer las relaciones cliente-empresa, lo anterior, gracias a la capacidad de LLM para identificar emociones, ofrecer respuestas precisas y generar información valiosa, facilitando asi la implementación de acciones efectivas orientadas a la mejora continua de la relación con los clientes. Esto no solo eleva la calidad del servicio, sino que también impulsa la fidelización y posiciona a las organizaciones como referentes en el uso de inteligencia artificial para la gestión de sus relaciones con los clientes.Item Cuantificación del parásito Leishmania en imágenes de microscopio mediante técnicas de aprendizaje automático(Pontificia Universidad Javeriana Cali, 2022) Díaz Cuesta, Yeffer Edilberto; Pinedo De la Hoz, David Enrique; Álvarez Vargas, Gloria InésLa Leishmaniasis, causada por el parásito protozoo Leishmania spp., es una de las siete enfermedades tropicales más importantes a nivel mundial, según la Organización Mundial de la Salud (OMS) [1]. Esta enfermedad, que puede ser fatal para los humanos, tiene una alta prevalencia en varios países, afectando especialmente a las poblaciones vulnerables. En la actualidad, los procesos de conteo manual del microorganismo son desgastantes, demorados y, en ocasiones, ineficaces debido al porcentaje de error humano. Además, estos procesos pueden afectar la salud de las personas que los realizan, debido a las largas horas que deben pasar frente a la luz directa del microscopio. En este orden de ideas, se desarrolla el presente trabajo de grado, adscrito al grupo de investigación DESTINO y al proyecto con código 2576 de la Universidad Pontificia Javeriana de Cali, titulado: "Aplicación de técnicas de aprendizaje automático a la predicción del desenlace terapéutico de la leishmaniasis cutánea". El objetivo principal de este trabajo fue crear un modelo de aprendizaje automático, basado en técnicas de ciencia de datos, que permite identificar y cuantificar la presencia de Leishmania spp. en imágenes de microscopio. Para lograr este objetivo, se consolidó una base de datos con imágenes que sirvieron para entrenar el modelo en la caracterización del parásito. Se procesaron los datos de las imágenes para obtener información relevante y se aplicaron distintas técnicas de aprendizaje automático para cuantificar la carga parasitaria. Finalmente, se evaluó y seleccionó el modelo que presentó el mejor rendimiento con relación al alcance inicialmente propuesto. Se espera que este proyecto impulse la aplicación de la herramienta en diferentes espacios del sector de la salud y áreas académicas, en particular, en laboratorios donde se quiera incrementar la eficiencia y rapidez en los diagnósticos de presencia del parásito protozoo Leishmania. De este modo, se buscó automatizar el proceso de conteo del parásito, utilizando únicamente como insumo la imagen capturada por un microscopio al observar los microorganismos presentes en los portaobjetos.Item Desarrollo de modelo para identificación de características positivas/negativas de producto en comentarios en plataforma e-commerce usando aprendizaje automático(Pontificia Universidad Javeriana Cali, 2025) Villa Ramos, Jhilbran; Ibarra Enríquez, Santiago; Álvarez Vargas, Gloria Inés; Linares Ospina, Diego LuisEste proyecto busca desarrollar una herramienta de análisis de sentimientos automatizada para evaluar comentarios en plataformas de comercio electrónico mediante técnicas de Machine Learning. El objetivo principal es identificar características positivas y negativas en las reseñas de los usuarios, permitiendo a las empresas mejorar su reputación, abordar rápidamente comentarios negativos, optimizar productos y servicios, y diseñar estrategias de marketing más efectivas. La metodología del proyecto se divide en dos etapas principales: preparación de datos e implementación del modelo. En la primera etapa, se realiza la adquisición de datos a partir de comentarios de usuarios, seguida de un proceso de limpieza y transformación del texto para eliminar ruido y normalizar los datos. Posteriormente, se aplican técnicas de incrustación de palabras como Word2Vec y GloVe, junto con métodos léxicos tradicionales (Bag-of-Words, TFIDF, One-Hot Encoding) para convertir el texto en representaciones vectoriales adecuadas para el análisis. En la fase de implementación, se entrenan y comparan distintos modelos de clasificación, utilizando los embeddings generados. Adicionalmente, se aplica modelado de temas (LDA) para identificar patrones en los comentarios. Finalmente, se generan visualizaciones interactivas que permiten una comprensión clara de los resultados.Item Desarrollo de un sistema de recomendaciones personalizadas en la plataforma LMS KME360(Pontificia Universidad Javeriana Cali, 2025) Samacá Romero, Carolina; Peña Fajardo, Enrique José; Álvarez Vargas, Gloria Inés; Linares Ospina, Diego LuisEste proyecto propone el desarrollo de un sistema de recomendación de contenidos y cursos personalizado para la plataforma LMS kme360. El sistema se diseñará de manera modular y escalable, con la capacidad de adaptarse a las necesidades de cada cliente futuro y a la configuración específica de sus instancias. La implementación de este sistema permitirá que la plataforma pueda ofrecer una experiencia de aprendizaje más personalizada y efectiva a sus usuarios, lo que se traducirá en una mayor satisfacción del cliente, un mejor aprovechamiento de los recursos disponibles y un potencial aumento en la tasa de finalización de los cursos. El proyecto se desarrollará siguiendo la metodología CRISP-DM, que establece seis etapas: comprensión del negocio, comprensión de los datos, preparación de los datos, modelado, evaluación y despliegue. Como resultado principal del proyecto, se obtendrá un modelo de recomendación que responderá a las características puntuales del cliente seleccionado. Se espera que este resultado impacte positivamente en la experiencia de aprendizaje de los usuarios de kme360, aumentando su satisfacción y compromiso con la plataforma.Item “Diseminación selectiva de la información usando ciencia de datos: recomendación de libros y lecturas en las bibliotecas Comfama”(Pontificia Universidad Javariana Cali, 2024) Bedoya Henao, Edwin José; Álvarez Vargas, Gloria Inés; Linares Ospina, Diego LuisEste proyecto se enfoca en el desarrollo de un sistema de recomendación de libros para las Bibliotecas Comfama, con el objetivo de mejorar la experiencia de los usuarios al proporcionar sugerencias personalizadas basadas en sus preferencias de lectura y comportamiento histórico. La relevancia del proyecto radica en abordar el problema de la infoxicación, o sobrecarga de información, en un entorno donde la vasta cantidad de materiales disponibles dificulta la selección de lecturas adecuadas para cada usuario. El sistema de recomendación se construyó utilizando técnicas avanzadas de ciencia de datos, como modelos de agrupación (K-Means) y representaciones vectoriales de libros mediante Word2Vec, lo que permite identificar patrones de lectura y preferencias individuales. A partir de esta estructura, se generaron recomendaciones altamente precisas y personalizadas que optimizan el servicio de préstamo de las Bibliotecas Comfama, aumentando así la satisfacción de los usuarios. El sistema se fundamenta en una estructura de datos que integra tanto características demográficas como el historial de préstamos y consultas de cada usuario, lo que facilita la identificación de perfiles de lectores y la agrupación de usuarios con intereses similares. Como resultado, el proyecto ofrece un sistema innovador que promueve el uso más frecuente y eficiente de los servicios bibliotecarios, fortaleciendo el papel de las bibliotecas en la promoción de la cultura y el conocimiento. Este enfoque tiene aplicaciones potenciales más allá del ámbito bibliotecario, con posibilidades de implementación en sectores como el comercio electrónico o la selección de contenido digital, aprovechando las capacidades de la ciencia de datos para anticipar y satisfacer las preferencias individuales de los usuarios.Item Generación de noticias a partir de conjuntos de datos económicos utilizando técnicas de inteligencia artificial y aprendizaje automático(Pontificia Universidad Javeriana Cali, 2025) López Gómez, David Leonardo; Bejarano Bejarano, Luis Vidal; Linares Ospina, Diego Luis; Álvarez Vargas, Gloria InésEn el contexto actual de rápida generación de datos económicos, surge el desafío de transformar conjuntos de datos complejos en información accesible y comprensible. Esta investigación aborda esta problemática mediante el uso de técnicas de inteligencia artificial (IA) y aprendizaje automático (AA) para la generación automatizada de noticias basadas en procesamiento de lenguaje natural (PLN). Aquí, el problema radica en la ineficiencia de los métodos tradicionales de análisis de datos frente al volumen y la complejidad de la información económica contemporánea. Además, los medios de comunicación enfrentan una creciente demanda de entrega rápida y precisa de contenidos, lo que presenta desafíos significativos en términos de costos y operatividad. Para abordar estos retos, se desarrolló un sistema basado en los modelos T5 y GPT-2, ambos con arquitecturas de tipo transformer. Los datos económicos fueron preprocesados, limpiados y estructurados para entrenar los modelos. Se realizaron ajustes utilizando hiperparámetros optimizados y métricas de evaluación como BLEU, BERTScore y perplejidad, con el objetivo de medir la calidad de los textos generados. Los resultados mostraron que el modelo T5 superó al GPT-2 en precisión, coherencia y fluidez del texto generado, logrando un BLEU de 0.14, un BERTScore promedio (F1) de 0.83 y una perplejidad de 1.11 tras la optimización. En comparación, el GPT-2 alcanzó un BLEU de 0.15, un BERTScore promedio (F1) de 0.70 y una perplejidad de 12.75. Estas métricas indican que el T5 es más adecuado para generar textos complejos y altamente estructurados, mientras que el GPT-2 destaca en tareas donde se requiere mayor creatividad y generación de contenido más diversificado. El resultado de esta investigación, aporta un avance en la transformación de datos económicos en contenido informativo, reduciendo costos y tiempos asociados a los procesos tradicionales. La solución propuesta se presenta como una herramienta prometedora para democratizar el acceso a información económica y apoyar la toma de decisiones en entornos dinámicos.Item Modelado para la recomendación personalizada de noticias basado en técnicas de aprendizaje automático(Pontificia Universidad Javariana Cali, 2024) Buesaco Vela, José Miguel; Lozano Hernández, Nydia Natalia; Bolaños Vidal, Jamith; Álvarez Vargas, Gloria Inés; Linares Ospina, Diego LuisLa digitalización ha generado que los usuarios se encuentren ante una sobreexposición de información, lo cual hace que tanto los usuarios como los medios de comunicación tradicionales y digitales se vean afectados. Para abarcar esta problemática, la ciencia de datos propone modelos de recomendación de noticias, los cuales tienen como objetivo analizar los gustos de los usuarios y, en función de estos generar filtros para proporcionarle al usuario una experiencia que ofrezca noticias de su interés. Con este proyecto buscamos desarrollar un modelo basado técnicas de aprendizaje automático para la recomendación personalizada de noticias. Para lograr el objetivo de este proyecto se realizan distintas fases como la preparación de los datos, modelado, entrenamiento, validación y finalmente se desarrolla un prototipo para la recomendación personalizada de noticias. Se aplican dos enfoques para las recomendaciones: el filtrado basado en contenido y el filtrado colaborativo, por la estructura de los datos utilizados, este último enfoque genera mejores recomendaciones. Los resultados muestran que el modelo denominado Descomposición en Valores Singulares (SVD) presenta el mejor desempeño en las predicciones determinado por la raíz del error cuadrático medio (RMSE) de 0,2461 y un F1-Score de 0,8118 en las listas personalizadas de recomendación de noticias.Item Modelo de aprendizaje automático aplicado a la asignación de recursos institucionales para el control y la seguridad de la infraestructura móvil, física y tecnológica del SITM MIO(Pontificia Universidad Javeriana Cali, 2024) Buendía Diago, Albeiro; Mejía Ríos, Karol Stefani; Morán Villarreal, Oscar; Álvarez Vargas, Gloria Inés; Arteaga Botero, Gustavo AdolfoEste proyecto se enfocó en abordar las deficiencias de seguridad en el sistema de transporte masivo SITM MIO de Santiago de Cali, que experimenta incidentes crecientes de inseguridad. La gestión reactiva y la falta de control han afectado la confianza de los aproximadamente 280 mil usuarios diarios. Se identificó la necesidad de utilizar herramientas tecnológicas avanzadas para mejorar la asignación de recursos de seguridad de manera proactiva. Se desarrolló e implementó un sistema basado en técnicas estadísticas y computacionales, utilizando modelos de aprendizaje automático como Random Forest Regression, Support Vector Regression y Multilayer Perceptron Regression. La herramienta analítica predictiva resultante integra datos históricos y modelos de aprendizaje autónomo, destacando la eficacia del modelo de Random Forest Regression. Este avance marca un hito en la gestión de recursos de seguridad del transporte masivo, demostrando el impacto positivo de la ciencia de datos en la mejora de servicios públicos esenciales y la seguridad ciudadana.Item Modelo para la orientación sobre trámites al ciudadano en el Distrito de Santiago de Cali(Pontificia Universidad Javeriana Cali, 2025) Sánchez Soto, Giovanni; Linares Ospina, Diego Luis; Álvarez Vargas, Gloria InésEste proyecto aplicado aborda la problemática de la atención a consultas de orientación sobre trámites al ciudadano en el Distrito de Santiago de Cali, explorando soluciones a partir del ajuste fino de Modelos de Lenguaje Grande (LLMs) para automatizar la generación de respuestas, se entrenaron modelos cuantizados Llama 3.2 3B Instruct y Phi 3.5 Mini Instruct con conjuntos de datos extraídos de plataformas oficiales del Distrito, tambien se implementó un sistema de Generación Aumentada por Recuperación (RAG), utilizando el modelo Llama 3.2 para la generación de respuestas. Los resultados de la evaluación demostraron que, si bien los modelos ajustados mostraron un buen desempeño semántico, presentaron problemas de factualidad mientras el enfoque basado en RAG obtuvo los mejores resultados en ambos casos.Item Modelo predictivo para determinar el desenlace terapéutico del paciente con leishmaniasis a partir de imágenes de lesiones(Pontificia Universidad Javeriana Cali, 2024) Segura Dorado, Jhon Alexander; Álvarez Vargas, Gloria Inés; Gómez, María AdelaidaEl aprendizaje automático ha aportado avances al campo de la medicina, sin embargo, en muchos casos es difícil implementar esta tecnología debido a la baja cantidad de datos que pueden estar disponibles en los estudios médicos en relación con el número de características que se planean analizar. Este estudio exploro ocho modelos de aprendizaje automático para predecir el desenlace terapéutico de los pacientes con leishmaniasis cutánea a partir de las imágenes de las lesiones. Este nuevo enfoque permitirá proponer nuevos mecanismos en el manejo de esta enfermedad a partir de una herramienta para predecir el desenlace terapéutico en tiempo real, además de efectuar recomendaciones en el tratamiento de los pacientes. Finalmente, la contribución de este proyecto servirá de base para las futuras investigaciones que el Centro Internacional de Entrenamiento e Investigaciones Médicas pueda llevar a cabo para encontrar un tratamiento eficaz contra la leishmaniasis.Item Prototipo de herramienta para la mejora en los procesos de designación de PQRSD de la Alcaldía de Bucaramanga(Pontificia Universidad Javeriana Cali, 2023) Gómez Bueno, Wilfredo Ariel; Gómez Cárdenas, Edson Andrés; Linares Ospina, Diego Luis ; Álvarez Vargas, Gloria InésEste proyecto de grado surgió de la identificación de un problema clave en la gestión de las Peticiones, Quejas, Reclamos, Sugerencias y Denuncias (PQRSD) en la Alcaldía de Bucaramanga: cuando una PQRSD se asigna incorrectamente, se producen reprocesos que disminuyen el tiempo para su respuesta y generan incumplimientos. En el peor de los casos, una PQRSD puede incluso perderse administrativamente debido a la rotación del personal. Frente a este escenario, el objetivo principal de nuestro proyecto fue desarrollar una solución que pudiera impactar positivamente la asignación de las PQRSD en la Alcaldía. Para ello, utilizamos diversas técnicas de clasificación para analizar una base de datos de PQRSD compuesta por más de 590.592 registros con baja calidad de datos. El proyecto incluyó varias etapas, desde la extracción, exploración y limpieza de datos, hasta la creación y prueba de una arquitectura de clasificación mixta o híbrida basado en técnicas tradicionales. El modelo propuesto considera el desequilibrio presente en los registros entre las distintas dependencias de la Alcaldía y utiliza herramientas como GridSearchCV para seleccionar y optimizar los hiperparámetros de los clasificadores utilizados como Regresión Logística y ComplementNB en los cuatro (4) componentes de la arquitectura. Los resultados obtenidos, brinda un resultado de 65.1%, lo que sugiere que este enfoque puede ser eficaz para mejorar la gestión de las PQRSD en la Alcaldía de Bucaramanga, minimizando reprocesos, evitando incumplimientos y asegurando una gestión eficaz de las mismas, incluso en el contexto de la rotación del personal.Item Transformación digital en la gestión contractual: automatización inteligente de la identificación de requisitos contractuales mediante ciencia de datos(Pontificia Universidad Javeriana Cali, 2025) Antolínez Becerra, Mónica Jazmín; Güiza Saavedra, Adriana Marcela; Álvarez Vargas, Gloria Inés; Linares Ospina, Diego LuisLas entidades que contratan con recursos públicos en Colombia deben velar por la transparencia en el proceso contractual, para ello se tiene un sistema electrónico donde reposa toda la información para dicho fin denominado SECOP. Esta gestión la ejecutan profesionales de gestión contractual asegurando que se cumplan los requisitos acordados en los documentos para el seguimiento periódico. La identificación de los requisitos es una tarea que actualmente se hace manualmente y al no ser una tarea exclusiva, se corre con el riesgo de pasar por alto requisitos que puedan poner en peligro a la empresa en términos económicos, legales entre otros. Este proyecto consiste en la identificación automatizada de requisitos contractuales, utilizando técnicas avanzadas de Procesamiento de Lenguaje Natural (PLN) y Aprendizaje Automático (AA). El sistema desarrollado toma como entrada documentos contractuales en formato PDF, extrae su contenido textual y lo somete a procesos de limpieza, normalización y vectorización. A partir de una muestra de minutas etiquetadas manualmente, se entrenaron modelos supervisados de clasificación binaria para cada requisito contractual, utilizando dos técnicas de representación de texto: TF-IDF y Word2Vec. Como algoritmo de clasificación se empleó Support Vector Classifier (SVC), optimizado mediante búsqueda en cuadrícula (GridSearchCV) para maximizar el desempeño de predicción. Posteriormente, se aplicaron los modelos entrenados para etiquetar automáticamente un corpus más amplio de minutas sin ninguna etiqueta. Con la base de datos consolidada, se realizó un entrenamiento final de los modelos para cada requisito, seleccionando la técnica de vectorización más adecuada según los resultados obtenidos en validaciones anteriores. Las métricas utilizadas para evaluar el desempeño fueron: Accuracy, Precision Macro, Recall Macro, F1-Score Macro, Precision Weighted, Recall Weighted, F1-Score Weighted, esta última priorizada, debido al desbalance de las clases. La herramienta cuenta con una interfaz de usuario intuitiva y funcional que permite a los profesionales de gestión contractual adjuntar documentos contractuales y recibir un listado de todos los requisitos contractuales identificados. Esta interfaz facilita la carga de documentos y la visualización del listado con los requisitos contractuales identificados.