Maestría en Ciencia de Datos
Permanent URI for this collection
Browse
Browsing Maestría en Ciencia de Datos by Author "Álvarez Vargas, Gloria Inés"
Now showing 1 - 20 of 22
Results Per Page
Sort Options
Item Análisis de sentimiento de las llamadas del Call Center de la Universidad Javeriana de Cali mediante el uso de Ciencia de Datos(Pontificia Universidad Javeriana Cali, 2025) Semma Álvarez, Luis Miguel; Quiza Vargas, Iván Felipe; Agreda Villota, Nelson Andrés; Álvarez Vargas, Gloria Inés; Linares Ospina, Diego LuisEl presente proyecto se enfocó en el análisis de sentimiento de las llamadas del Call Center de la Universidad Javeriana de Cali mediante técnicas de ciencia de datos. Su finalidad fue desarrollar una herramienta que permita analizar el sentimiento expresado en cada llamada y clasificar las interacciones según su contenido emocional, contribuyendo a mejorar la calidad del servicio y apoyar la toma de decisiones informadas. Para ello, se emplearon técnicas como GCP Speech-to-Text para la transcripción de audios, modelos de clasificación supervisada como SVM y RNN y clasificación no supervisada con NMF. Los resultados muestran un buen desempeño, destacando la utilidad del modelo SVM-TFIDF con métricas de F1 y AUC positivas. Está solución representa un avance significativo en la gestión de la información y atención al cliente en el entorno educativo.Item Aplicación de técnicas de inteligencia artificial para el análisis de los comentarios del cliente del segmento personas en Bancalibre(Pontificia Universidad Javeriana Cali, 2025) Arias Vergara, Juliana Andrea; Salcedo Vaca, Carlos Andrés; Linares Ospina, Diego Luis; Álvarez Vargas, Gloria InésActualmente, se capturan y almacenan grandes cantidades de datos en formato texto, lo cual representa un reto significativo para su procesamiento. El análisis manual de estos datos consume demasiado tiempo y es poco práctico, por lo que es necesario desarrollar estrategias para mejorar estos procesos y obtener los resultados con mayor rapidez. En este trabajo se implementan técnicas avanzadas de ciencia de datos para analizar los comentarios escritos de los clientes del segmento de Personas de BancaLibre. La importancia de este estudio radica en la creciente necesidad de las entidades financieras de escuchar y analizar las opiniones de sus clientes para mejorar su experiencia, fidelización y satisfacción. Se aplican técnicas como el análisis de sentimientos, enfocado en el NPS Relacional para conocer la satisfacción del cliente con la empresa en general, y la inteligencia artificial (IA), para identificar en detalle los temas de mejora más recurrentes. El proceso comienza con la preparación del conjunto de datos, la selección e implementación de la técnica de IA adecuada, la evaluación del desempeño del modelo y finaliza con el desarrollo de una interfaz para la visualización de resultados. Se espera obtener un modelo que permita analizar de manera eficiente los comentarios de los clientes, identificar temas recurrentes y proporcionar una herramienta útil para apoyar la toma de decisiones orientadas a mejorar la experiencia del cliente. Las posibles aplicaciones de este trabajo incluyen áreas de la organización como Mercadeo, Estrategia comercial y Servicio al Cliente, que ven en esta información un beneficio para aplicar en sus procesos y su alcance en la escalabilidad con otros tipos de retroalimentación de clientes, ampliando así su impacto y utilidad.Item Automatización de la detección y diagnóstico de leishmaniasis por medio de la identifi cación de parásitos en imágenes de placas de laboratorio(Pontificia Universidad Javeriana Cali, 2023) Cardozo Aricapa, Daniel Fernando; Álvarez Vargas, Gloria InésLa leishmaniasis es una enfermedad causada por más de 20 especies del género Leishmania un protozoo parasito. Esta enfermedad se transmite por la picadura de flebótomos hembra infectados, que necesitan ingerir sangre para producir huevos. A nivel mundial, se encuentra entre las diez enfermedades tropicales desatendidas con más de 12 millones de personas infectadas con 0,9 a 1,6 millones de nuevos casos al año y entre 20.000 a 30.000 defunciones. En la actualidad, las estrategias de prevención y control disponibles para el manejo de la leishmaniasis son limitadas, por lo cual se requiere de herramientas efectivas para el diagnóstico temprano y tratamiento adecuado. Es por esto por lo que nuestro objetivo es desarrollar un modelo automatizado capaz de realizar la identificación del parasito y diagnóstico de Leishmaniasis usando imágenes de placas de laboratorio en pacientes con sospecha clínica de la enfermedad. Para estos proponemos utilizar diferentes algoritmos de clasificación que nos permitan realizar la detección de parásitos de Leishmania por medio de la extracción de características, creación de imágenes integrales y clasificación. Como resultados esperados se espera contar con un modelo diagnostico adecuado basado en placas de laboratorio que permita realizar el diagnostico de forma oportuna y accesible capaz de funcionar de forma eficiente en cualquier área que lo requiera. Finalmente, esta tecnología será una herramienta fundamental para la salud publica en áreas endémicas en pro de disminuir la morbimortalidad de la enfermedad.Item Clasificación de emociones complejas en audio de conversaciones de Call Center de la Universidad Javeriana Cali mediante modelos semi supervisados de Machine Learning(Pontificia Universidad Javariana Cali, 2024) Ospina Cuesta, Julián Andrés; Álvarez Vargas, Gloria Inés; Linares Ospina, Diego LuisEste proyecto tuvo como objetivo identificar las expresiones emocionales complejas predominantes en llamadas del centro de contacto, para ofrecer una herramienta de medición en la satisfacción de clientes o evaluación de desempeño en la relación empleado-cliente. La problemática abordada se centró en ¿Cómo podría desarrollarse un modelo basado en técnicas de machine learning para la clasificación automática de emociones complejas en grabaciones de llamadas de un centro de contacto universitario, con el propósito de evaluar la satisfacción del cliente? El objetivo principal del proyecto fue desarrollar un modelo semi supervisado de machine learning para la clasificación automática de emociones en grabaciones de llamadas del call center de la Universidad Javeriana Cali, utilizando características acústicas. El alcance se limitó al análisis y clasificación de las emociones complejas predominantes identificadas en estas grabaciones, basándose en definiciones de emociones ajustadas a los objetivos del negocio. Los resultados de este proyecto incluyen: un conjunto de audios procesados y etiquetados de forma semi supervisada en las 'No llamadas', mientras que las 'Llamadas' fueron de manera supervisada; un modelo de clasificación automática de emociones que fue entrenado y validado, logrando una precisión del 95% en 'No llamadas' y del 41% en 'Llamadas'; y, por último, un prototipo de software diseñado como interfaz para cargar audios y clasificar las emociones según los modelos generados.Item Clasificación de emociones en audios de call center utilizando ciencia de datos(Pontificia Universidad Javeriana Cali, 2025) Marulanda Almanza, Johan Sebastian; Álvarez Vargas, Gloria Inés; Linares Ospina, Diego LuisEste proyecto se desarrolló con el objetivo de clasificar emociones en llamadas de call center utilizando transcripciones de audio y técnicas de machine learning, tomando como caso de estudio el centro de contacto de una Universidad de Cali. La investigación se enmarca dentro de una iniciativa más amplia en la que se exploraron un enfoque de análisis de transcripciones textuales, el presente trabajo se centró exclusivamente en la información textual derivada de los audios, evaluando la efectividad de diferentes modelos de clasificación. El principal desafío fue desarrollar un clasificador capaz de identificar emociones de manera automatizada y eficiente a partir de datos textuales. Para ello, se realizó una limpieza y normalización de datos, seguida de un entrenamiento supervisado con modelos como Logistic Regression, Random Forest y Multi-Layer Perceptron (MLP). Se aplicó un ajuste de hiperparámetros utilizando Grid Search, optimizando el rendimiento de los modelos.Item Clasificación de pacientes con Leishmaniasis basado en mutaciones genéticas por polimorfismo de nucleótido único (SNP) usando técnicas de Machine Learning(Pontificia Universidad Javeriana de Cali, 2023) Gómez Vasco, Carlos Andrés; Álvarez Vargas, Gloria Inés; Linares Ospina, Diego LuisLa leishmaniasis es una enfermedad tropical transmitida mediante la picadura de insectos que son los vectores de la enfermedad. Se considera una endemia en más de 88 países de diferentes geografías. Las tasas reales de incidencia son sustancialmente altas y con una alta prevalencia en países de América Latina. Aunque existen diferentes tratamientos terapéuticos, son muy complicados para los pacientes y suelen ser bastante tóxicos para otros órganos del cuerpo, y, en general, tienen altos índices porcentuales de fallo, es decir, cumplido el tratamiento los pacientes no se recuperan. Actualmente no existe una herramienta clínica que le permita a un médico tratante determinar la probabilidad a priori de que un tratamiento sea efectivo. Por el contrario, de manera indiscriminada se aplica a los pacientes las terapias bajo la premisa del ensayo y error. En este proyecto aplicado, se realiza un estudio basado en mutaciones genéticas producidas por polimorfismo de nucleótido único (SNP) a un conjunto de setenta y dos (72) pacientes tratados con las técnicas terapéuticas existentes. A estos pacientes se les realizó una secuenciación genética consiguiendo 618,872 SNPs para cada uno y la información clínica del grupo étnico, así como la respuesta al tratamiento después de aplicado, etiquetado como cura o falla. Esta información es suficiente para generar un dataset que fue analizado mediante GWAS (Estudio de asociación de genoma completo) consiguiendo tres datasets denominados COMPLETO, AFRODESCENDIENTES y NO-AFRODESCENDIENTES con 41, 14 y 36 SNPs correspondientemente. Mediante técnicas de reducción de dimensionalidad, como el análisis de componentes principales (PCA), eliminación recursiva de características y regresión LASSO, se reduce el número de variables a aquellas mutaciones genéticas más relevantes para la respuesta inmune al tratamiento consiguiendo 69 subconjuntos de características. Mediante técnicas de aprendizaje automático se construyen 483 clasificadores basados en algoritmos de Regresión Lineal (RL), Stochastic Gradient Descent (SGD), Support Vector Machine (SVM), Decision Tree (DT), Random Forest (RF), Boosting (BT) y Gradient Boosting (GB) de los 69 subconjuntos, para clasificar con precisión las mutaciones genéticas relacionadas con la respuesta inmune al tratamiento terapéutico contra la leishmaniasis. Se utilizaron métricas de evaluación, como accuracy, precision, recall y F1 score para medir el rendimiento de los clasificadores. Estas métricas proporcionaron una visión detallada de la capacidad de los modelos para identificar correctamente las mutaciones relevantes. Después de la evaluación inicial de los 683 experimentos, se realizó la optimización de los hiperparámetros de los modelos mediante una búsqueda por cuadrícula explorando diferentes combinaciones y configuraciones, lo que permitió refinar los modelos y nuevamente estimar su desempeño permitiendo evaluar y comparar los resultados antes y después de la optimización, confirmando la mejora significativa en la capacidad de los clasificadores para identificar con precisión las mutaciones genéticas relacionadas con la respuesta inmune al tratamiento terapéutico contra la leishmaniasis. Al final, se consiguió una selección de 22 SNPs ubicados en genes con funciones biológicas altamente relacionadas con movimiento, transcripción, estructura y transporte celular, así como el transporte de metales, respuesta inmune y cicatrización. Evidenciando que las técnicas aplicadas son eficientes en la identificación de biomarcadores asociados con la respuesta al tratamiento contra la leishmaniasis.Item ClientMinds – Optimización de la experiencia del cliente utilizando modelos de procesamiento de lenguaje natural (PLN)(Pontificia Universidad Javeriana Cali, 2025) Potes Blandón, Jonathan; García Quiroz, Obed; Linares Ospina, Diego Luis; Álvarez Vargas, Gloria InésEn el contexto empresarial actual, la gestión de las relaciones con los clientes (CRM, por sus siglas en inglés) es crucial para el éxito organizacional. Muchas empresas enfrentan dificultades para comprender y mejorar la satisfacción del cliente, pese a disponer de abundantes datos en sus sistemas de CRM, lo que limita la optimización de estas relaciones. Dada la problemática anterior y la oportunidad que tienen las organizaciones con los datos almacenados, este proyecto tuvo como objetivo desarrollar un sistema de Procesamiento del Lenguaje Natural (PNL) basado en un modelo de lenguaje a gran escala (LLM) para mejorar la comprensión y satisfacción del cliente. Este modelo no solo permite interpretar y responder a las solicitudes de los clientes de manera personalizada, sino que también analiza los sentimientos expresados en las interacciones y responden en consecuencia. Las estrategias implementadas incluyen la limpieza y exploración de datos textuales, el ajuste fino de los LLM preentrenados y la creación de un chatbot que integra estas capacidades. Este chatbot no solo interactúa eficazmente con los clientes, sino que también deja registro de dichas interacciones con el propósito de generar insights valiosos, los cuales permiten hacer seguimiento a la satisfacción del cliente y tomar decisiones estratégicas basadas en su comportamiento. En conclusión, este sistema basado en PLN se perfila como una herramienta innovadora para mejorar la experiencia del cliente y fortalecer las relaciones cliente-empresa, lo anterior, gracias a la capacidad de LLM para identificar emociones, ofrecer respuestas precisas y generar información valiosa, facilitando asi la implementación de acciones efectivas orientadas a la mejora continua de la relación con los clientes. Esto no solo eleva la calidad del servicio, sino que también impulsa la fidelización y posiciona a las organizaciones como referentes en el uso de inteligencia artificial para la gestión de sus relaciones con los clientes.Item Cuantificación del parásito Leishmania en imágenes de microscopio mediante técnicas de aprendizaje automático(Pontificia Universidad Javeriana Cali, 2022) Díaz Cuesta, Yeffer Edilberto; Pinedo De la Hoz, David Enrique; Álvarez Vargas, Gloria InésLa Leishmaniasis, causada por el parásito protozoo Leishmania spp., es una de las siete enfermedades tropicales más importantes a nivel mundial, según la Organización Mundial de la Salud (OMS) [1]. Esta enfermedad, que puede ser fatal para los humanos, tiene una alta prevalencia en varios países, afectando especialmente a las poblaciones vulnerables. En la actualidad, los procesos de conteo manual del microorganismo son desgastantes, demorados y, en ocasiones, ineficaces debido al porcentaje de error humano. Además, estos procesos pueden afectar la salud de las personas que los realizan, debido a las largas horas que deben pasar frente a la luz directa del microscopio. En este orden de ideas, se desarrolla el presente trabajo de grado, adscrito al grupo de investigación DESTINO y al proyecto con código 2576 de la Universidad Pontificia Javeriana de Cali, titulado: "Aplicación de técnicas de aprendizaje automático a la predicción del desenlace terapéutico de la leishmaniasis cutánea". El objetivo principal de este trabajo fue crear un modelo de aprendizaje automático, basado en técnicas de ciencia de datos, que permite identificar y cuantificar la presencia de Leishmania spp. en imágenes de microscopio. Para lograr este objetivo, se consolidó una base de datos con imágenes que sirvieron para entrenar el modelo en la caracterización del parásito. Se procesaron los datos de las imágenes para obtener información relevante y se aplicaron distintas técnicas de aprendizaje automático para cuantificar la carga parasitaria. Finalmente, se evaluó y seleccionó el modelo que presentó el mejor rendimiento con relación al alcance inicialmente propuesto. Se espera que este proyecto impulse la aplicación de la herramienta en diferentes espacios del sector de la salud y áreas académicas, en particular, en laboratorios donde se quiera incrementar la eficiencia y rapidez en los diagnósticos de presencia del parásito protozoo Leishmania. De este modo, se buscó automatizar el proceso de conteo del parásito, utilizando únicamente como insumo la imagen capturada por un microscopio al observar los microorganismos presentes en los portaobjetos.Item Desarrollo de modelo para identificación de características positivas/negativas de producto en comentarios en plataforma e-commerce usando aprendizaje automático(Pontificia Universidad Javeriana Cali, 2025) Villa Ramos, Jhilbran; Ibarra Enríquez, Santiago; Álvarez Vargas, Gloria Inés; Linares Ospina, Diego LuisEste proyecto busca desarrollar una herramienta de análisis de sentimientos automatizada para evaluar comentarios en plataformas de comercio electrónico mediante técnicas de Machine Learning. El objetivo principal es identificar características positivas y negativas en las reseñas de los usuarios, permitiendo a las empresas mejorar su reputación, abordar rápidamente comentarios negativos, optimizar productos y servicios, y diseñar estrategias de marketing más efectivas. La metodología del proyecto se divide en dos etapas principales: preparación de datos e implementación del modelo. En la primera etapa, se realiza la adquisición de datos a partir de comentarios de usuarios, seguida de un proceso de limpieza y transformación del texto para eliminar ruido y normalizar los datos. Posteriormente, se aplican técnicas de incrustación de palabras como Word2Vec y GloVe, junto con métodos léxicos tradicionales (Bag-of-Words, TFIDF, One-Hot Encoding) para convertir el texto en representaciones vectoriales adecuadas para el análisis. En la fase de implementación, se entrenan y comparan distintos modelos de clasificación, utilizando los embeddings generados. Adicionalmente, se aplica modelado de temas (LDA) para identificar patrones en los comentarios. Finalmente, se generan visualizaciones interactivas que permiten una comprensión clara de los resultados.Item Desarrollo de un sistema de recomendaciones personalizadas en la plataforma LMS KME360(Pontificia Universidad Javeriana Cali, 2025) Samacá Romero, Carolina; Peña Fajardo, Enrique José; Álvarez Vargas, Gloria Inés; Linares Ospina, Diego LuisEste proyecto propone el desarrollo de un sistema de recomendación de contenidos y cursos personalizado para la plataforma LMS kme360. El sistema se diseñará de manera modular y escalable, con la capacidad de adaptarse a las necesidades de cada cliente futuro y a la configuración específica de sus instancias. La implementación de este sistema permitirá que la plataforma pueda ofrecer una experiencia de aprendizaje más personalizada y efectiva a sus usuarios, lo que se traducirá en una mayor satisfacción del cliente, un mejor aprovechamiento de los recursos disponibles y un potencial aumento en la tasa de finalización de los cursos. El proyecto se desarrollará siguiendo la metodología CRISP-DM, que establece seis etapas: comprensión del negocio, comprensión de los datos, preparación de los datos, modelado, evaluación y despliegue. Como resultado principal del proyecto, se obtendrá un modelo de recomendación que responderá a las características puntuales del cliente seleccionado. Se espera que este resultado impacte positivamente en la experiencia de aprendizaje de los usuarios de kme360, aumentando su satisfacción y compromiso con la plataforma.Item “Diseminación selectiva de la información usando ciencia de datos: recomendación de libros y lecturas en las bibliotecas Comfama”(Pontificia Universidad Javariana Cali, 2024) Bedoya Henao, Edwin José; Álvarez Vargas, Gloria Inés; Linares Ospina, Diego LuisEste proyecto se enfoca en el desarrollo de un sistema de recomendación de libros para las Bibliotecas Comfama, con el objetivo de mejorar la experiencia de los usuarios al proporcionar sugerencias personalizadas basadas en sus preferencias de lectura y comportamiento histórico. La relevancia del proyecto radica en abordar el problema de la infoxicación, o sobrecarga de información, en un entorno donde la vasta cantidad de materiales disponibles dificulta la selección de lecturas adecuadas para cada usuario. El sistema de recomendación se construyó utilizando técnicas avanzadas de ciencia de datos, como modelos de agrupación (K-Means) y representaciones vectoriales de libros mediante Word2Vec, lo que permite identificar patrones de lectura y preferencias individuales. A partir de esta estructura, se generaron recomendaciones altamente precisas y personalizadas que optimizan el servicio de préstamo de las Bibliotecas Comfama, aumentando así la satisfacción de los usuarios. El sistema se fundamenta en una estructura de datos que integra tanto características demográficas como el historial de préstamos y consultas de cada usuario, lo que facilita la identificación de perfiles de lectores y la agrupación de usuarios con intereses similares. Como resultado, el proyecto ofrece un sistema innovador que promueve el uso más frecuente y eficiente de los servicios bibliotecarios, fortaleciendo el papel de las bibliotecas en la promoción de la cultura y el conocimiento. Este enfoque tiene aplicaciones potenciales más allá del ámbito bibliotecario, con posibilidades de implementación en sectores como el comercio electrónico o la selección de contenido digital, aprovechando las capacidades de la ciencia de datos para anticipar y satisfacer las preferencias individuales de los usuarios.Item Generación de noticias a partir de conjuntos de datos económicos utilizando técnicas de inteligencia artificial y aprendizaje automático(Pontificia Universidad Javeriana Cali, 2025) López Gómez, David Leonardo; Bejarano Bejarano, Luis Vidal; Linares Ospina, Diego Luis; Álvarez Vargas, Gloria InésEn el contexto actual de rápida generación de datos económicos, surge el desafío de transformar conjuntos de datos complejos en información accesible y comprensible. Esta investigación aborda esta problemática mediante el uso de técnicas de inteligencia artificial (IA) y aprendizaje automático (AA) para la generación automatizada de noticias basadas en procesamiento de lenguaje natural (PLN). Aquí, el problema radica en la ineficiencia de los métodos tradicionales de análisis de datos frente al volumen y la complejidad de la información económica contemporánea. Además, los medios de comunicación enfrentan una creciente demanda de entrega rápida y precisa de contenidos, lo que presenta desafíos significativos en términos de costos y operatividad. Para abordar estos retos, se desarrolló un sistema basado en los modelos T5 y GPT-2, ambos con arquitecturas de tipo transformer. Los datos económicos fueron preprocesados, limpiados y estructurados para entrenar los modelos. Se realizaron ajustes utilizando hiperparámetros optimizados y métricas de evaluación como BLEU, BERTScore y perplejidad, con el objetivo de medir la calidad de los textos generados. Los resultados mostraron que el modelo T5 superó al GPT-2 en precisión, coherencia y fluidez del texto generado, logrando un BLEU de 0.14, un BERTScore promedio (F1) de 0.83 y una perplejidad de 1.11 tras la optimización. En comparación, el GPT-2 alcanzó un BLEU de 0.15, un BERTScore promedio (F1) de 0.70 y una perplejidad de 12.75. Estas métricas indican que el T5 es más adecuado para generar textos complejos y altamente estructurados, mientras que el GPT-2 destaca en tareas donde se requiere mayor creatividad y generación de contenido más diversificado. El resultado de esta investigación, aporta un avance en la transformación de datos económicos en contenido informativo, reduciendo costos y tiempos asociados a los procesos tradicionales. La solución propuesta se presenta como una herramienta prometedora para democratizar el acceso a información económica y apoyar la toma de decisiones en entornos dinámicos.Item Modelado para la recomendación personalizada de noticias basado en técnicas de aprendizaje automático(Pontificia Universidad Javariana Cali, 2024) Buesaco Vela, José Miguel; Lozano Hernández, Nydia Natalia; Bolaños Vidal, Jamith; Álvarez Vargas, Gloria Inés; Linares Ospina, Diego LuisLa digitalización ha generado que los usuarios se encuentren ante una sobreexposición de información, lo cual hace que tanto los usuarios como los medios de comunicación tradicionales y digitales se vean afectados. Para abarcar esta problemática, la ciencia de datos propone modelos de recomendación de noticias, los cuales tienen como objetivo analizar los gustos de los usuarios y, en función de estos generar filtros para proporcionarle al usuario una experiencia que ofrezca noticias de su interés. Con este proyecto buscamos desarrollar un modelo basado técnicas de aprendizaje automático para la recomendación personalizada de noticias. Para lograr el objetivo de este proyecto se realizan distintas fases como la preparación de los datos, modelado, entrenamiento, validación y finalmente se desarrolla un prototipo para la recomendación personalizada de noticias. Se aplican dos enfoques para las recomendaciones: el filtrado basado en contenido y el filtrado colaborativo, por la estructura de los datos utilizados, este último enfoque genera mejores recomendaciones. Los resultados muestran que el modelo denominado Descomposición en Valores Singulares (SVD) presenta el mejor desempeño en las predicciones determinado por la raíz del error cuadrático medio (RMSE) de 0,2461 y un F1-Score de 0,8118 en las listas personalizadas de recomendación de noticias.Item Modelo de aprendizaje automático aplicado a la asignación de recursos institucionales para el control y la seguridad de la infraestructura móvil, física y tecnológica del SITM MIO(Pontificia Universidad Javeriana Cali, 2024) Buendía Diago, Albeiro; Mejía Ríos, Karol Stefani; Morán Villarreal, Oscar; Álvarez Vargas, Gloria Inés; Arteaga Botero, Gustavo AdolfoEste proyecto se enfocó en abordar las deficiencias de seguridad en el sistema de transporte masivo SITM MIO de Santiago de Cali, que experimenta incidentes crecientes de inseguridad. La gestión reactiva y la falta de control han afectado la confianza de los aproximadamente 280 mil usuarios diarios. Se identificó la necesidad de utilizar herramientas tecnológicas avanzadas para mejorar la asignación de recursos de seguridad de manera proactiva. Se desarrolló e implementó un sistema basado en técnicas estadísticas y computacionales, utilizando modelos de aprendizaje automático como Random Forest Regression, Support Vector Regression y Multilayer Perceptron Regression. La herramienta analítica predictiva resultante integra datos históricos y modelos de aprendizaje autónomo, destacando la eficacia del modelo de Random Forest Regression. Este avance marca un hito en la gestión de recursos de seguridad del transporte masivo, demostrando el impacto positivo de la ciencia de datos en la mejora de servicios públicos esenciales y la seguridad ciudadana.Item Modelo de Machine Learning para la Identificación de Pólipos en Imágenes de Colonoscopia(Pontificia Universidad Javeriana Cali, 2025) Alba Talero, Jairo Enrique; Linares Ospina, Diego Luis; Álvarez Vargas, Gloria InésUn pólipo en el colon es una acumulación pequeña de células formado en el revestimiento del colon. En su mayoría los pólipos no causan daños o alteraciones, sin embargo, algunos de ellos pueden crecer y transformarse en tumores pre-cancerosos o cancerosos, por lo que la detección de los mismos a través de la prueba gold standard, la colonoscopia, es de gran importancia clínica. Un problema en la identificación de estos pólipos es que muchos de ellos se pasan por alto en el momento de realizar el examen, por lo que se propuso elaborar un algoritmo de aprendizaje profundo para que, a través de imágenes, se pueda asistir la interpretación de las imágenes. Se recopilaron imágenes de colonoscopias obtenidas durante procedimientos médicos. Las imágenes se seleccionaron, clasificaron y etiquetaron con la ayuda de expertos para garantizar su calidad e integridad para luego hacer uso de ellas.Item Modelo para la orientación sobre trámites al ciudadano en el Distrito de Santiago de Cali(Pontificia Universidad Javeriana Cali, 2025) Sánchez Soto, Giovanni; Linares Ospina, Diego Luis; Álvarez Vargas, Gloria InésEste proyecto aplicado aborda la problemática de la atención a consultas de orientación sobre trámites al ciudadano en el Distrito de Santiago de Cali, explorando soluciones a partir del ajuste fino de Modelos de Lenguaje Grande (LLMs) para automatizar la generación de respuestas, se entrenaron modelos cuantizados Llama 3.2 3B Instruct y Phi 3.5 Mini Instruct con conjuntos de datos extraídos de plataformas oficiales del Distrito, tambien se implementó un sistema de Generación Aumentada por Recuperación (RAG), utilizando el modelo Llama 3.2 para la generación de respuestas. Los resultados de la evaluación demostraron que, si bien los modelos ajustados mostraron un buen desempeño semántico, presentaron problemas de factualidad mientras el enfoque basado en RAG obtuvo los mejores resultados en ambos casos.Item Modelo para predecir si un aspirante admitido se matriculará en un programa de pregrado de una universidad colombiana, aplicando técnicas de ciencia de datos(Pontificia Universidad Javeriana Cali, 2025) Piñeros Castro, Carlos Rodrigo; Linares Ospina, Diego Luis; Álvarez Vargas, Gloria InésSe desarrolló un modelo para predecir si un aspirante admitido se matriculará en un programa de pregrado de una universidad colombiana utilizando técnicas de aprendizaje automático. Las universidades tienen la necesidad de contar con herramientas que faciliten la optimización de los recursos y la toma de decisiones estratégicas para garantizar su sostenibilidad. La fluctuación del número de estudiantes inscritos, admitidos y matriculados nuevos genera incertidumbre en la planificación académica y financiera. En este sentido, se propuso el desarrollo de un modelo que permite predecir la matrícula a partir de la información de los aspirantes. Este proyecto se centró en la preparación de los datos, el entrenamiento de diferentes modelos de clasificación, la utilización de métricas de evaluación para verificar el rendimiento de los modelos y el desarrollo de un prototipo que realiza predicciones a partir de nuevos datos. Se espera que este modelo promueva el diseño de estrategias de marketing para la captación y el reclutamiento ajustadas a los perfiles de los aspirantes.Item Modelo predictivo para determinar el desenlace terapéutico del paciente con leishmaniasis a partir de imágenes de lesiones(Pontificia Universidad Javeriana Cali, 2024) Segura Dorado, Jhon Alexander; Álvarez Vargas, Gloria Inés; Gómez, María AdelaidaEl aprendizaje automático ha aportado avances al campo de la medicina, sin embargo, en muchos casos es difícil implementar esta tecnología debido a la baja cantidad de datos que pueden estar disponibles en los estudios médicos en relación con el número de características que se planean analizar. Este estudio exploro ocho modelos de aprendizaje automático para predecir el desenlace terapéutico de los pacientes con leishmaniasis cutánea a partir de las imágenes de las lesiones. Este nuevo enfoque permitirá proponer nuevos mecanismos en el manejo de esta enfermedad a partir de una herramienta para predecir el desenlace terapéutico en tiempo real, además de efectuar recomendaciones en el tratamiento de los pacientes. Finalmente, la contribución de este proyecto servirá de base para las futuras investigaciones que el Centro Internacional de Entrenamiento e Investigaciones Médicas pueda llevar a cabo para encontrar un tratamiento eficaz contra la leishmaniasis.Item Modelo predictivo para estimar la humedad del suelo en cultivos del CIAT usando técnicas de aprendizaje automático(Pontificia Universidad Javeriana Cali, 2025) Paternina Miranda, Fabio Andrés; Zarate Jiménez, Juliana; Álvarez Vargas, Gloria Inés; Barrios Pérez, CamiloEl presente trabajo desarrolló un modelo predictivo para la estimación de la humedad volumétrica del suelo a partir de la integración de variables espectrales, climáticas y edáficas, empleando técnicas avanzadas de aprendizaje automático y análisis multifuente. El estudio se realizó en parcelas experimentales del Centro Internacional de Agricultura Tropical (CIAT), utilizando datos provenientes de sensores de humedad del suelo, imágenes satelitales PlanetScope (índices NDVI, EVI, NDMI y NDWI) y registros meteorológicos locales (precipitación, temperatura, radiación solar, evapotranspiración y velocidad del viento). El proceso metodológico incluyó un análisis exploratorio para evaluar la calidad y distribución de los datos, identificar correlaciones significativas y eliminar redundancias entre variables. Posteriormente, se seleccionaron nueve variables predictoras finales que representaron de forma eficiente los componentes hidrológicos, energéticos y vegetativos del sistema suelo–planta–atmósfera. Cinco algoritmos fueron evaluados en la fase de modelado: XGBoost, Random Forest, Support Vector Regression (SVR), Multi-Layer Perceptron (MLP) y K-Nearest Neighbors (KNN). Tras un proceso de optimización mediante GridSearchCV y validación cruzada K-Fold (k = 5), el modelo XGBoost optimizado se consolidó como la alternativa más precisa y estable, alcanzando un desempeño sobresaliente (R² = 0.96; MAE = 1.95; RMSE = 2.94). Este resultado evidenció su capacidad para capturar relaciones no lineales y manejar la multicolinealidad entre variables, superando a los demás algoritmos en generalización y eficiencia computacional. Como aplicación práctica, se desarrolló una interfaz web interactiva que permite realizar predicciones en tiempo real de la humedad del suelo a partir de datos climáticos y satelitales ingresados por el usuario. La interfaz integra visualizaciones dinámicas y un sistema de clasificación por categorías de humedad (muy baja, baja, media y alta), facilitando la interpretación de los resultados y la toma de decisiones agronómicas.Item Predicción de la resiliencia escolar en municipios colombianos afectados por el conflicto armado(Pontificia Universidad Javeriana Cali, 2025) Lucumí Hernández, Luz Carime; Martínez Martínez, Luis Carlos; Álvarez Vargas, Gloria Inés; Linares Ospina, Diego LuisEste proyecto tiene como objetivo predecir la resiliencia escolar en los municipios colombianos afectados por el conflicto armado, utilizando técnicas de aprendizaje automático y análisis espacial. La resiliencia escolar se refiere a la capacidad de los estudiantes para mantener un buen rendimiento académico a pesar de las adversidades, dado que, aunque estas regiones enfrentan grandes desafíos, algunos estudiantes logran sobresalir, lo que subraya la importancia de identificar los factores que contribuyen a este éxito. El proyecto se enfoca en desarrollar un modelo predictivo para estimar la resiliencia escolar en estas zonas, basado en datos educativos, sociales y económicos. Entre los objetivos se incluyen la preparación de los datos, la construcción y evaluación de los modelos predictivos, y el desarrollo de un prototipo para visualizar los resultados. Este enfoque basado en el análisis de grandes volúmenes de datos ofrece una manera de comprender y abordar la resiliencia escolar en contextos de conflicto.