Maestría en Ciencia de Datos
Permanent URI for this collection
Browse
Recent Submissions
Item Sistema de reconocimiento de la estructura cerebral Cavum Septum Pellucidum basado en Deep Learning para el análisis de anomalías del desarrollo en imágenes de ultrasonido fetal en 2D(Pontificia Universidad Javariana Cali, 2025) Cifuentes Ortega, Milton Fabián; Torres Valencia, Cristian AlejandroEn este proyecto se presenta el diseño, desarrollo e implementación de un sistema de reconocimiento basado en Deep Learning para la detección de la estructura craneal en fetos llamada Cavum Septum Pellucidum sobre imágenes de ultrasonido 2D, el cual tiene como objetivo colaborar con el sector salud en la detección temprana de anormalidades prenatales, debido a que este tipo de inconvenientes son muy comunes en el desarrollo del feto y así se podría reducir los índices de mortalidad en recién nacidos. Para el desarrollo del sistema se llevaron a cabo tareas de selección de criterios de recolección y procesamiento de las imágenes de ultrasonido fetal en 2D, además de la identificación de métricas de evaluación para la clasificación de normalidad o anormalidad. Estos modelos podrían ser aplicado a cualquier proceso de seguimiento prenatal donde se tomen imágenes de ultrasonidos para el control del crecimiento del feto. Las anormalidades detectadas podrían ayudar a diagnosticar posibles enfermedades tales como holoprosencefalia, displasia septo-óptica, agenesia de cuerpo calloso, enfermedad de Alexander, esclerosis tuberosa, facomatosis, pinealoma, trisomía del par y esquisencefalia. Teniendo en cuenta todo lo anterior se obtuvo como resultado final de este proyecto dos modelos; El primer modelo se centró en el reconocimiento de los planos craneales y se obtuvo un 99% de accuracy. Por otro lado, el segundo modelo se dividió por plano cerebral (Trans-Ventricular, Trans-Thalamic y Trans-Cerebellum) y se creó específicamente cada uno de ellos enfocados en la identificación de la estructura cerebral Cavum Septum Pellucidum, obteniendo como resultado final un 88.8%, 91% y 95.1% de Curva AUC ROC respectivamente.Item Predicción de tasa de interés y su relación con los indicadores económicos mediante Ciencia de Datos(Pontificia Universidad Javariana Cali, 2024) Meza Pastrana, Sebastián Javier; Arango Londoño, DavidEl presente proyecto aborda la predicción de la Tasa de Intervención de Política Monetaria en Colombia, una variable crucial para la estabilidad macroeconómica y la toma de decisiones en política económica. Dada la relevancia de esta tasa para regular la liquidez, influir en las decisiones de inversión y financiamiento, y estabilizar los precios, se exploraron enfoques avanzados de predicción mediante modelos de Machine Learning, contrastándolos con un modelo econométrico tradicional de regresión lineal múltiple. La problemática identificada radica en las limitaciones de los enfoques econométricos lineales para capturar relaciones no lineales y manejar conjuntos de datos de alta dimensionalidad. Con base en esta problemática, el proyecto tuvo como objetivos principales identificar las variables macroeconómicas más relevantes, evaluar la precisión de diferentes algoritmos de Machine Learning (Ridge, Lasso, Random Forest, XGBoost y SVR) y comparar su desempeño con el modelo econométrico. Los resultados evidenciaron que los modelos de Machine Learning, en particular XGBoost y Random Forest, lograron un mejor desempeño predictivo con errores promedio más bajos (MSE de 0.11 y 0.16, respectivamente) y mayor capacidad explicativa (R² superior a 0.97 en prueba). Por otro lado, el modelo econométrico, aunque respaldado por fundamentos teóricos sólidos, se quedó corto en precisión y capacidad para capturar patrones complejos, presentando autocorrelación y heterocedasticidad en los residuos. Además, se implementaron herramientas como SHAP para mejorar la interpretabilidad de los modelos avanzados, identificando las variables macroeconómicas más influyentes en las predicciones. Este análisis integral no solo subraya la relevancia de la tasa de política monetaria para la estabilidad económica, sino que también demuestra la importancia de integrar métodos avanzados para lograr predicciones precisas y proporcionar herramientas útiles para la toma de decisiones en entornos de alta incertidumbre. Las aplicaciones de este trabajo incluyen el fortalecimiento de la planificación financiera y el diseño de políticas públicas más informadas, así como la mejora en la gestión de riesgos económicos en sectores como el financiero y el empresarial. Los hallazgos refuerzan la necesidad de métodos modernos en el análisis de variables clave para enfrentar los retos dinámicos de las economías modernasItem Análisis de imágenes satelitales para la clasificación de ecosistemas en predios(Pontificia Universidad Javariana Cali, 2024) Quiroz Moscarella, Roberto Enrique; Santos Peñuela, Francisco José; Castaño Idárraga, Omar AndrésEl proyecto aplicado se centra en la segmentación de imágenes satelitales de predios para identificar ecosistemas. Aborda la problemática del trabajo manual requerido para segmentar zonas en imágenes, especialmente en la elaboración de proyectos de bonos de carbono. Se desarrolló un algoritmo funcional que permita a los investigadores segmentar grandes extensiones de tierra de manera eficiente, reduciendo el tiempo necesario para esta tarea. Los resultados obtenidos permiten la automatización del proceso de segmentación, particularmente sobre zonas verdes y cuerpos de agua permitiendo la evaluación de su extensión. Las posibles aplicaciones de este proyecto abarcan la investigación ambiental, la planificación del uso del suelo y la gestión de recursos naturales.Item Predicción del gasto de bolsillo en salud de los hogares en Colombia usando modelos de aprendizaje automático(Pontificia Universidad Javariana Cali, 2024) Parada Portilla, Juan Sebastián; Ortega Lenis, DeliaEste trabajo desarrolla modelos de aprendizaje automático para predecir el gasto de bolsillo en salud de los hogares colombianos. Utilizando datos de la Encuesta de Calidad de Vida (ECV), se identificaron variables clave como la presencia de enfermedades crónicas en el hogar, el ingreso del hogar, el tamaño del hogar, el estado de salud y la afiliación al sistema de seguridad social. Inicialmente, se exploraron modelos de regresión, pero debido a la alta proporción de valores nulos (85\% de los hogares no reportan gasto en salud), su desempeño fue limitado. Para abordar este problema, se transformó la variable dependiente en una binaria y se aplicaron modelos de clasificación, incluyendo Random Forest, Gradient Boosting y regresión logística, optimizados con la técnica SMOTE para balancear las clases. Los resultados muestran que los modelos de clasificación superan a los de regresión, con Random Forest y Gradient Boosting logrando los mejores desempeños en términos de ROC AUC. Este estudio proporciona herramientas útiles para el diseño de políticas públicas basadas en evidencia, permitiendo identificar hogares con mayor riesgo de incurrir en altos gastos en salud y facilitando intervenciones para reducir el impacto financiero en las familias colombianas.Item “Diseminación selectiva de la información usando ciencia de datos: recomendación de libros y lecturas en las bibliotecas Comfama”(Pontificia Universidad Javariana Cali, 2024) Bedoya Henao, Edwin José; Álvarez Vargas, Gloria Inés; Linares Ospina, Diego LuisEste proyecto se enfoca en el desarrollo de un sistema de recomendación de libros para las Bibliotecas Comfama, con el objetivo de mejorar la experiencia de los usuarios al proporcionar sugerencias personalizadas basadas en sus preferencias de lectura y comportamiento histórico. La relevancia del proyecto radica en abordar el problema de la infoxicación, o sobrecarga de información, en un entorno donde la vasta cantidad de materiales disponibles dificulta la selección de lecturas adecuadas para cada usuario. El sistema de recomendación se construyó utilizando técnicas avanzadas de ciencia de datos, como modelos de agrupación (K-Means) y representaciones vectoriales de libros mediante Word2Vec, lo que permite identificar patrones de lectura y preferencias individuales. A partir de esta estructura, se generaron recomendaciones altamente precisas y personalizadas que optimizan el servicio de préstamo de las Bibliotecas Comfama, aumentando así la satisfacción de los usuarios. El sistema se fundamenta en una estructura de datos que integra tanto características demográficas como el historial de préstamos y consultas de cada usuario, lo que facilita la identificación de perfiles de lectores y la agrupación de usuarios con intereses similares. Como resultado, el proyecto ofrece un sistema innovador que promueve el uso más frecuente y eficiente de los servicios bibliotecarios, fortaleciendo el papel de las bibliotecas en la promoción de la cultura y el conocimiento. Este enfoque tiene aplicaciones potenciales más allá del ámbito bibliotecario, con posibilidades de implementación en sectores como el comercio electrónico o la selección de contenido digital, aprovechando las capacidades de la ciencia de datos para anticipar y satisfacer las preferencias individuales de los usuarios.Item Estimación del precio de renta en predios rurales mediante modelación espacial en Colombia.(Pontificia Universidad Javariana Cali, 2024) Salgado Ramírez, Carlos Andrés; Arango Londoño, David; Bohórquez, Martha PatriciaLa Sociedad de Activos Especiales (SAE), que administra predios en extinción de dominio, actualmente está en el proceso de otorgar sus predios a diversas instituciones y comunidades para contribuir tanto a la soberanía alimentaria, como a otros sectores sociales del país. Para lograr esto, se deben establecer precios de renta justos y transparentes. Los métodos existentes para estimar la renta en predios rurales no han sido implementados hasta ahora en el país. Este proyecto desarrolla un modelo basado en técnicas de aprendizaje supervisado usando machine learning para estimar la renta de predios rurales en Colombia. El modelo incorpora la dependencia espacial, lo que permite una comprensión más profunda de las variaciones en los precios de renta. Este proyecto representa una oportunidad de innovación para la estimación de la renta en predios rurales y contribuye significativamente a la seguridad y soberanía alimentaria del país.Item Estadificación imagenológica de la atrofia geográfica en la degeneración macular relacionada con la edad (DMAE), utilizando tomografía óptica coherente (OCT) con 3 cortes, en una población del sur de Colombia(Pontificia Universidad Javariana Cali, 2024) Quiñones Lucio, Andrés Felipe; Vargas Cardona, Hernán DaríoLa degeneración macular relacionada con la edad (DMAE) es una enfermedad degenerativa que afecta el segmento posterior del ojo, específicamente la mácula, que es la parte central de la retina responsable de la visión detallada y nítida. Es una de las principales causas de pérdida visual en personas mayores de 50 años. Existen dos tipos de DMAE: la atrófica o seca y la exudativa o húmeda. La forma atrófica es la más común y se caracteriza por la presencia de atrofia geográfica y acumulación de drusas— depósitos de desechos celulares y lipídicos—en la retina, particularmente en la mácula. Fisiopatológicamente, ocurre una descomposición y muerte (apoptosis) de las células maculares, lo que conduce a un deterioro gradual de la visión central. La forma exudativa es menos común pero más agresiva; se distingue por el desarrollo de neovascularización anormal debajo de la retina que puede sangrar y ocasionar cicatrices, resultando en una disminución más rápida de la agudeza visual. Aunque la DMAE no tiene cura, existen tratamientos que ayudan a retrasar su progresión y preservar la visión, lo que resalta la importancia del diagnóstico y tratamiento tempranos. La tomografía de coherencia óptica (OCT) se ha consolidado como una herramienta esencial para visualizar las capas retinianas y detectar cambios estructurales asociados con la DMAE. Las tecnologías avanzadas de OCT permiten obtener imágenes de alta resolución, facilitando la identificación de la atrofia y otras lesiones asociadas. La clasificación consensuada de la atrofia en DMAE mediante OCT ha sido establecida para estandarizar diagnósticos y fue la utilizada en el presente trabajo para su aplicación en técnicas de aprendizaje profundo.Item Detección de anomalías en datos meteorológicos mediante métodos de análisis avanzados(Pontificia Universidad Javariana Cali, 2025) Mena Ramírez, Yamuna Devi; Buss Molina, Antal AlexanderDada la creciente incidencia de fenómenos climáticos, como ciclones, sequías e intensas lluvias, anticipar y estudiar los cambios en las condiciones atmosféricas se ha convertido en una prioridad para países como Colombia, que cuentan con amplias áreas costeras. Estos eventos representan no solo un riesgo significativo para el medio ambiente y la seguridad, sino que también exigen un entendimiento profundo de las dinámicas atmosféricas. Las series de tiempo meteorológicas son herramientas clave en este contexto, ya que permiten el monitoreo continuo de variables climáticas, como la temperatura, la presión, la humedad y la precipitación, facilitando la identificación y estudio de patrones y anomalías que podrían anticipar eventos climáticos. En este contexto, se abordaron las limitaciones actuales en la detección de anomalías en los datos meteorológicos de la Dirección General Marítima en Colombia, siguiendo la metodología CRoss Industry Standard Process for Data Mining (CRISP-DM). Se propuso un enfoque híbrido que combina un algoritmo estadístico diseñado para la detección de anomalías naturalmente imposibles relacionadas con sensores, con un método más robusto que permite detectar días completos como eventos anómalos, en el que se seleccionaron las series multivariadas mediante un análisis de correlación, donde se identificaron las variables que presentaban mayor interdependencia. Luego, se aplicó el clustering utilizando los algoritmos K-means y DBSCAN, con enfoques tanto locales como globales. Los mejores resultados de evaluación se obtuvieron con el enfoque global aplicado a la serie multivariada que incluye temperatura del aire y humedad relativa, mostrando un puntaje de silueta de 0.67 y un índice de Davies Bouldin 0.54 para DBSCAN.Item Segmentación de profesionales de la salud del sector farmacéutico por Machine Learning para la optimización de frecuencia de visitas(Pontificia Universidad Javariana Cali, 2025) Reyes Zabaleta, Santiago; Cortez Aguilar, GenaroEn el sector salud, comprender a los médicos del mercado es crucial, ya que cada impacto promocional debe estar enfocado en el Health Care Practitioner (HCP). En Colombia, esta tarea es especialmente compleja debido a la limitada cantidad de especialistas, que obliga a los médicos a tratar diversas enfermedades, y a la promoción de múltiples productos por parte de las empresas farmacéuticas, lo que genera segmentaciones distintas para cada molécula. Además, las dinámicas del mercado colombiano hacen que la relación médico producto sea más disperso, aumentando la necesidad de enfoques estratégicos precisos. Este proyecto propone un modelo de segmentación estándar, basado en datos objetivos, que elimina la subjetividad, optimiza la caracterización de los HCPs y prioriza estrategias de marketing, alineando los esfuerzos de la empresa con las necesidades del mercado de forma más eficiente y efectiva.Item Modelo de predicción de precipitación acumulada para un departamento de Colombia por medio de la implementación de redes neuronales recurrentes (LSTM) e integración de datos satelitales(Pontificia Universidad Javariana Cali, 2024) Gómez Sepúlveda, Jorge Iván; Lafaurie Suárez, Jonathan Andrés; María Camila, Mendoza García; Arango Londoño, DavidEste proyecto se enfoca en la predicción de la precipitación acumulada en el departamento del Valle del Cauca en Colombia, catalogada como una región que está altamente influenciada por factores climáticos variables dada su geografía y la ocurrencia de fenómenos temporales como “La Niña” o “El Niño”, los cuales generan cambios en los niveles de precipitación y afectan significativamente diversos sectores como la agricultura, la ganadería, el transporte y la economía en general. Dado esto, se desarrolla un modelo predictivo que hace uso de redes neuronales recurrentes (LSTM), a partir de información de precipitación observada (medidas terrestres) y satelital. Este enfoque, permite superar los limitantes de otros métodos convencionales de series de tiempo y, de esta forma, mejorar la precisión y el rendimiento de los modelos actuales. Los objetivos específicos en este proyecto incluyen factores como la selección del departamento más idóneo para la investigación, el análisis temporal y espacial de la base de datos empleada para el estudio, la instauración y evaluación del modelo LSTM y la comparación con otros modelos tradicionales de series de tiempo. Todo esto, está encaminado para el desarrollo de un modelo de predicción que logre estimaciones de la precipitación semanal acumulada. El proyecto, tiene como valor agregado la integración de información satelital por medio del procesamiento de imágenes satelitales y su potencial, radica en su aplicación en futuras investigaciones que puedan convertirla en un recurso valioso para diferentes agentes y autoridades relacionadas con el clima y la meteorología. Además, se aspira a que pueda escalarse hacia otras regiones del país, contribuyendo al manejo adecuado de recursos y la planificación meteorológicaItem “Aplicación de Modelos Machine Learning para predecir el riesgo de pérdida de seguimiento en tuberculosis”(Pontificia Universidad Javariana Cali, 2025) Rodríguez Camargo, Rubén Darío ; Guerrero Barreto, Diana Azucena; Ortega Lenis, DeliaLa tuberculosis (TB) es una enfermedad que afecta a un gran número de personas en todo el mundo, es curable y prevenible; razones que han llevado a la Organización Mundial de la Salud (OMS) a priorizar la enfermedad a nivel de salud pública. No obstante, las pérdidas en el seguimiento amenazan el éxito de los programas de control, dado por aumentos en las tasas de mortalidad y se constituyen como un factor desencadenante en la aparición de formas farmacorresistentes. Se han descrito diferentes determinantes en salud (DSS) que influyen en la pérdida de seguimiento, siendo los principales: sexo hombre, tener un bajo nivel educativo, bajos ingresos económicos, pertenecer a un grupo poblacional vulnerable, presentar alguna comorbilidad, tener barreras de acceso al sistema de salud, antecedente de tratamiento previo, baja tolerancia a efectos secundarios al tratamiento y afectaciones en salud mental. El distrito capital no es ajeno a esta situación y se ha visto que el éxito programático no alcanza la meta del 90 % en los últimos años. Dentro de los factores que afectan el cumplimiento se encuentran los pacientes fallecidos y con pérdida de seguimiento cuya prevalencia para el distrito en los últimos 7 años corresponde al 7.3 %. Los avances en inteligencia artificial (IA) han permitido comprender mejor el fenómeno de pérdida de seguimiento en otros países con alta carga de la enfermedad, los cuales han servido como base para la reformulación de políticas públicas por parte de las autoridades sanitarias, que han permitido mejorar la adherencia terapéutica de los pacientes. En este sentido, el objetivo del presente proyecto consistió en desarrollar un modelo de Machine Learning que permita predecir el riesgo de pérdida de seguimiento en pacientes pertenecientes al programa de TB en el distrito capital, a partir de los determinantes sociales en salud contenidos en el sistema de información. Para ello se desarrollaron cuatro tipos de algoritmos de aprendizaje automático supervisado con diferentes técnicas de remuestreo para balancear las clases y se aplicaron diferentes técnicas para seleccionar variables predictoras incidentes en la pérdida de seguimiento. Como resultado se obtuvo un modelo de XGBoost con buen desempeño en las métricas sensibilidad, exactitud y AUC; con el cual se puede brindar un apoyo al personal de salud que hace parte de los programas locales de tuberculosis y del distrito para identificar de forma temprana a este tipo de pacientes.Item Desarrollo de modelo de machine learning para la identificación de correlaciones entre genotipo y fenotipo de individuos con síndrome de Prader-Willi(Pontificia Universidad Javariana Cali, 2025) Romero Bernal, Daniel Felipe; Tafur Jiménez, Luis Alberto; Tobar Tosse, FabiánEl presente proyecto aborda el Síndrome de Prader-Willi (SPW), un trastorno genético complejo asociado a alteraciones en la impronta genómica de la región cromosómica 15q11-q13, que se caracteriza por un amplio espectro de manifestaciones clínicas, incluida la obesidad severa. A pesar de los avances en diagnóstico genético, persisten limitaciones significativas en la comprensión de cómo las modificaciones genéticas y epigenéticas contribuyen a las características fenotípicas del SPW. El objetivo principal fue desarrollar un modelo de Machine Learning (ML) para identificar correlaciones entre genotipo y fenotipo, utilizando datos genéticos y epigenéticos. Para ello, se integraron diversas fuentes de datos públicos, creando un conjunto de datos consolidado que permitió representar mejor las manifestaciones clínicas asociadas al síndrome. Se construyeron y evaluaron tres modelos de ML, seleccionados por su capacidad para manejar relaciones complejas entre variables y garantizar interpretabilidad. Las métricas de evaluación, como precisión, sensibilidad y f1-score, fueron ajustadas mediante la optimización de parámetros y la mejora del procesamiento de datos. A pesar de las limitaciones inherentes al tamaño y calidad de la base de datos, los resultados del proyecto muestran que el enfoque propuesto es prometedor para inferir el fenotipo dado por cambios en los perfiles de metilación, a partir de las características genómicas en pacientes con SPW. Estos hallazgos podrían facilitar tanto el desarrollo de tratamientos personalizados como la identificación temprana del síndrome. En última instancia, la identificación precisa de correlaciones genotípicas y fenotípicas contribuye significativamente a una mejor comprensión de los mecanismos moleculares subyacentes del SPW y sus posibles implicaciones terapéuticas.Item Identificación de la actividad de la toxoplasmosis ocular mediante distintas redes neuronales convolucionales(Pontificia Universidad Javariana Cali, 2025) Mejía Salgado, Germán Alberto; Olarte Zuluaga, Juliana Andrea; Raigoso Espinosa, Juan David; Vargas Cardenas, Hernán DaríoEste proyecto se centró en la aplicación de redes neuronales convolucionales (CNN) para la identificación automática de la actividad de la toxoplasmosis ocular (TO) en imágenes de fondo de ojo. La TO es una causa significativa de discapacidad visual severa. La importancia de este proyecto radica en su potencial para mejorar el diagnóstico y tratamiento de la TO, especialmente en áreas con acceso limitado a especialistas en oftalmología. Los objetivos específicos incluyeron la gestión de una base de datos de imágenes de fondo de ojo, el entrenamiento de CNN’s para identificar la actividad de la TO, y la evaluación del rendimiento de estas técnicas de clasificación. Se aplicó transfer learning con 3 CNN que previamente han sido utilizadas en tareas de clasificación médica (ResNetV2, VGG16, InceptionV3) y se realizaron dos arquitecturas de CNN propias; obteniendo el mejor resultado priorizando una alta sensibilidad hacia la clase activa con una ResNetV2 con 10 épocas, función de activación ReLU, optimizador Adam, Tasa de aprendizaje 1e-4, Tamaño de lote de 32 y utilizando técnicas de balanceo de datos como Synthetic Minority Over-sampling Technique (SMOTE) y data augmentation. Obteniendo una exactitud (accuracy) del modelo de 0.81 ± 0.02. Para la clase activa una sensibilidad de 0.9 ± 0.06, una especificidad de 0.69 ± 0.08 y un F1 Score de 0.77 ± 0.02; mientras que, para la clase inactiva, una sensibilidad de 0.77 ± 0.07, especificidad de 0.91 ± 0.03 y F1 score de 0.84 ± 0.03 Este proyecto demuestra la capacidad de la inteligencia artificial y las CNN en clasificar lesiones retinocoroideas de TO activas o inactivas, facilitando así la toma de decisiones terapéuticasItem Modelo espacio temporal para la predicción de la demanda de emergencias médicas en Bogotá(Pontificia Universidad Javariana Cali, 2024) Mendoza Bautista, Wendy Dayanna; Amaya Garzón, Andrea Estefanía; Riaño Sepúlveda, Milena Andrea; Paz Roa, Juan CamiloBogotá, con más de siete millones de habitantes, enfrenta importantes desafíos en la eficiencia de su sistema de servicios de emergencia. A pesar de contar con 873 ambulancias, la congestión vehicular y la alta demanda provocan tiempos de respuesta superiores a los estándares internacionales. Este trabajo aborda preguntas clave como la identificación de datos relevantes, la selección y evaluación de modelos predictivos, y la representación efectiva de los resultados con el fin de mejorar la asignación de recursos y optimizar la calidad del servicio. El proyecto propone el diseño de un modelo predictivo espaciotemporal para prever la demanda diaria de servicios de emergencias en Bogotá. Se exploran diversos algoritmos de aprendizaje automático y modelos estadísticos, incluidos XGBoost, Random Forest, Redes Neuronales, y modelos de distribución Binomial Negativa, para capturar las dinámicas espaciotemporales. Los resultados esperados incluyen una base de datos completa y validada, una evaluación comparativa de modelos, el desarrollo de un modelo de pronóstico que contribuya a la reducción significativa de los tiempos de respuesta, y un tablero de control interactivo que presente pronósticos detallados.Item Predicción de la tasa de dengue a través de métodos de machine learning en el Valle del Cauca(Pontificia Universidad Javariana Cali, 2024) Cifuentes Rodríguez, Víctor Hugo; Ibarra Calvache, María Alejandra; Díaz Barrios, Gregory David; Ortega Lenis, DeliaEl dengue es una enfermedad viral transmitida por la picadura de un mosquito de la especie Aedes infectado, lo que tiene implicaciones directas en la salud pública en distintas poblaciones a nivel mundial. Esta enfermedad, ha tenido impacto negativo en el Valle del Cauca, reportando 8.074 casos y 23 muertes probables por dengue en el año 2021, según la Gobernación Departamental. No obstante, el proceso actual para el monitoreo de esta enfermedad tiene un alto nivel de manualidad, lo que prolonga los tiempos de respuesta y prevención efectiva. Estudios previos demostraron que la enfermedad está influenciada por condiciones climáticas y sociales, lo que ha permitido acercarse a modelos basados en estadística clásica para relacionar el riesgo de propagación del virus con estas variables, pero con limitaciones teórico-prácticas. El objetivo del proyecto aplicado es predecir la tasa de dengue de dengue en los 42 municipios del Valle del Cauca, utilizando Machine Learning. Los resultados muestran que el comportamiento de la enfermedad es diferencial en cuatro municipios del Departamento, incluyendo su capital, Cali.Item Implementación de machine learning para la estimación del riesgo de fuga de los clientes en empresa de la industria del retail de moda en Colombia(Pontificia Universidad Javariana Cali, 2024) Elorza Velásquez, Sebastián; Mosquera Valencia , Diego FernandoEl trabajo de grado presentado, titulado "Implementación de Machine Learning para la Estimación del Riesgo de Fuga de los Clientes en una Marca de una Empresa de la Industria del Retail de Moda en Colombia", tiene como objetivo principal desarrollar una herramienta predictiva que permita identificar los clientes con mayor probabilidad de abandonar la marca. Esto se busca lograr mediante la aplicación de técnicas de machine learning que analicen el comportamiento de los clientes, sus hábitos de compra y las interacciones con la empresa. El problema central identificado es que la empresa del caso de estudio, Chevignon, sufre una pérdida significativa de clientes cada año, lo que afecta tanto los ingresos como la percepción de marca. En respuesta a esta problemática, se propuso utilizar datos históricos y técnicas de aprendizaje automático para predecir el riesgo de abandono y así mejorar las estrategias de retención.El modelo de predicción desarrollado emplea varios algoritmos, entre ellos XGBoost, Random Forest, Support Vector Machines (SVM) y redes neuronales artificiales (ANN). Los resultados muestran que el modelo XGBoost obtuvo el mejor desempeño con una precisión del 86.18% y una sensibilidad del 88.35%, lo que lo convierte en la herramienta más adecuada para predecir la fuga de clientes. La capacidad de predecir el abandono permitió a la empresa implementar acciones proactivas, como ofertas personalizadas y programas de fidelización, lo que ayudará a reducir la pérdida de clientes. El trabajo también enfatiza la importancia de la limpieza y la preparación de los datos, destacando la necesidad de eliminar variables altamente correlacionadas que podrían afectar la precisión del modelo. A lo largo del proceso, se evaluó la importancia de las variables en el modelo, identificándose que factores como la permanencia del cliente y el tiempo en la marca son determinantes en la predicción del abandono. En cuanto a trabajos futuros, se sugiere continuar optimizando los modelos mediante la incorporación de nuevas variables, el ajuste de hiperparámetros y la experimentación con otros algoritmos, como redes neuronales profundas o técnicas de ensamblado de modelos. También se propone investigar la posibilidad de implementar el modelo en tiempo real y personalizar las estrategias de retención en función del perfil y comportamiento de los clientes. En conclusión, este trabajo ofrece una herramienta valiosa para la marca, que, al predecir el riesgo de abandono, permitirá a la empresa tomar decisiones más informadas y estratégicas para mejorar la retención de clientes, reduciendo costos asociados y aumentando la competitividad en un mercado en constante cambio.Item Comparación de metodologías PEFT aplicadas a modelos de lenguaje grandes enfocados en generar resúmenes de textos(Pontificia Universidad Javariana Cali, 2024) Barrera Sáenz, Sebastián; Arévalo Rodríguez, Carlos Andrés; Flórez Pazos, Bryan Stiven; Castaño Idárraga, Omar AndrésLa generación automática de resúmenes de texto ha emergido como un área clave dentro del Procesamiento de Lenguaje Natural (PLN). Este proyecto busca mejorar esta tarea mediante el uso de metodologías de ajuste eficiente de parámetros (PEFT) aplicadas a modelos de lenguaje grandes (LLM). Estas técnicas de ajuste fino adaptan modelos pre-entrenados a la tarea específica de resumen, optimizando su rendimiento en términos de coherencia y precisión. Esto permite simplificar la comprensión de grandes volúmenes de información, facilitando la toma de decisiones en distintos sectores. El desafío principal radica en producir resúmenes precisos en entornos complejos, donde los métodos tradicionales encuentran limitaciones. Las metodologías PEFT mejoran tanto la eficiencia computacional como la adaptabilidad de los modelos a distintos dominios y estilos textuales, generando resúmenes más contextuales y relevantes. Este estudio busca, además, optimizar el rendimiento de los modelos reduciendo la necesidad de grandes conjuntos de datos y costos computacionales, sin comprometer la calidad del resumen. La comparación de varias metodologías PEFT permite identificar cuáles son más efectivas para ajustar modelos de lenguaje en la tarea de resumen, logrando un balance entre eficiencia y calidad. Los resultados obtenidos proporcionarán una guía para futuras aplicaciones en sectores que requieren procesar grandes volúmenes de texto, permitiendo seleccionar el método más adecuado según los recursos disponibles y el tipo de texto.Item Modelo predictivo de machine learning para otorgar créditos a afiliados reportados negativamente(Pontificia Universidad Javariana Cali, 2024) Reina Torres, María José; Torres Valencia, CristianEste proyecto ha culminado en la creación de un modelo predictivo de Machine Learning que identifica potenciales beneficiarios de créditos entre los afiliados de una entidad de bienestar familiar en Colombia, minimizando el riesgo para la compañía. El objetivo principal era ampliar el acceso a servicios crediticios, promoviendo el bienestar de un mayor número de afiliados. Este avance es especialmente relevante para la compañía, ya que los nuevos modelos de otorgamiento de crédito han facilitado el acceso a poblaciones previamente desatendidas. Este enfoque resuena con la misión organizacional de la entidad, al priorizar a personas que podrían no ser el mercado objetivo de otras entidades, pero que representan un valor significativo para esta organización. Esta iniciativa no solo expande el alcance de la compañía, sino que también fortalece su compromiso social. Además de su impacto social, este proyecto ha optimizado la toma de decisiones crediticias, proporcionando un enfoque más preciso y equitativo. Al innovar en la evaluación de riesgos, contribuye a la mejora continua de los procesos internos y a la excelencia operativa de la organización. Esta versión destaca los logros del proyecto de una manera más concisa y estructurada, resaltando su impacto tanto en términos de misión organizacional como en eficiencia operativa.Item Modelo de predicción de precipitación acumulada para un departamento de Colombia por medio de la implementación de redes neuronales recurrentes (LSTM) e integración de datos satelitales.(Pontificia Universidad Javariana Cali, 2024) Mendoza García, María Camila; Lafaurie Suárez, Jonathan Andrés; Gómez Sepúlveda, Jorge Iván; Arango Londoño, DavidEste proyecto se enfoca en la predicción de la precipitación acumulada en el departamento del Valle del Cauca en Colombia, catalogada como una región que está altamente influenciada por factores climáticos variables dada su geografía y la ocurrencia de fenómenos temporales como “La Niña” o “El Niño”, los cuales generan cambios en los niveles de precipitación y afectan significativamente diversos sectores como la agricultura, la ganadería, el transporte y la economía en general. Dado esto, se desarrolla un modelo predictivo que hace uso de redes neuronales recurrentes (LSTM), a partir de información de precipitación observada (medidas terrestres) y satelital. Este enfoque, permite superar los limitantes de otros métodos convencionales de series de tiempo y, de esta forma, mejorar la precisión y el rendimiento de los modelos actuales. Los objetivos específicos en este proyecto incluyen factores como la selección del departamento más idóneo para la investigación, el análisis temporal y espacial de la base de datos empleada para el estudio, la instauración y evaluación del modelo LSTM y la comparación con otros modelos tradicionales de series de tiempo. Todo esto, está encaminado para el desarrollo de un modelo de predicción que logre estimaciones de la precipitación semanal acumulada. El proyecto, tiene como valor agregado la integración de información satelital por medio del procesamiento de imágenes satelitales y su potencial, radica en su aplicación en futuras investigaciones que puedan convertirla en un recurso valioso para diferentes agentes y autoridades relacionadas con el clima y la meteorología. Además, se aspira a que pueda escalarse hacia otras regiones del país, contribuyendo al manejo adecuado de recursos y la planificación meteorológica.Item Predicción de desenlaces de pacientes de emergencias atendidas por hospitales nivel I y II en el Valle del Cauca(Pontificia Universidad Javariana Cali, 2024) Castañeda González, Luis Carlos; Gallego Paz, Sonia Yurany; León Tabares, Juan José; Paz Roa, Juan CamiloEste proyecto parte de la problemática de la sobreocupación en los servicios de urgencias y la necesidad de optimizar la atención al paciente, agilizando la toma de decisiones en este entorno crítico. El servicio de urgencias inicia con una valoración de Triage al momento de la llegada del paciente, posteriormente, el paciente pasa a la valoración inicial por parte de un médico tratante que determina el manejo del paciente. Durante la atención, los pacientes terminan su servicio con uno de varios desenlaces que puede ser entre otros: 1) Alta de urgencia, 2) hospitalización, 3) remisión normal, 4) remisión prioritaria y 5) remisión urgente. Este proyecto aplicado propone un modelo de aprendizaje automático que puede apoyar al personal médico en su predicción de los desenlaces clínicos, y de esta manera contribuir a una mejor toma de decisiones de alta de urgencias, hospitalización o remisión a un nivel superior de complejidad. La implementación de este modelo en la valoración inicial podría contribuir a la optimización de la atención a los pacientes al agilizar las decisiones de traslados, minimizar errores humanos, y aliviar la fatiga cognitiva de los médicos. Se emplearon tres modelos de aprendizaje automático: Regresión Logística Multinomial (RLM), Máquinas de Soporte Vectorial (SVM) y Extreme Gradient Boosting (XGBoost). El rendimiento se evaluó con métricas como precisión, sensibilidad y F1-score. Se incluyó un análisis de texto utilizando TF-IDF para enriquecer los datos y mejorar la precisión del modelo. Se encontró que tanto RLM como SVM mostraron limitaciones en la predicción de clases minoritarias, como la necesidad de hospitalización o remisión. El modelo XGBoost, potenciado con análisis de texto, obtuvo el mejor rendimiento, mejorando la precisión, especialmente en la predicción de clases minoritarias. Los resultados obtenidos confirman que la inclusión de información textual permite mejorar la predicción. Asimismo, evidencian las limitaciones de RLM y SVM en conjuntos de datos desbalanceados y destaca la superioridad de XGBoost y otros algoritmos avanzados. Los resultados obtenidos se alinean con la literatura, que también evidencia las limitaciones de RLM y SVM en conjuntos de datos desbalanceados y destaca la superioridad de XGBoost y otros algoritmos avanzados. Este proyecto de ciencia de datos contribuye al desarrollo de herramientas que pueden ayudar a optimizar la atención en urgencias, mejorando la toma de decisiones, la asignación de recursos y la calidad del servicio. A futuro, se propone validar los modelos en otros contextos e incorporar nuevas variables para mejorar aún más la predicción.