Maestría en Ciencia de Datos
Permanent URI for this collection
Browse
Recent Submissions
Item Proyecto reteniendo futuros: un enfoque predictivo con Machine Learning para mejorar la retención estudiantil(Pontificia Universidad Javeriana Cali, 2025) Botero Ramírez, Sandra Paola; Arango Londoño, DavidLa deserción estudiantil universitaria constituye un desafío global con repercusiones negativas en el desarrollo social y científico a nivel nacional o regional. Las Instituciones de Educación Superior (IES) asumen la responsabilidad de abordar y prevenir este problema. Este estudio presenta un marco conceptual de la deserción universitaria, fundamentado en investigaciones que emplean enfoques cualitativos y cuantitativos, haciendo uso de la ciencia de datos. En este contexto, se lleva a cabo un análisis exploratorio descriptivo de los datos recopilados mediante el instrumento de caracterización correspondiente a los periodos académicos desde 2017-1 hasta 2021-2. El análisis se centra en comprender y examinar el fenómeno de la deserción entre los estudiantes que contestaron la encuesta de caracterización en dichos periodos. Finalmente, se procede a entrenar diversos modelos de Machine Learning, entre los que se incluyen la regresión logística, las máquinas de soporte vectorial, los bosques aleatorios de decisión y las redes neuronales simples. Estos modelos tienen la capacidad de prever y emitir alertas sobre posibles riesgos de deserción en los programas académicos de la universidad. Este enfoque proactivo permite a las instituciones tomar medidas preventivas y proporcionar apoyo personalizado a los estudiantes en riesgo, contribuyendo así a mejorar las tasas de retención y el éxito académico.Item Modelo predictivo del tráfico de redes de comunicación 4g en eventos culturales o sociales en municipios intermedios de Cundinamarca(Pontificia Universidad Javeriana Cali, 2024) Balaguera Cubillos, Wilson Edilberto; González Torres, Paula Ginette; Tobón Llano, Luis EduardoEste trabajo aborda la problemática de la saturación de redes móviles en eventos sociales y culturales, que afecta la calidad del servicio en zonas de mediana población en los municipios de Cundinamarca. El objetivo principal es desarrollar un modelo de predicción que permita anticipar el comportamiento del tráfico en las estaciones base 4G durante estos eventos, garantizando así la continuidad del servicio y mejorando la experiencia del usuario. El proyecto se centra en la recopilación de fuentes técnicas, gubernamentales y estatales con el fin de generar análisis de datos históricos de tráfico de red y en la identificación de patrones asociados a eventos relevantes en el departamento. La metodología utilizada incluye técnicas de minería de datos, web scraping para la recolección de información sobre festividades, y el uso de modelos de series temporales como Facebook Prophet, redes neuronales y modelos combinados (NeuralProphet) para mejorar la precisión en las predicciones. Los resultados obtenidos permiten proyectar aumentos de tráfico en fechas específicas, lo cual facilita la planificación de medidas preventivas y el ajuste de la infraestructura de red. El modelo propuesto demuestra ser eficaz en la detección de tendencias y patrones estacionales, lo que contribuye a la optimización del servicio y la reducción de problemas de saturación cuando se realizan eventos en dichos municipios. En conclusión, este proyecto ofrece una herramienta que le permite a las empresas de telecomunicaciones, conocer el comportamiento de la red en diferentes eventos que se realizan en los municipios de Colombia y así enfocar y proporcionar un enfoque proactivo en la gestión de la red, especialmente en contextos de alta demanda.Item Clasificación de datos MOCAP sobre una disciplina deportiva usando modelos de Machine Learning(Pontificia Universidad Javeriana Cali, 2024) García Moncayo, Mario Fernando; Valencia Marín, Cristhian KaoriEste proyecto analiza en profundidad los datos capturados para clasificar categorías de movimiento en jugadores de tenis, utilizando herramientas de reconocimiento de actividades humanas (HAR) y captura de movimiento (MOCAP). Con un enfoque en los jugadores de la liga de tenis de Caldas, se busca detectar y extraer datos precisos sobre la posición y orientación de los atletas durante diversas acciones deportivas. Los datos, que fueron previamente obtenidos y organizados sin necesidad de una recolección nueva, están en formato BVH (Biovision Hierarchy), lo que permite representar con detalle la estructura y cinemática del cuerpo humano en movimiento. La investigación emplea modelos avanzados de aprendizaje automático para clasificar y analizar patrones biomecánicos en el tenis, con técnicas como el análisis de componentes principales (PCA) y algoritmos de clasificación para diferenciar movimientos específicos como golpes de derecha, reveses y servicios. Este enfoque facilita el estudio de variaciones entre jugadores en términos de eficiencia técnica y biomecánica. El objetivo final es proporcionar una base para recomendaciones personalizadas que optimicen el entrenamiento, permitiendo a entrenadores y jugadores ajustar técnicas y estrategias. Así, el proyecto tiene el potencial de ofrecer una herramienta para análisis deportivo avanzadoItem Generación de noticias a partir de conjuntos de datos económicos utilizando técnicas de inteligencia artificial y aprendizaje automático(Pontificia Universidad Javeriana Cali, 2025) López Gómez, David Leonardo; Bejarano Bejarano, Luis Vidal; Linares Ospina, Diego Luis; Álvarez Vargas, Gloria InésEn el contexto actual de rápida generación de datos económicos, surge el desafío de transformar conjuntos de datos complejos en información accesible y comprensible. Esta investigación aborda esta problemática mediante el uso de técnicas de inteligencia artificial (IA) y aprendizaje automático (AA) para la generación automatizada de noticias basadas en procesamiento de lenguaje natural (PLN). Aquí, el problema radica en la ineficiencia de los métodos tradicionales de análisis de datos frente al volumen y la complejidad de la información económica contemporánea. Además, los medios de comunicación enfrentan una creciente demanda de entrega rápida y precisa de contenidos, lo que presenta desafíos significativos en términos de costos y operatividad. Para abordar estos retos, se desarrolló un sistema basado en los modelos T5 y GPT-2, ambos con arquitecturas de tipo transformer. Los datos económicos fueron preprocesados, limpiados y estructurados para entrenar los modelos. Se realizaron ajustes utilizando hiperparámetros optimizados y métricas de evaluación como BLEU, BERTScore y perplejidad, con el objetivo de medir la calidad de los textos generados. Los resultados mostraron que el modelo T5 superó al GPT-2 en precisión, coherencia y fluidez del texto generado, logrando un BLEU de 0.14, un BERTScore promedio (F1) de 0.83 y una perplejidad de 1.11 tras la optimización. En comparación, el GPT-2 alcanzó un BLEU de 0.15, un BERTScore promedio (F1) de 0.70 y una perplejidad de 12.75. Estas métricas indican que el T5 es más adecuado para generar textos complejos y altamente estructurados, mientras que el GPT-2 destaca en tareas donde se requiere mayor creatividad y generación de contenido más diversificado. El resultado de esta investigación, aporta un avance en la transformación de datos económicos en contenido informativo, reduciendo costos y tiempos asociados a los procesos tradicionales. La solución propuesta se presenta como una herramienta prometedora para democratizar el acceso a información económica y apoyar la toma de decisiones en entornos dinámicos.Item Clasificación de los estudiantes de pregrado de acuerdo a su rendimiento académico y su uso para la predicción del éxito de su formación profesional(Pontificia Universidad Javeriana Cali, 2023) López Silva, Carolina; Mosquera Valencia, Diego Fernando; Cortés Rodríguez, Mauricio JoséEn Colombia, se estima que alrededor de la mitad de los estudiantes que inician un proceso de formación superior, lo finalizan. Este comportamiento también se da en la Pontificia Universidad Javeriana Cali, por lo cual, una forma en la que se podría aportar a la solución de esta problemática es con el desarrollo de este proyecto aplicado, donde primero se planteó encontrar las diferentes tipologías de los estudiantes a partir de su rendimiento académico, y un modelo que predice dichas tipologías, y de esa forma se consolide un proceso de analítica que le brinde información a la Universidad, para incidir en el éxito académico, es decir la culminación de los estudios, de sus estudiantes.Item Aprendizaje automático aplicado al diagnóstico de la ocurrencia de la leishmaniasis a través de imágenes de lesiones cutáneas(Pontificia Universidad Javeriana Cali, 2023) Castro Duarte, Camilo; Linares Ospina, Diego Luis; Gómez, María AdelaidaEste proyecto buscó aplicar técnicas de aprendizaje automático específicamente Redes Neuronales Convolucionales, para predecir si una lesión de tipo cutánea corresponde o no a la enfermedad de la Leishmaniasis, evaluación que no resulta tan simple mediante observación debido a la similitud con otros tipos de lesiones, para ello, se entrenaron modelos predictivos mediante una base de datos con 885 imágenes de lesiones cutáneas (407 correspondientes a Leishmaniasis y 478 correspondientes a otras lesiones cutáneas), las imágenes de Leishmaniasis fueron suministradas por el CIDEIM (Centro Internacional de Entrenamiento e Investigaciones Médicas). Durante el desarrollo del proyecto se trabajaron diferentes etapas como es el caso de la limpieza y adecuación de la base de datos de imágenes, selección y entrenamiento de los modelos, contraste de resultados y la identificación del modelo más adecuado. Los resultados arrojados por los diferentes experimentos y sus respectivas métricas permitieron establecer cuál es el modelo más adecuado para hacer la predicción, de esta forma es posible hacer un diagnóstico previo de la lesión del paciente sin siquiera estar este de cuerpo presente, también permite ayudar a personal de la salud que no tiene tanta experiencia en este tipo de lesiones a despejar dudas y tomar medidas. De esta forma se le da paso a diferentes posibilidades de aplicación del algoritmo desarrollado dentro del campo médico, como es el caso de integraciones futuras con aplicativos móviles o desarrollos web, esto puede facilitar el análisis de las lesiones de los pacientes de manera remota y de una forma ágil.Item Pronóstico del patrón de arribo de contactos en una Línea de BPO(Pontificia Universidad Javeriana Cali, 2024) Solís Padilla, Johnattan; García Arboleda, Isabel CristinaEste proyecto consiste en el desarrollo de un modelo de pronóstico para la predicción del patrón de arribo de llamadas en una línea telefónica de atención al cliente, y la implementación de este modelo en una solución de analítica avanzada. Uno de los principales retos en la administración de las líneas de atención telefónica es predecir el volumen de contactos que serán atendidos con una proyección a largo plazo, mediano plazo y en tiempo real; esto es requerido para poder generar los planes de contratación de personal, configuración de horarios y toma de decisiones en tiempo real con respecto a cuando sacar o meter agentes de la línea. Actualmente, la empresa en estudio desarrolla estas estimaciones de una forma empírica o con técnicas poco avanzadas e imprecisas. Con este proyecto se pretende establecer el modelo de pronóstico más apropiado para predecir el patrón de arribo de contactos, evaluando modelos estadísticos y de aprendizaje automático para posterior implementar una solución de analítica avanzada que le permita a la administración de la línea tener una vista del pronóstico a mediano plazo (2 meses), corto plazo (entre mes) y tiempo real (entre día) de las llamadas que ingresarán a la línea. Este proyecto será aplicado a una línea de soporte de una cuenta anónima, pero se espera que su aplicabilidad se extienda a las más de 250 líneas que opera la empresa de BPO más grande en Colombia y una de las más grandes del mundo.Item Detección de fenómenos territoriales en Santiago de Cali a partir de imágenes VHR(Pontificia Universidad Javeriana Cali, 2024) Cardona Hansen, Fernando; Sarria Montemiranda, Gerardo MauricioLas imágenes satelitales son una fuente de datos alternativa en proyectos de ciencia de datos adelantados dentro del sector público en Colombia. Los asentamientos informales son fenómenos propios del crecimiento urbano caracterizados por la concurrencia de condiciones físicas y sociales deficitarias como población en condiciones de vulnerabilidad y falta de acceso a infraestructura de servicios públicos básicos. El uso de imágenes satelitales para identificar y mapear eventos de interés territorial como los asentamientos informales, constituye una alternativa para la implementación de acciones gubernamentales oportunas que sustituyan las medidas reactivas. El proyecto “Detección de fenómenos territoriales en Santiago de Cali usando imágenes VHR” tiene el propósito de desarrollar un modelo de aprendizaje profundo para la detección de asentamientos informales en imágenes satelitales del perímetro urbano de Cali, que contribuya a identificación de este fenómeno por parte de la administración municipal.Item Predicción de deserción de clientes en planes de previsión exequial utilizando técnicas de aprendizaje automático(Pontificia Universidad Javeriana Cali, 2024) Cortés Cataño, Carlos Felipe; Mora Cañas, Carlos Luis; González Gómez, Daniel EnriqueEl presente proyecto evaluó varias técnicas de clasificación para identificar los clientes propensos a presentar deserción en contratos de previsión exequial en una compañía funeraria para después de comparar varias técnicas, seleccionar la técnica de aprendizaje automático “XGBoost”. La retención de clientes es esencial para la competitividad, cobertura y rentabilidad de esta empresa, y mediante la aplicación de este modelo, se logra un “recall” equivalente al 89%, permitiendo la identificación de 578 contratos propensos a desertar. Esto proporciona a la funeraria una buena alternativa para implementar estrategias más precisas y dirigidas a retener sus clientes, contribuyendo así a sus objetivos de crecimiento y éxito a largo plazo.Item Sistema de reconocimiento de la estructura cerebral Cavum Septum Pellucidum basado en Deep Learning para el análisis de anomalías del desarrollo en imágenes de ultrasonido fetal en 2D(Pontificia Universidad Javariana Cali, 2025) Cifuentes Ortega, Milton Fabián; Torres Valencia, Cristian AlejandroEn este proyecto se presenta el diseño, desarrollo e implementación de un sistema de reconocimiento basado en Deep Learning para la detección de la estructura craneal en fetos llamada Cavum Septum Pellucidum sobre imágenes de ultrasonido 2D, el cual tiene como objetivo colaborar con el sector salud en la detección temprana de anormalidades prenatales, debido a que este tipo de inconvenientes son muy comunes en el desarrollo del feto y así se podría reducir los índices de mortalidad en recién nacidos. Para el desarrollo del sistema se llevaron a cabo tareas de selección de criterios de recolección y procesamiento de las imágenes de ultrasonido fetal en 2D, además de la identificación de métricas de evaluación para la clasificación de normalidad o anormalidad. Estos modelos podrían ser aplicado a cualquier proceso de seguimiento prenatal donde se tomen imágenes de ultrasonidos para el control del crecimiento del feto. Las anormalidades detectadas podrían ayudar a diagnosticar posibles enfermedades tales como holoprosencefalia, displasia septo-óptica, agenesia de cuerpo calloso, enfermedad de Alexander, esclerosis tuberosa, facomatosis, pinealoma, trisomía del par y esquisencefalia. Teniendo en cuenta todo lo anterior se obtuvo como resultado final de este proyecto dos modelos; El primer modelo se centró en el reconocimiento de los planos craneales y se obtuvo un 99% de accuracy. Por otro lado, el segundo modelo se dividió por plano cerebral (Trans-Ventricular, Trans-Thalamic y Trans-Cerebellum) y se creó específicamente cada uno de ellos enfocados en la identificación de la estructura cerebral Cavum Septum Pellucidum, obteniendo como resultado final un 88.8%, 91% y 95.1% de Curva AUC ROC respectivamente.Item Predicción de tasa de interés y su relación con los indicadores económicos mediante Ciencia de Datos(Pontificia Universidad Javariana Cali, 2024) Meza Pastrana, Sebastián Javier; Arango Londoño, DavidEl presente proyecto aborda la predicción de la Tasa de Intervención de Política Monetaria en Colombia, una variable crucial para la estabilidad macroeconómica y la toma de decisiones en política económica. Dada la relevancia de esta tasa para regular la liquidez, influir en las decisiones de inversión y financiamiento, y estabilizar los precios, se exploraron enfoques avanzados de predicción mediante modelos de Machine Learning, contrastándolos con un modelo econométrico tradicional de regresión lineal múltiple. La problemática identificada radica en las limitaciones de los enfoques econométricos lineales para capturar relaciones no lineales y manejar conjuntos de datos de alta dimensionalidad. Con base en esta problemática, el proyecto tuvo como objetivos principales identificar las variables macroeconómicas más relevantes, evaluar la precisión de diferentes algoritmos de Machine Learning (Ridge, Lasso, Random Forest, XGBoost y SVR) y comparar su desempeño con el modelo econométrico. Los resultados evidenciaron que los modelos de Machine Learning, en particular XGBoost y Random Forest, lograron un mejor desempeño predictivo con errores promedio más bajos (MSE de 0.11 y 0.16, respectivamente) y mayor capacidad explicativa (R² superior a 0.97 en prueba). Por otro lado, el modelo econométrico, aunque respaldado por fundamentos teóricos sólidos, se quedó corto en precisión y capacidad para capturar patrones complejos, presentando autocorrelación y heterocedasticidad en los residuos. Además, se implementaron herramientas como SHAP para mejorar la interpretabilidad de los modelos avanzados, identificando las variables macroeconómicas más influyentes en las predicciones. Este análisis integral no solo subraya la relevancia de la tasa de política monetaria para la estabilidad económica, sino que también demuestra la importancia de integrar métodos avanzados para lograr predicciones precisas y proporcionar herramientas útiles para la toma de decisiones en entornos de alta incertidumbre. Las aplicaciones de este trabajo incluyen el fortalecimiento de la planificación financiera y el diseño de políticas públicas más informadas, así como la mejora en la gestión de riesgos económicos en sectores como el financiero y el empresarial. Los hallazgos refuerzan la necesidad de métodos modernos en el análisis de variables clave para enfrentar los retos dinámicos de las economías modernasItem Análisis de imágenes satelitales para la clasificación de ecosistemas en predios(Pontificia Universidad Javariana Cali, 2024) Quiroz Moscarella, Roberto Enrique; Santos Peñuela, Francisco José; Castaño Idárraga, Omar AndrésEl proyecto aplicado se centra en la segmentación de imágenes satelitales de predios para identificar ecosistemas. Aborda la problemática del trabajo manual requerido para segmentar zonas en imágenes, especialmente en la elaboración de proyectos de bonos de carbono. Se desarrolló un algoritmo funcional que permita a los investigadores segmentar grandes extensiones de tierra de manera eficiente, reduciendo el tiempo necesario para esta tarea. Los resultados obtenidos permiten la automatización del proceso de segmentación, particularmente sobre zonas verdes y cuerpos de agua permitiendo la evaluación de su extensión. Las posibles aplicaciones de este proyecto abarcan la investigación ambiental, la planificación del uso del suelo y la gestión de recursos naturales.Item Predicción del gasto de bolsillo en salud de los hogares en Colombia usando modelos de aprendizaje automático(Pontificia Universidad Javariana Cali, 2024) Parada Portilla, Juan Sebastián; Ortega Lenis, DeliaEste trabajo desarrolla modelos de aprendizaje automático para predecir el gasto de bolsillo en salud de los hogares colombianos. Utilizando datos de la Encuesta de Calidad de Vida (ECV), se identificaron variables clave como la presencia de enfermedades crónicas en el hogar, el ingreso del hogar, el tamaño del hogar, el estado de salud y la afiliación al sistema de seguridad social. Inicialmente, se exploraron modelos de regresión, pero debido a la alta proporción de valores nulos (85\% de los hogares no reportan gasto en salud), su desempeño fue limitado. Para abordar este problema, se transformó la variable dependiente en una binaria y se aplicaron modelos de clasificación, incluyendo Random Forest, Gradient Boosting y regresión logística, optimizados con la técnica SMOTE para balancear las clases. Los resultados muestran que los modelos de clasificación superan a los de regresión, con Random Forest y Gradient Boosting logrando los mejores desempeños en términos de ROC AUC. Este estudio proporciona herramientas útiles para el diseño de políticas públicas basadas en evidencia, permitiendo identificar hogares con mayor riesgo de incurrir en altos gastos en salud y facilitando intervenciones para reducir el impacto financiero en las familias colombianas.Item “Diseminación selectiva de la información usando ciencia de datos: recomendación de libros y lecturas en las bibliotecas Comfama”(Pontificia Universidad Javariana Cali, 2024) Bedoya Henao, Edwin José; Álvarez Vargas, Gloria Inés; Linares Ospina, Diego LuisEste proyecto se enfoca en el desarrollo de un sistema de recomendación de libros para las Bibliotecas Comfama, con el objetivo de mejorar la experiencia de los usuarios al proporcionar sugerencias personalizadas basadas en sus preferencias de lectura y comportamiento histórico. La relevancia del proyecto radica en abordar el problema de la infoxicación, o sobrecarga de información, en un entorno donde la vasta cantidad de materiales disponibles dificulta la selección de lecturas adecuadas para cada usuario. El sistema de recomendación se construyó utilizando técnicas avanzadas de ciencia de datos, como modelos de agrupación (K-Means) y representaciones vectoriales de libros mediante Word2Vec, lo que permite identificar patrones de lectura y preferencias individuales. A partir de esta estructura, se generaron recomendaciones altamente precisas y personalizadas que optimizan el servicio de préstamo de las Bibliotecas Comfama, aumentando así la satisfacción de los usuarios. El sistema se fundamenta en una estructura de datos que integra tanto características demográficas como el historial de préstamos y consultas de cada usuario, lo que facilita la identificación de perfiles de lectores y la agrupación de usuarios con intereses similares. Como resultado, el proyecto ofrece un sistema innovador que promueve el uso más frecuente y eficiente de los servicios bibliotecarios, fortaleciendo el papel de las bibliotecas en la promoción de la cultura y el conocimiento. Este enfoque tiene aplicaciones potenciales más allá del ámbito bibliotecario, con posibilidades de implementación en sectores como el comercio electrónico o la selección de contenido digital, aprovechando las capacidades de la ciencia de datos para anticipar y satisfacer las preferencias individuales de los usuarios.Item Estimación del precio de renta en predios rurales mediante modelación espacial en Colombia.(Pontificia Universidad Javariana Cali, 2024) Salgado Ramírez, Carlos Andrés; Arango Londoño, David; Bohórquez, Martha PatriciaLa Sociedad de Activos Especiales (SAE), que administra predios en extinción de dominio, actualmente está en el proceso de otorgar sus predios a diversas instituciones y comunidades para contribuir tanto a la soberanía alimentaria, como a otros sectores sociales del país. Para lograr esto, se deben establecer precios de renta justos y transparentes. Los métodos existentes para estimar la renta en predios rurales no han sido implementados hasta ahora en el país. Este proyecto desarrolla un modelo basado en técnicas de aprendizaje supervisado usando machine learning para estimar la renta de predios rurales en Colombia. El modelo incorpora la dependencia espacial, lo que permite una comprensión más profunda de las variaciones en los precios de renta. Este proyecto representa una oportunidad de innovación para la estimación de la renta en predios rurales y contribuye significativamente a la seguridad y soberanía alimentaria del país.Item Estadificación imagenológica de la atrofia geográfica en la degeneración macular relacionada con la edad (DMAE), utilizando tomografía óptica coherente (OCT) con 3 cortes, en una población del sur de Colombia(Pontificia Universidad Javariana Cali, 2024) Quiñones Lucio, Andrés Felipe; Vargas Cardona, Hernán DaríoLa degeneración macular relacionada con la edad (DMAE) es una enfermedad degenerativa que afecta el segmento posterior del ojo, específicamente la mácula, que es la parte central de la retina responsable de la visión detallada y nítida. Es una de las principales causas de pérdida visual en personas mayores de 50 años. Existen dos tipos de DMAE: la atrófica o seca y la exudativa o húmeda. La forma atrófica es la más común y se caracteriza por la presencia de atrofia geográfica y acumulación de drusas— depósitos de desechos celulares y lipídicos—en la retina, particularmente en la mácula. Fisiopatológicamente, ocurre una descomposición y muerte (apoptosis) de las células maculares, lo que conduce a un deterioro gradual de la visión central. La forma exudativa es menos común pero más agresiva; se distingue por el desarrollo de neovascularización anormal debajo de la retina que puede sangrar y ocasionar cicatrices, resultando en una disminución más rápida de la agudeza visual. Aunque la DMAE no tiene cura, existen tratamientos que ayudan a retrasar su progresión y preservar la visión, lo que resalta la importancia del diagnóstico y tratamiento tempranos. La tomografía de coherencia óptica (OCT) se ha consolidado como una herramienta esencial para visualizar las capas retinianas y detectar cambios estructurales asociados con la DMAE. Las tecnologías avanzadas de OCT permiten obtener imágenes de alta resolución, facilitando la identificación de la atrofia y otras lesiones asociadas. La clasificación consensuada de la atrofia en DMAE mediante OCT ha sido establecida para estandarizar diagnósticos y fue la utilizada en el presente trabajo para su aplicación en técnicas de aprendizaje profundo.Item Detección de anomalías en datos meteorológicos mediante métodos de análisis avanzados(Pontificia Universidad Javariana Cali, 2025) Mena Ramírez, Yamuna Devi; Buss Molina, Antal AlexanderDada la creciente incidencia de fenómenos climáticos, como ciclones, sequías e intensas lluvias, anticipar y estudiar los cambios en las condiciones atmosféricas se ha convertido en una prioridad para países como Colombia, que cuentan con amplias áreas costeras. Estos eventos representan no solo un riesgo significativo para el medio ambiente y la seguridad, sino que también exigen un entendimiento profundo de las dinámicas atmosféricas. Las series de tiempo meteorológicas son herramientas clave en este contexto, ya que permiten el monitoreo continuo de variables climáticas, como la temperatura, la presión, la humedad y la precipitación, facilitando la identificación y estudio de patrones y anomalías que podrían anticipar eventos climáticos. En este contexto, se abordaron las limitaciones actuales en la detección de anomalías en los datos meteorológicos de la Dirección General Marítima en Colombia, siguiendo la metodología CRoss Industry Standard Process for Data Mining (CRISP-DM). Se propuso un enfoque híbrido que combina un algoritmo estadístico diseñado para la detección de anomalías naturalmente imposibles relacionadas con sensores, con un método más robusto que permite detectar días completos como eventos anómalos, en el que se seleccionaron las series multivariadas mediante un análisis de correlación, donde se identificaron las variables que presentaban mayor interdependencia. Luego, se aplicó el clustering utilizando los algoritmos K-means y DBSCAN, con enfoques tanto locales como globales. Los mejores resultados de evaluación se obtuvieron con el enfoque global aplicado a la serie multivariada que incluye temperatura del aire y humedad relativa, mostrando un puntaje de silueta de 0.67 y un índice de Davies Bouldin 0.54 para DBSCAN.Item Segmentación de profesionales de la salud del sector farmacéutico por Machine Learning para la optimización de frecuencia de visitas(Pontificia Universidad Javariana Cali, 2025) Reyes Zabaleta, Santiago; Cortez Aguilar, GenaroEn el sector salud, comprender a los médicos del mercado es crucial, ya que cada impacto promocional debe estar enfocado en el Health Care Practitioner (HCP). En Colombia, esta tarea es especialmente compleja debido a la limitada cantidad de especialistas, que obliga a los médicos a tratar diversas enfermedades, y a la promoción de múltiples productos por parte de las empresas farmacéuticas, lo que genera segmentaciones distintas para cada molécula. Además, las dinámicas del mercado colombiano hacen que la relación médico producto sea más disperso, aumentando la necesidad de enfoques estratégicos precisos. Este proyecto propone un modelo de segmentación estándar, basado en datos objetivos, que elimina la subjetividad, optimiza la caracterización de los HCPs y prioriza estrategias de marketing, alineando los esfuerzos de la empresa con las necesidades del mercado de forma más eficiente y efectiva.Item Modelo de predicción de precipitación acumulada para un departamento de Colombia por medio de la implementación de redes neuronales recurrentes (LSTM) e integración de datos satelitales(Pontificia Universidad Javariana Cali, 2024) Gómez Sepúlveda, Jorge Iván; Lafaurie Suárez, Jonathan Andrés; María Camila, Mendoza García; Arango Londoño, DavidEste proyecto se enfoca en la predicción de la precipitación acumulada en el departamento del Valle del Cauca en Colombia, catalogada como una región que está altamente influenciada por factores climáticos variables dada su geografía y la ocurrencia de fenómenos temporales como “La Niña” o “El Niño”, los cuales generan cambios en los niveles de precipitación y afectan significativamente diversos sectores como la agricultura, la ganadería, el transporte y la economía en general. Dado esto, se desarrolla un modelo predictivo que hace uso de redes neuronales recurrentes (LSTM), a partir de información de precipitación observada (medidas terrestres) y satelital. Este enfoque, permite superar los limitantes de otros métodos convencionales de series de tiempo y, de esta forma, mejorar la precisión y el rendimiento de los modelos actuales. Los objetivos específicos en este proyecto incluyen factores como la selección del departamento más idóneo para la investigación, el análisis temporal y espacial de la base de datos empleada para el estudio, la instauración y evaluación del modelo LSTM y la comparación con otros modelos tradicionales de series de tiempo. Todo esto, está encaminado para el desarrollo de un modelo de predicción que logre estimaciones de la precipitación semanal acumulada. El proyecto, tiene como valor agregado la integración de información satelital por medio del procesamiento de imágenes satelitales y su potencial, radica en su aplicación en futuras investigaciones que puedan convertirla en un recurso valioso para diferentes agentes y autoridades relacionadas con el clima y la meteorología. Además, se aspira a que pueda escalarse hacia otras regiones del país, contribuyendo al manejo adecuado de recursos y la planificación meteorológicaItem “Aplicación de Modelos Machine Learning para predecir el riesgo de pérdida de seguimiento en tuberculosis”(Pontificia Universidad Javariana Cali, 2025) Rodríguez Camargo, Rubén Darío ; Guerrero Barreto, Diana Azucena; Ortega Lenis, DeliaLa tuberculosis (TB) es una enfermedad que afecta a un gran número de personas en todo el mundo, es curable y prevenible; razones que han llevado a la Organización Mundial de la Salud (OMS) a priorizar la enfermedad a nivel de salud pública. No obstante, las pérdidas en el seguimiento amenazan el éxito de los programas de control, dado por aumentos en las tasas de mortalidad y se constituyen como un factor desencadenante en la aparición de formas farmacorresistentes. Se han descrito diferentes determinantes en salud (DSS) que influyen en la pérdida de seguimiento, siendo los principales: sexo hombre, tener un bajo nivel educativo, bajos ingresos económicos, pertenecer a un grupo poblacional vulnerable, presentar alguna comorbilidad, tener barreras de acceso al sistema de salud, antecedente de tratamiento previo, baja tolerancia a efectos secundarios al tratamiento y afectaciones en salud mental. El distrito capital no es ajeno a esta situación y se ha visto que el éxito programático no alcanza la meta del 90 % en los últimos años. Dentro de los factores que afectan el cumplimiento se encuentran los pacientes fallecidos y con pérdida de seguimiento cuya prevalencia para el distrito en los últimos 7 años corresponde al 7.3 %. Los avances en inteligencia artificial (IA) han permitido comprender mejor el fenómeno de pérdida de seguimiento en otros países con alta carga de la enfermedad, los cuales han servido como base para la reformulación de políticas públicas por parte de las autoridades sanitarias, que han permitido mejorar la adherencia terapéutica de los pacientes. En este sentido, el objetivo del presente proyecto consistió en desarrollar un modelo de Machine Learning que permita predecir el riesgo de pérdida de seguimiento en pacientes pertenecientes al programa de TB en el distrito capital, a partir de los determinantes sociales en salud contenidos en el sistema de información. Para ello se desarrollaron cuatro tipos de algoritmos de aprendizaje automático supervisado con diferentes técnicas de remuestreo para balancear las clases y se aplicaron diferentes técnicas para seleccionar variables predictoras incidentes en la pérdida de seguimiento. Como resultado se obtuvo un modelo de XGBoost con buen desempeño en las métricas sensibilidad, exactitud y AUC; con el cual se puede brindar un apoyo al personal de salud que hace parte de los programas locales de tuberculosis y del distrito para identificar de forma temprana a este tipo de pacientes.