Maestría en Ciencia de Datos

Browse

Recent Submissions

Now showing 1 - 20 of 176
  • Item
    Predicción del comportamiento de la malaria en Colombia usando modelos de machine learning
    (Pontificia Universidad Javeriana Cali, 2025) Certuche González, Sofy Johanna; Santa Zaira, Jaime; Pizo Gurrute, Zaira Idaly; Ortega Lenis, Delia
    La malaria humana o paludismo es una enfermedad infecciosa transmitida por vectores, en este caso son los mosquitos hembras del género Anopheles que proliferan en zonas inferiores a 1600 metros en donde está localizada el 80 % de la Colombia rural, siendo susceptibles de contraer la infección alrededor de 25 millones de personas. La “Estrategia Técnica Mundial contra la Malaria 2016-2030” pactada por la OMS tiene como objetivo erradicar la enfermedad en 85 países que se consideran endémicos dentro de los cuales se encuentra Colombia por sus condiciones climáticas considerándose un problema de salud pública con un reporte del 10 % de los casos de malaria que se registran en la región de las Américas. Debido a la carga de la enfermedad se cuenta aproximadamente con 106 grupos de investigación sólo en la región y su comportamiento epidemiológico se ha tratado de explicar a través de modelos matemáticos (estadísticos y determinísticos), epidemiológicos (SI, SIR, SIS) y con aproximaciones desde la ciencia de datos (Deep Learning, Machine Learning). Teniendo en cuenta la prevalencia de la enfermedad y su definición como problema de salud pública con estrategias exitosas basadas en el diagnóstico y tratamiento precoz, este proyecto tiene como objetivo desarrollar un modelo predictivo con técnicas de Machine Learning para efectuar una aproximación al comportamiento epidemiológico de la malaria en un departamento en Colombia durante el periodo 2015 2023 debido a que la comprensión de la enfermedad a partir de diferentes modelos va a permitir realizar predicciones temporales, prácticas y aplicables, optimizando tiempo y recursos.
  • Item
    Variaciones geoespaciales y temporales de condiciones atmosféricas para el establecimiento de cultivos en Colombia utilizando modelos de aprendizaje estadístico
    (Pontificia Universidad Javeriana Cali, 2025) Deaquiz Oyola, Yuli Alexandra; Feria Gómez, Diego Felipe; Ramírez Zambrano, Oscar Eduardo; Arango Londoño, David
    El presente proyecto de investigación buscó evaluar el impacto climático en la agricultura colombiana mediante el modelado de distribución de especies (SDM) , su foco se centró en los cultivos de Café, Banano y Aguacate al ser estos fundamentales en la economía del país, mediante las proyecciones climáticas de las bases de datos de WordClim, se mapeo y predijo cambios geoespaciales de las áreas productivas frente a condiciones climáticas futuras, anticipando reducciones en áreas aptas debido al aumento de la temperatura y alteraciones en los patrones de precipitación, dentro de los resultados se incluye identificación de zonas con mayor potencial, evaluación de la viabilidad de producción frente a variables climáticas y no climáticas con el fin de que fortalecer la sostenibilidad agrícola, este proyecto contribuye a la planificación y adaptación del sector agrícola, promoviendo decisiones informadas que mitiguen riesgos económicos y alimentarios, y fomenten la implementación de prácticas agronómicas sostenibles en el contexto de un Plan Nacional de Adaptación al cambio climático.
  • Item
    Modelo predictivo para estimar el crecimiento en la publicación de datos sobre biodiversidad: un enfoque basado en variables socioeconómicas y decisiones gubernamentales en el nodo GBIF Colombia
    (Pontificia Universidad Javeriana Cali, 2025) Ortiz Gallego, Ricardo; Badillo Mojica, Daniel; Arango Londoño, David
    La disponibilidad y acceso a datos abiertos sobre biodiversidad son fundamentales para orientar estrategias de conservación y toma de decisiones. Sin embargo, la ausencia de herramientas predictivas que integren variables socioeconómicas y de gobernanza ha limitado la capacidad para anticipar su crecimiento y contribuir al cumplimiento de compromisos internacionales como la Meta 21 del Marco Mundial Kunming-Montreal. Este proyecto tuvo como objetivo desarrollar un modelo predictivo para estimar el crecimiento en la publicación de datos sobre biodiversidad en el nodo GBIF Colombia, combinando información socioeconómica y gubernamental. El proceso metodológico incluyó la recolección, depuración y análisis exploratorio de datos de fuentes principales como el Banco Mundial, GBIF y el Open Government Partnership, seguido de la implementación de modelos estadísticos como Efectos Fijos, LASSO, Ridge y modelos de aprendizaje automático como Random Forest, XGBoost, LSTM, evaluados mediante validación cruzada temporal. Destaca el mejor desempeño, estabilidad y capacidad para capturar la tendencia de crecimiento anual en la publicación de datos a través de un modelo híbrido (Ridge + Random Forest). El modelo propuesto ofrece una herramienta estratégica para proyectar escenarios de crecimiento a partir de variables socioeconómicas, apoyar la planificación y contribuir al cumplimiento de los compromisos internacionales sobre biodiversidad y ciencia abierta.
  • Item
    Predicción del tráfico de datos de las zonas Wi‑Fi públicas de Santiago de Cali
    (Pontificia Universidad Javeriana Cali, 2025) Martínez Méndez, Paulo Andrés; Guzmán Morales, Edier; Linares Ospina, Diego Luis; Álvarez Vargas, Gloria Inés
    Las zonas WiFi de Cali se vienen operando desde hace años en la ciudad simplemente con el servicio estándar de internet. No existe una preparación del ancho de banda y la infraestructura necesaria para dicho servicio dependiendo de la demanda del área, la población y visitantes en ciertos periodos de tiempo. Este trabajo busca, desde la ciencia de datos, predecir el tráfico que se necesita en determinadas épocas para así adecuar el ancho de banda de la zona y la infraestructura necesaria. Lo anterior se logra alimentando modelos de aprendizaje con los datos del tráfico de 63 zonas WiFi de la ciudad que la alcaldía de Cali ha recolectado a lo largo de dos años.
  • Item
    Modelo predictivo de puntualidad aérea (OTP) en Colombia basado en factores climáticos
    (Pontificia Universidad Javeriana Cali, 2025) Buitrago Martín, Daniel Mauricio; Martínez López, David Steven; Vidal Godoy, Paula; Arango Londoño, David
    La puntualidad de los vuelos, medida a través del indicador On-Time Performance (OTP), constituye un aspecto crítico en la calidad del servicio aeronáutico y en la eficiencia operativa de las aerolíneas. En Colombia, las condiciones climáticas se han identificado como uno de los factores que más inciden en los retrasos, generando afectaciones operativas, sobrecostos y una disminución en la satisfacción del pasajero. Este estudio toma como unidad de análisis los vuelos comerciales domésticos operados en Colombia, integrando información histórica de desempeño operacional y variables meteorológicas. El horizonte temporal de análisis comprende datos entre 2019 y 2024, obtenidos de fuentes oficiales como Aerocivil, Cirium, Flightradar24, IDEAM, NOAA y reportes METAR. A partir de estos datos se desarrolla un modelo predictivo basado en técnicas de aprendizaje supervisado, específicamente Random Forest y XGBoost, con un proceso metodológico que incluye análisis exploratorio, selección de características, construcción del modelo y validación mediante métricas estándar de clasificación. El propósito es estimar la probabilidad de retraso y alcanzar un desempeño igual o superior al 85% de precisión, además de identificar las variables meteorológicas más influyentes en el comportamiento de la puntualidad aérea. Los resultados esperados buscan aportar una herramienta de apoyo para la toma de decisiones operativas, optimizar la planificación, reducir costos asociados a demoras y contribuir al fortalecimiento del sector aeronáutico colombiano.
  • Item
    Predicción de precios de activos de renta variable de la BVC mediante modelos de aprendizaje supervisado
    (Pontificia Universidad Javeriana Cali, 2025) Ossa González, Genjis Alberto; De la Hoz Vicari, Paolo Andrés; Mora Cardona, Mario Julián
    El presente trabajo desarrolla un modelo integral para la predicción de retornos logarítmicos y precios de activos de renta variable de la Bolsa de Valores de Colombia (BVC) empleando metodologías de aprendizaje supervisado. Dado que los mercados financieros operan en un entorno marcado por la alta incertidumbre, la volatilidad y la presencia de dinámicas no lineales, anticipar correctamente el comportamiento de los activos continúa siendo un desafío central tanto para investigadores como para gestores de inversión. Con este propósito, se construyó un pipeline para el tratamiento y modelado de series temporales financieras, que abarcó la depuración de datos, el enriquecimiento mediante indicadores de calidad, volumen, microestructura de mercado, volatilidad e indicadores técnicos, y la posterior implementación de modelos predictivos. La investigación compara el desempeño de modelos clásicos y avanzados, incluyendo dos baselines el Naive0 y Persist, algoritmos basados en árboles de decisión (Random Forest, XGBoost y LightGBM) y redes neuronales recurrentes tipo LSTM, diseñadas para capturar dependencias temporales de largo plazo. Todos los modelos fueron evaluados bajo un esquema de partición temporal estricta (TRAIN–VALID–TEST), evitando la fuga de información y asegurando una medición realista del desempeño fuera de muestra. En cuanto a la predicción de retornos, los resultados muestran que la naturaleza altamente ruidosa y volátil del mercado dificulta la obtención de patrones estables y consistentes a lo largo del tiempo. En este escenario, los modelos basados en boosting, especialmente LightGBM, lograron mejoras moderadas respecto a los baselines en términos de MAE, RMSE y tasas de acierto direccional. Asimismo, las redes LSTM demostraron una capacidad superior para capturar señales direccionales, aun cuando sus métricas de error no siempre superaron a los modelos más simples. Bajo esta estructura, el modelo Naive0 resultó ser el más efectivo, al obtener los menores valores de MAE, RMSE y MAPE, junto con los mayores niveles de R² en todos los emisores. Esto indica que, para pronosticar el nivel absoluto del precio, la mejor aproximación consiste en asumir que el precio futuro será similar al del periodo anterior, lo que explica por qué los modelos complejos no lograron superarlo de manera consistente. El segundo mejor desempeño correspondió a LightGBM, que mostró una mayor estabilidad y generalización que el modelo Persist y que otros algoritmos supervisados, posicionándose como la alternativa más robusta entre los modelos de aprendizaje automático más avanzados.
  • Item
    Correlación entre cobertura vegetal y niveles de contaminación del aire en los alrededores de Cali: un enfoque basado en análisis de datos satelitales e inteligencia artificial
    (Pontificia Universidad Javeriana Cali, 2025) Villarreal Monsalve, Alejandro; Osorio Serna, Carlos Andrés; Méndez Gutiérrez, Nicolás; Solano Correa, Yady Tatiana
    Este trabajo de maestría investiga la relación entre la infraestructura verde urbana y la calidad del aire en Santiago de Cali, empleando técnicas de Ciencia de Datos y teledetección. El objetivo central fue determinar la correlación estadística entre la densidad de la cobertura vegetal y las concentraciones de material particulado (𝑃𝑀10 y 𝑃𝑀2.5) en la ciudad. La metodología consistió en el desarrollo de un flujo de trabajo (ETL) que integró imágenes satelitales de alta resolución de la constelación PlanetScope con datos históricos (2017 2020) de seis estaciones de monitoreo oficiales (SVCASC). Para la clasificación de la cobertura del suelo, se evaluaron diversos algoritmos de aprendizaje automático, siendo Random Forest el de mejor desempeño con una exactitud del 83.33%, superando a modelos como XGBoost y SVM. Los resultados arrojaron una correlación global de Pearson de 𝑟 = −0.37, confirmando que existe una relación inversa moderada: a mayor vegetación, menor contaminación. No obstante, el estudio destacó hallazgos críticos sobre la distribución espacial del problema. En el centro (estaciones Obrero y La Ermita), el efecto de "cañón urbano" y la alta densidad de emisiones saturan la capacidad de mitigación de la vegetación existente. Simultáneamente, se identificó una profunda desigualdad ambiental en el oriente de la ciudad (estación Compartir), donde la pérdida acelerada de cobertura vegetal coincide con un aumento en los niveles de 𝑃𝑀2.5. Se concluye que, si bien la vegetación actúa como un filtro natural funcional, en muchas zonas de Cali se encuentra saturada o es insuficiente. El estudio recomienda integrar urgentemente estrategias de expansión de áreas verdes en la planificación territorial para mejorar la salud pública.
  • Item
    Sistema para la estimación de peso de ganado bovino a partir de técnicas de aprendizaje automático
    (Pontificia Universidad Javeriana Cali, 2025) Perdomo Trujillo, Miller Eduardo; Linares Ospina, Diego Luis; Álvarez Vargas, Gloria Inés
    La ganadería bovina requiere métodos precisos, prácticos y económicos para estimar el peso vivo, un parámetro esencial para el manejo productivo, la salud y la comercialización. Los métodos tradicionales básculas y cintas métricas pueden resultar costosos, poco accesibles en zonas rurales y generar estrés en los animales. Este proyecto desarrolló un sistema de estimación de peso mediante visión artificial y aprendizaje automático, optimizado para dispositivos móviles sin conexión a internet. Se construyó un conjunto de datos compuesto por 513 registros tabulares y 17 899 imágenes de vista posterior, permitiendo integrar información morfométrica y visual en distintos enfoques de modelado. Se evaluaron dos líneas metodológicas principales. La primera utilizó modelos de regresión sobre datos tabulares (SVR, Random Forest, XGBoost y MLP). Los modelos de conjunto lograron los mejores resultados, destacando XGBoost, que alcanzó un R² > 0.99 y un MAE de 3.27 kg. Este desempeño confirma que las variables morfométricas permiten una estimación altamente precisa del peso vivo. 29.9 kg), lo que evidencia que la información tabular sigue siendo esencial para obtener predicciones confiables y mejora significativamente la precisión final. Además, se desarrolló un prototipo móvil Android utilizando TensorFlow Lite para realizar inferencias directamente en el dispositivo (Edge Computing). La aplicación puede estimar el peso a partir de una fotografía del tercio posterior del animal y demostró ser funcional en entornos rurales con conectividad limitada. No obstante, la precisión basada exclusivamente en imágenes aún se encuentra por debajo de la obtenida con datos morfométricos. El segundo enfoque exploró modelos multimodales e híbridos basados en imágenes. El mejor resultado provino de una arquitectura paralela que combina una ResNet50 preentrenada para extraer características visuales con un MLP Regressor para procesar los datos tabulares. Esta fusión alcanzó un R² = 0.74 y un MAE = 21.57 kg. Es relevante subrayar que estas métricas corresponden al modelo híbrido y no a uno puramente visual. Al evaluar únicamente la rama de visión, el desempeño disminuyó (R² ≈ 0.60 y MAE ≈ En conclusión, los datos tabulares ofrecen la mayor precisión disponible; la combinación multimodal mejora respecto a la visión sola, pero no supera al mejor modelo tabular (XGBoost). El prototipo móvil demuestra viabilidad práctica y potencial de aplicación real, aunque requiere mejoras en la integración de modalidades y en la robustez ante variabilidad de captura para alcanzar niveles comparables a los métodos tradicionales.
  • Item
    Predicción de brotes de dengue en Cali, Medellín y Bucaramanga utilizando modelos de machine learning
    (Pontificia Universidad Javeriana Cali, 2025) Rayo Grajales, Julián Mauricio; Pinto Montes, Julián Andrés; Eklouh Molinier, Christophe; Ortega Lenis, Delia
    El presente proyecto de Maestría en Ciencia de Datos se orienta a la predicción de brotes de dengue en las ciudades de Cali, Medellín y Bucaramanga utilizando modelos de aprendizaje automático. El dengue constituye un problema persistente de salud pública en Colombia, cuya dinámica está influenciada por factores climáticos, ambientales y socioeconómicos, lo que dificulta su control mediante métodos tradicionales de vigilancia epidemiológica. Para el desarrollo del proyecto se construyó una base de datos integrada a partir de fuentes oficiales como SIVIGILA, IDEAM y DANE, que incluye registros semanales de casos de dengue desde 2007–2019, así como variables climáticas como temperatura, humedad y precipitación. Se realizó un proceso riguroso de limpieza, consolidación y análisis exploratorio de los datos para identificar patrones estacionales, correlaciones y rezagos temporales entre las variables. El modelado predictivo se desarrolló bajo dos escenarios: uno basado únicamente en variables climáticas y otro que incorpora además la inercia epidemiológica mediante promedios móviles de contagios. Se implementaron diversos algoritmos de Machine Learning, incluyendo Random Forest, XGBoost, redes neuronales densas y modelos recurrentes tipo GRU. Los modelos fueron entrenados con partición temporal y evaluados con métricas de desempeño como el RMSE. Los resultados evidencian que la incorporación de la inercia epidemiológica mejora significativamente la capacidad predictiva de los modelos, permitiendo anticipar semanas de alta incidencia con mayor precisión. Este proyecto aporta una herramienta analítica útil para fortalecer la vigilancia epidemiológica y apoyar la toma de decisiones en salud pública, contribuyendo a la gestión oportuna del riesgo y a la optimización de recursos en contextos urbanos vulnerables.
  • Item
    Diseño e implementación de modelos de Aprendizaje de Instancias Múltiples para la clasificación débilmente supervisada de imágenes histopatológicas de cáncer de próstata
    (Pontificia Universidad Javeriana Cali, 2025) Restrepo Rosero, Juan José; Belalcázar Perdomo, María Valentina; Gil González, Julián
    Este trabajo de grado presenta el diseño, implementación y evaluación de un pipeline experimental reproducible basado en Aprendizaje de Instancias Múltiples (Multiple Instance Learning, MIL) para la clasificación débilmente supervisada de imágenes de lámina completa (Whole Slide Images, WSI) en cáncer de próstata.El estudio aborda dos desafíos fundamentales de la histopatología digital: la variabilidad interobservador en la gradación tumoral y la escasez de anotaciones locales a nivel de parche. La metodología propuesta integra un esquema de preprocesamiento orientado a la selección de regiones tisulares relevantes mediante ltrado en el espacio de color HSV, extracción de representaciones profundas utilizando una ResNet-50 preentrenada como extractor congelado de características, y entrenamiento de arquitecturas MIL con mecanismos de agregación clásicos y basados en atención. El proceso experimental se desarrolló sobre la base de datos pública SICAPv2 y se evaluó mediante validación cruzada estricta estratificada por paciente (GroupKFold), garantizando la separación completa entre entrenamiento y prueba a nivel de WSI. Los resultados evidencian que los modelos basados en atención, particularmente SmABMIL, superan consistentemente a los enfoques de pooling tradicional en métricas clínicas relevantes a nivel de lámina completa. En promedio, se obtuvo un F1-score superior a 0.83 y una AUC-ROC cercana a 0.86, junto con una mayor estabilidad interfold y mejor equilibrio entre sensibilidad y especificidad. Adicionalmente, la incorporación de mecanismos de atención permitió generar mapas de relevancia espacial coherentes con patrones histopatológicos asociados a malignidad, fortaleciendo la interpretabilidad del sistema. En conjunto, el trabajo demuestra la viabilidad del aprendizaje con supervisión débil para clasificación de cáncer prostático en WSI y establece una base metodológica sólida y reproducible para el desarrollo de sistemas de apoyo a la decisión clínica en patología digital.
  • Item
    Implementación de modelos de machine learning para la predicción de la demanda en una empresa manufacturera de productos de aseo y desinfección
    (Pontificia Universidad Javeriana Cali, 2025) Isaza Sanabria, Luisa Angélica; Murillo Cadena, Juan Andrés; Villa Infante, Carlos Fabián; García Arboleda, Isabel Cristina
    Este proyecto de investigación implementó modelos de Machine Learning con el objetivo de optimizar la predicción de la demanda en una empresa manufacturera de productos de aseo y desinfección, atendiendo problemáticas como el exceso de inventarios y ventas pérdidas. A partir de un análisis exploratorio de datos se identificaron variables relevantes y patrones de comportamiento de la demanda que permitieron incrementar la precisión de los pronósticos mediante técnicas avanzadas de ciencia de datos. Los resultados obtenidos en los modelos se sistematizaron y se presentaron en un dashboard interactivo en Power BI, lo que facilitó la interpretación de la información y respaldó la toma de decisiones tanto operativas como estratégicas. En términos de impacto, la implementación de esta propuesta contribuyó a optimizar la gestión de inventarios, disminuir el riesgo de desabastecimiento y reducir los costos asociados a productos obsoletos, evidenciando la pertinencia de estas metodologías en entornos industriales caracterizados por una alta variabilidad en la demanda.
  • Item
    Diseño e implementación de un sistema para la clasificación de reseñas en portales web utilizando análisis de sentimientos y modelos ocultos de Markov
    (Pontificia Universidad Javeriana Cali, 2025) Llanos Gallego, Leidy Tatiana; Díaz Alonso, John; Valencia Marín, Cristhian Kaori
    El proyecto cuenta con el objetivo principal de desarrollar un sistema inteligente que se fundamenta en los Modelos Ocultos de Markov, orientado a la identificación y clasificación de opiniones y emociones en las reseñas de los usuarios presentes en portales web. La estrategia para alcanzar este propósito implico la implementación de una metodología de preprocesamiento de datos integral, que aborda el tratamiento de cadenas de texto mediante modelos de procesamiento del lenguaje natural. El proyecto contemplo la creación de un Modelo Oculto de Márkov diseñado con la capacidad de capturar estructuras latentes y transiciones de estados de ánimo presentes en las reseñas, permitiendo la identificación precisa de los sentimientos expresados por los usuarios. Esta característica distintiva permitió una identificación más precisa de los sentimientos expresados por los usuarios al analizar sus comentarios y críticas. Para validar y perfeccionar este modelo, se llevó a cabo pruebas y evaluaciones exhaustivas utilizando conjuntos de datos reales recopilados de diversos portales web. La atención se centró en evaluar la precisión y eficacia del sistema en términos de clasificación, asegurando así su robustez y utilidad práctica. Como parte integral del enfoque del proyecto, se incorporó un módulo de software en Python para el procesamiento de la base de datos de los portales web, lo que proporciono un conjunto de datos estructurados y categorizados, crucial para el entrenamiento y validación efectiva del modelo. Se aplico técnicas de análisis de texto avanzadas para extraer patrones significativos y tendencias en las opiniones de los usuarios y la utilización del algoritmo de Baum-Welch que se planteó para la estimación de parámetros, contribuyendo así a la mejora continua del rendimiento del sistema, por último, el proyecto implemento un módulo de software desarrollado en Python de los Modelos Ocultos de Márkov y procesamiento de Lenguaje Natural, registrado mediante un documento con el desarrollo del proyecto y los resultados de los análisis realizados, integrando todas las lecciones aprendidas durante las pruebas y evaluaciones previas. Este proceso busco afinar la adaptabilidad del sistema a diversas plataformas web y contextos de uso, una vez implementado se estima que la aplicación de un proyecto de esta clase logra beneficiar a todo tipo de negocios, industrias, y emprendimientos, que busquen mejorar la reputación de su marca, o la satisfacción del consumidor, incorporándose en estrategias de inteligencia de mercado, imponiéndose y aventajando a sus competidores.
  • Item
    Detección de problemas cardíacos en imágenes digitales mediante modelos de aprendizaje automático y visión por computadora
    (Pontificia Universidad Javeriana Cali, 2025) Tierradentro Muñoz, John Andrés; Sánchez Caviedes, Narly Beatriz; Torres Beltrán, Luisa Fernanda; Gil González, Julián
    Este proyecto abordó el desarrollo de una herramienta computacional capaz de mejorar la precisión y eficiencia en el diagnóstico de patologías cardíacas. Este tema fue de gran relevancia, ya que las enfermedades cardiovasculares son responsables de un tercio de las muertes a nivel global, y el diagnóstico oportuno y preciso resulta fundamental para prevenir complicaciones graves como infartos y accidentes cerebrovasculares. Actualmente, el análisis de imágenes médicas, como ecocardiogramas y resonancias magnéticas, depende principalmente de la experiencia de los especialistas, lo que introduce riesgos de subjetividad, errores humanos y diagnósticos inconsistentes. Además, el creciente volumen de datos médicos genera una sobrecarga para los profesionales de la salud, dificultando la dedicación suficiente a cada caso. El objetivo general del proyecto fue desarrollar un sistema automatizado que detectara obstrucciones cardíacas en imágenes digitales, utilizando técnicas de aprendizaje automático y visión por computadora, con el fin de mejorar la precisión del diagnóstico y reducir el tiempo de análisis. Entre los objetivos específicos se incluyeron la identificación de las características relevantes de las imágenes médicas para el análisis, la selección e implementación de los modelos de aprendizaje más adecuados y la creación de una interfaz gráfica que permitiera a los especialistas interactuar de forma sencilla con la herramienta. Se esperaba que este sistema no solo facilitara la detección precisa de problemas cardíacos, sino que también disminuyera la carga de trabajo de los médicos y redujera el margen de error humano. Como resultados esperados, se contempló el desarrollo de un modelo computacional que ofreciera altos niveles de precisión en la detección de patologías cardíacas, validado con un conjunto de datos de imágenes médicas. Asimismo, la implementación de una interfaz accesible promovió su uso práctico. Las posibles aplicaciones del sistema incluyeron su integración en hospitales y centros médicos para apoyar el diagnóstico de enfermedades cardiovasculares y su uso como herramienta educativa en la formación de nuevos especialistas. Este proyecto buscó contribuir al avance de la medicina digital y ofrecer una solución tecnológica que fortaleciera la atención en salud cardiovascular.
  • Item
    Modelo de aprendizaje automático para la predicción del comportamiento epidemiológico del dengue en un hospital pediátrico de Cartagena de Indias
    (Pontificia Universidad Javeriana Cali, 2025) Doria Atencia, Joel Joel; Linares Ospina, Diego Luis; Álvarez Vargas, Gloria Inés
    El dengue continúa siendo un problema prioritario de salud pública en regiones tropicales, lo que ha motivado el desarrollo de herramientas analíticas para apoyar la vigilancia epidemiológica. El presente trabajo tuvo como objetivo evaluar el desempeño de distintos enfoques de modelación de aprendizaje automático para la predicción semanal de la incidencia de dengue sin signos de alarma, dengue con signos de alarma y dengue grave. Se construyeron series temporales semanales para entrenar modelos base de regresión lineal, perceptrón multicapa, bosque aleatorio y máquinas de soporte vectorial, así como versiones optimizadas. El desempeño fue evaluado mediante métricas de error (MAE, MSE, RMSE y R²), además de comparaciones frente a un modelo ingenuo. Los resultados evidenciaron un comportamiento no lineal en la dinámica de la enfermedad, con desempeños variables según el subgrupo clínico. El perceptrón multicapa mostró un rendimiento ligeramente superior en términos de error y estabilidad de las predicciones. Finalmente, se desarrolló un prototipo de aplicación utilizando el perceptrón optimizado como método de presentación de resultados.
  • Item
    Análisis y comparación de modelos de aprendizaje automático, estadístico y matemático para la predicción de brotes en salud pública
    (Pontificia Universidad Javeriana Cali, 2025) Forero Benavides, Deisy; Rodríguez Rodríguez, Jeisson; Romero Pérez, Zujel Enrique; Ortega Lenis, Delia
    El proyecto aplicado abordó la predicción de brotes de enfermedades infecciosas en salud pública, utilizando datos abiertos de COVID19 en la ciudad de Bogotá. Este estudio se realizó a través de la modelación predictiva de tipo matemático, estadístico y de aprendizaje automático realizando comparaciones con el fin de responder a la necesidad crítica de anticipar eventos epidemiológicos que ejercen una alta presión sobre los sistemas sanitarios y generan impactos significativos tanto sociales como económicos. Su importancia radica en que la identificación temprana de tendencias, picos de contagio y zonas de riesgo permite optimizar recursos, mejorar la toma de decisiones y fortalecer las intervenciones preventivas en contextos urbanos densamente poblados. La problemática central consistió en las limitaciones de los sistemas de salud para responder oportunamente a brotes, así como en los desafíos asociados a la calidad, selección y tratamiento de datos relevantes para la modelación predictiva. Como objetivo general, se propuso desarrollar y evaluar dichos modelos predictivos orientados a la preparación y depuración de los datos, la identificación de variables clave, el entrenamiento y ajuste de modelos y la comparación de su desempeño mediante métricas estandarizadas. Como resultado, se diseñaron y evaluaron modelos preliminares que evidenciaron diferencias claras en capacidad predictiva, interpretabilidad y viabilidad operativa, permitiendo identificar fortalezas y limitaciones de cada enfoque y establecer condiciones mínimas para su aplicación en escenarios reales de salud pública. Los hallazgos muestran que la integración de la ciencia de datos con enfoques tradicionales de modelación epidemiológica constituye una herramienta efectiva para la anticipación de brotes. Las posibles aplicaciones incluyen el apoyo a sistemas de alerta temprana, la planificación estratégica de recursos sanitarios y la formulación de políticas públicas basadas en evidencia, con potencial de replicabilidad a nivel nacional y en otros contextos urbanos similares.
  • Item
    WASOR: Sistema de Clasificación de residuos sólidos usando técnicas de inteligencia artificial
    (Pontificia Universidad Javeriana Cali, 2025) Tovar Jaimes, Héctor Iván; Pinto Losada, Javier Hernando; Vargas Cardona, Hernán Darío
    El proyecto WASOR desarrolló un sistema inteligente para la clasificación automática de residuos sólidos mediante técnicas de visión por computador e inteligencia artificial, orientado a mejorar la eficiencia de la separación en la fuente y contribuir a los procesos de reciclaje, una problemática relevante dada la baja tasa de aprovechamiento de residuos en la región y los altos niveles de contaminación ambiental asociados a la disposición inadecuada. La unidad de análisis del proyecto está conformada por imágenes de residuos sólidos urbanos pertenecientes a siete categorías (orgánico, plástico, papel, vidrio, metal, biológico y baterías), a partir de las cuales se construyó un conjunto de datos que inició con 9.281 imágenes recopiladas desde repositorios abiertos; Luego del proceso de depuración y validación manual, el dataset se redujo a 8.214 imágenes. De este conjunto base, se destinó el 6 % (493 imágenes) para la validación y el 2 % (164 imágenes) para las pruebas de desempeño de los modelos. Al conjunto restante (7.557 imágenes) se le aplicaron técnicas de aumento de datos, obteniendo así un dataset expandido de 18.796 imágenes, el cual fue utilizado para el entrenamiento de los modelos. El proyecto abordó la problemática de la clasificación ineficiente y manual de residuos, proponiendo como objetivos la construcción de un dataset robusto, el entrenamiento comparativo de modelos de detección, la selección del modelo con mejor rendimiento y el desarrollo de una interfaz funcional capaz de operar en tiempo real. Se entrenaron tres modelos basados en las arquitecturas YOLOv8m, YOLOv9m y YOLOv10m, evaluados mediante métricas estándar como exactitud, F1-score, precisión, recall y mAP@0.5:0.95; el modelo seleccionado fue YOLOv10m, el cual alcanzó la métrica clave más alta con un mAP@0.5:0.95, representando el mejor equilibrio entre calidad de detección, estabilidad y capacidad de generalización. Los resultados del sistema integran detección en tiempo real, asignación de la categoría correspondiente y recomendación del contenedor apropiado utilizando una interfaz HMI diseñada en Python, lo que permite demostrar la viabilidad técnica y operativa de la automatización del reciclaje. Las aplicaciones potenciales del sistema incluyen puntos ecológicos automatizados, estaciones educativas para sensibilización ambiental, procesos industriales de separación de residuos y futuras implementaciones IoT con monitoreo continuo, contribuyendo así a la optimización de la gestión de residuos, a la reducción de la contaminación y al fortalecimiento de prácticas de economía circular en diversos entornos urbanos, institucionales y comunitarios.
  • Item
    Aplicación de ciencia de datos para predecir el éxito de la ejecución de los contratos públicos en Colombia
    (Pontificia Universidad Javeriana Cali, 2025) Arias Sanabria, Javier Andrés; Pabón Burbano, María Constanza
    Este trabajo de grado aborda el desafío de predecir el riesgo de fracaso (y, consecuentemente, validar el éxito) en la ejecución de la contratación pública en Colombia mediante la aplicación de técnicas avanzadas de Ciencia de Datos. Dada la vasta disponibilidad de información en el Portal de Datos Abiertos (SECOP I), el objetivo principal de esta investigación fue desarrollar un modelo predictivo escalable que funcione como un sistema de alerta temprana para identificar irregularidades contractuales, un tema de alto interés nacional y valor estratégico para las entidades de control. Metodológicamente, se analizó el universo poblacional completo de los procesos registrados entre 2011 y 2025, procesando una matriz final de más de 1.98 millones de registros. El diseño de ingeniería de características incluyó la codificación de riesgo geográfico mediante Target Encoding y el Procesamiento de Lenguaje Natural (NLP) a través de la vectorización TF-IDF para analizar semánticamente los objetos contractuales. Se evaluaron y optimizaron cinco arquitecturas de aprendizaje supervisado, enfrentando el reto del desbalance de clases mediante aprendizaje sensible al costo. Los resultados demostraron la superioridad del modelo de ensamble LightGBM, el cual logró un rendimiento excepcional con un AUC-ROC de 0.973 y una sensibilidad del 92.82%, manteniendo una tasa de falsas alarmas controlada (7.55%). En conclusión, este proyecto demuestra que el uso de Machine Learning supera las limitaciones del análisis estadístico tradicional al capturar interacciones complejas, entregando a los sectores gubernamentales una herramienta de auditoría preventiva ágil y de alta precisión para la protección de los recursos públicos.
  • Item
    Estimación de la tasa de recuperación de la vegetación tras incendios forestales mediante imágenes satelitales y machine learning
    (Pontificia Universidad Javeriana Cali, 2025) Cartagena Martínez, Milton; Sáenz Hernández, Germán Darío; Solano Correa, Yady Tatiana; Patiño Velasco, Mario Milver
    El presente proyecto tuvo como objetivo estimar la tasa de recuperación vegetal en áreas afectadas por incendios forestales en las regiones de Caquetá y Tolima, las cuales presentan condiciones climáticas diversas influenciadas por el fenómeno de El Niño Oscilación del Sur (ENOS). Se desarrolló un modelo que utiliza imágenes satelitales de Sentinel-2, FACSAT-2 y de sensores Aerotransportados, empleando técnicas de entrenamiento supervisado y redes neuronales con el objetivo de detectar áreas afectadas por incendios y llevar a cabo análisis temporales, por lo tanto, se incorporaron variables climáticas relevantes en la recuperación vegetal, tales como la temperatura y la precipitación. Una vez detectada la zona de interés se aplicó una versión optimizada del algoritmo Gradient Boosting con histogramas (HGB) que permiten mejorar la eficiencia en la estimación de la recuperación vegetal en las zonas seleccionadas debido a su capacidad para manejar grandes volúmenes de datos, los resultados fueron visualizados en un tablero de dashboard de power BI para conocer los tiempos estimados de la tasa de recuperación en las dos zonas de estudio planteadas en este proyecto.
  • Item
    Comparación de modelos de segmentación de área metastásica en imágenes histopatológicas de cáncer de mama para estimar carga tumoral
    (Pontificia Universidad Javeriana Cali, 2025) Castellano Carvajal, Diego Andrés; Castro Casadiego, Sergio Alexander
    El cáncer de mama se considera la neoplastia maligna más común en mujeres. En 2022, según los reportes de Organización Mundial de la Salud 2.3 millones de mujeres fueron diagnosticadas con cáncer de mama en todo el mundo y 670.000 murieron. En el proceso de crecimiento del cáncer de mama es probable que se produzca metastáticos en los ganglios linfáticos en la medida que el tumor se propague en los tejidos mamarios circundantes. El análisis manual de muestras histopatológicas para el reconocimiento de regiones metastásicas es una tarea demandante de tiempo y es propensa a la variabilidad entre los patólogos. En el presente trabajo, se muestra la implementación y comparación de modelos de aprendizaje profundo para segmentar regiones metastásicas y estimar carga tumoral. Se abordó la alta heterogeneidad intermuestral y la variabilidad inherente al análisis manual de muestras histopatológicas. Se utilizó el conjunto de datos CAMELYON16, aplicando técnicas de preprocesamiento como la normalización de color y el aumento de datos para mejorar la generalización. Se compararon cuatro arquitecturas, incluyendo el modelo híbrido propuesto UNet + ResNet50, Junto con ResNet50, UNet y DenseNet121. Los resultados establecieron que el modelo híbrido fue la solución más robusta y equilibrada, superando consistentemente a los demás modelos que presentaron signos de sobreajuste. El modelo híbrido demostró la mayor precisión en la estimación de la carga tumoral, manteniendo su superioridad integral y un equilibrio en las métricas clave.
  • Item
    Predicción de fallas prematuras de componentes en una flota de camiones mineros utilizando ciencia de datos
    (Pontificia Universidad Javeriana Cali, 2025) Martínez Morales, Christian Andrés; Perdomo Olarte, Juan Camilo; García Arboleda, Isabel Cristina
    La temática del proyecto aplicado se relaciona con la predicción de fallas de componentes de una flota determinada de camiones mineros. La problemática que se abordó consistió en que la flota había estado experimentando fallas prematuras en varios de sus componentes, a lo que la fábrica de dichos camiones argumentaba que estos eventos no correspondían a un problema de producto sino más bien a una naturaleza severa de la operación, sin embargo, se desconocía cuáles aspectos de la operación eran los influyentes en la generación de dichas fallas. La minera había manifestado la importancia de predecir este tipo de eventos ya que tenían el potencial de impactar aspectos importantes como la seguridad y salud de los operadores, el cuidado del activo y la producción de la minera convirtiéndose en una problemática en la que participaban interesados como el departamento de producción, mantenimiento, logística e, incluso, la fábrica de los camiones. El objetivo del proyecto fue entonces predecir fallas prematuras de dichos componentes para que la minera pudiera anticiparlas y realizar planes de acción preventivos a partir del análisis de datos disponibles e historial de fallos, del desarrollo de modelos predictivos, la evaluación de dichos modelos y el prototipado de una interfaz gráfica para el seguimiento y control de fallas prematuras. Se generaron 8 modelos por componente utilizando técnicas como Random Forest, XGBoost, Perceptrónes Multicapa y Regresión Logística, a partir de los cuales se pudieron predecir fallas de 6 tipos de componentes con precisiones superiores al 84%. A partir del análisis de importancia proporcionado por el XGBoost, se encontró que los aspectos de la operación que más influyen en la aparición de fallas prematuras son las microfalla por torsión, los valores de torsión y la carga acarreada por el camión ciclo a ciclo. Finalmente, se generó un prototipo de interfaz gráfica para seguimiento y control de dichos aspectos.