Maestría en Ciencia de Datos

Browse

Recent Submissions

Now showing 1 - 20 of 111
  • Item
    Propuesta de un modelo de predicción de inventario de una empresa dedicada a la venta de dispositivos de almacenamiento de energía, basado en modelos de Machine Learning
    (Pontificia Universidad Javeriana Cali, 2025) Norato Díaz, Luz Angélica; Monsalve Rodríguez, Andrés; Gil González, Julián
    En este trabajo se desarrolló un modelo predictivo para estimar las ventas semanales de productos en las bodegas de una empresa dedicada a la distribución de almacenamiento de energía con operaciones en México, Colombia y Costa Rica, mediante el uso de técnicas de Machine Learning. Se prepararon datos históricos semanales comprendidos entre enero de 2021 y mayo de 2025, a través de procesos de limpieza, transformación y generación de variables temporales. Se entrenaron y evaluaron diversos enfoques predictivos, incluyendo modelos de series de tiempo y algoritmos de Machine Learning como Random Forest y XGBoost. Tras la fase experimental, el modelo Random Forest obtuvo el mejor desempeño en la predicción de ventas agregadas, con un RMSE de 1048,25, un MAPE ajustado de 24,84 % y un SMAPE de 22,36 %.
  • Item
    Predicción de la tasa de cambio EUR/USD: comparación de modelos de Deep Learning con diversos tipos y cantidades de datos de entrenamiento
    (Pontificia Universidad Javeriana Cali, 2025) Caicedo León, Andrés; Bastidas Caicedo, Harvey Demian; Sarmiento, Cristian Camilo; Pabón Burbano, María Constanza
    La predicción de la tasa de cambio del par EUR/USD es un desafío significativo debido a la naturaleza no lineal de las series temporales financieras, las técnicas de Deep Learning son capaces de detectar patrones no lineales y son usadas para este tipo de predicciones, pero su desempeño varía dependiendo de los datos de entrenamiento usados. Este proyecto se enfoca en evaluar cómo la cantidad y el tipo de datos de entrenamiento, incluyendo datos sintéticos, afectan la precisión y la robustez de modelos predictivos de Deep Learning. Este proyecto aborda la necesidad de seleccionar adecuadamente la configuración de modelos y datos para mejorar las predicciones a corto y largo plazo de tres modelos de Deep Learning: Redes Neuronales Convolucionales (CNN), Redes de Memoria a Largo Plazo (LSTM) y Transformadores. Se midió, usando métricas de precisión y robustez, el desempeño de los modelos entrenados con distintas cantidades de datos de entrenamiento y la inclusión de distintos tipos de datos como indicadores técnicos y fundamentales. Además, se evaluó la efectividad de los datos sintéticos de entrenamiento en el desempeño de los modelos. El objetivo principal es determinar cómo diferentes configuraciones de modelos y datos afectan la precisión y robustez de las predicciones de la tasa de cambio EUR/USD. Con esto se espera crear un conjunto de resultados que permitan seleccionar la mejor configuración de modelos y datos a usar para el entrenamiento de predictores, lo que puede ser una herramienta académica y puede usarse en la toma de decisiones en el mercado de divisas, ya que la predicción de tasas es crucial para elaborar estrategias de trading y desarrollar herramientas analíticas avanzadas para el sector financiero.
  • Item
    Identificación de niveles de riesgos en salud para la gestión de afiliados mediante aprendizaje automático
    (Pontificia Universidad Javeriana Cali, 2025) Avila Reina, Adriana Janeth; Aguilar Ramírez, David Orlando; Vargas Cardona, Hernán Darío
    El proyecto aplicado tuvo como objetivo desarrollar un modelo automatizado para la identificación de niveles de riesgo en salud de afiliados de la empresa Keralty mediante técnicas de aprendizaje automático supervisado. Su importancia radica en la necesidad de fortalecer los procesos de estratificación de riesgo que actualmente se basan en reglas estáticas definidas por expertos, las cuales no se actualizan automáticamente ante nuevos datos ni aprovechan el potencial analítico de grandes volúmenes de información clínica, demográfica y de utilización de servicios. La problemática abordada se centra en mejorar la capacidad de la organización para identificar oportunamente a los pacientes con mayor probabilidad de deterioro en su estado de salud, permitiendo así priorizar acciones preventivas que optimicen el uso de recursos y reduzcan costos asociados a complicaciones evitables. Para resolver esta limitación, se preparó una base de datos estructurada, anonimizada y etiquetada con 36 clases combinadas de riesgo y severidad, y se entrenaron múltiples clasificadores supervisados, incluyendo XGBoost, Random Forest, Árboles de Decisión, Regresión Logística, KNN y SVM, tanto en versiones balanceadas como desbalanceadas. Los modelos fueron evaluados mediante métricas como exactitud, precisión, recall, F1-score y AUC-ROC, y validados con técnicas de partición aleatoria repetida (random holdout). XGBoost sin balancear fue el modelo con mejor desempeño general en las 36 clases incluso al ser aplicado sobre registros correspondientes a un período posterior, lo cual respalda su estabilidad operativa y capacidad de generalización dentro del mismo sistema de datos. Estos resultados sugieren que los modelos supervisados pueden complementar los enfoques actuales de gestión del riesgo, ofreciendo mayor precisión en la clasificación de pacientes y una base técnica para el diseño de intervenciones diferenciadas. Aunque el proyecto no contempla una fase de despliegue real, sus hallazgos representan un insumo relevante para tomadores de decisión que buscan integrar herramientas de inteligencia artificial en la gestión en salud. Finalmente, se identificó como línea futura la exploración de técnicas no supervisadas para detectar nuevas segmentaciones no capturadas por los esquemas actuales.
  • Item
    Predicción de la volatilidad del bitcoin con modelos clásicos y de machine learning
    (Pontificia Universidad Javeriana Cali, 2025) Escobar Anduquia, Christian Daniel; Ruiz Ramos, Luis Carlos; Rivas Cortés, Vladimir Fabián; García Arboleda, Isabel Cristina
    La volatilidad del Bitcoin ha sido objeto de análisis debido a su marcada variabilidad en los mercados financieros, dado que su estudio permite a los inversionistas optimizar estrategias y diversificar portafolios en un entorno globalizado. Comprender su comportamiento facilita decisiones informadas ante la incertidumbre y especulación, aunque su naturaleza descentralizada plantea desafíos significativos. Inversionistas y formuladores de políticas enfrentan dificultades para crear estrategias adaptativas debido a su alta volatilidad y comportamiento impredecible. Para abordar este problema, se analizó el comportamiento histórico de la volatilidad y se compararon modelos estadísticos clásicos, como ARCH y GARCH, con enfoques avanzados de machine learning, incluyendo LSTM y GRU. Además, se implementaron otros modelos como SRNN, XGBOOST y LIGHTGBM para ampliar el análisis comparativo. Se evaluó la efectividad de cada enfoque, identificando ventajas, desventajas y parámetros clave que influyen en la precisión de las predicciones. XGBOOST, LSTM y GRU destacaron por su precisión; XGBOOST mostró una limpieza superior de residuos y ausencia de heterocedasticidad significativa, mientras que LSTM y GRU capturaron mejor dinámicas no lineales. Este estudio impulsó el desarrollo de competencias en ciencia de datos y modelado financiero, resaltando la utilidad del enfoque CRISP-DM y la importancia de integrar análisis de sentimientos y variables exógenas para mejorar la generalización en mercados volátiles como el de las criptomonedas.
  • Item
    Proyecto reteniendo futuros: un enfoque predictivo con Machine Learning para mejorar la retención estudiantil
    (Pontificia Universidad Javeriana Cali, 2025) Botero Ramírez, Sandra Paola; Arango Londoño, David
    La deserción estudiantil universitaria constituye un desafío global con repercusiones negativas en el desarrollo social y científico a nivel nacional o regional. Las Instituciones de Educación Superior (IES) asumen la responsabilidad de abordar y prevenir este problema. Este estudio presenta un marco conceptual de la deserción universitaria, fundamentado en investigaciones que emplean enfoques cualitativos y cuantitativos, haciendo uso de la ciencia de datos. En este contexto, se lleva a cabo un análisis exploratorio descriptivo de los datos recopilados mediante el instrumento de caracterización correspondiente a los periodos académicos desde 2017-1 hasta 2021-2. El análisis se centra en comprender y examinar el fenómeno de la deserción entre los estudiantes que contestaron la encuesta de caracterización en dichos periodos. Finalmente, se procede a entrenar diversos modelos de Machine Learning, entre los que se incluyen la regresión logística, las máquinas de soporte vectorial, los bosques aleatorios de decisión y las redes neuronales simples. Estos modelos tienen la capacidad de prever y emitir alertas sobre posibles riesgos de deserción en los programas académicos de la universidad. Este enfoque proactivo permite a las instituciones tomar medidas preventivas y proporcionar apoyo personalizado a los estudiantes en riesgo, contribuyendo así a mejorar las tasas de retención y el éxito académico.
  • Item
    Modelo predictivo del tráfico de redes de comunicación 4g en eventos culturales o sociales en municipios intermedios de Cundinamarca
    (Pontificia Universidad Javeriana Cali, 2024) Balaguera Cubillos, Wilson Edilberto; González Torres, Paula Ginette; Tobón Llano, Luis Eduardo
    Este trabajo aborda la problemática de la saturación de redes móviles en eventos sociales y culturales, que afecta la calidad del servicio en zonas de mediana población en los municipios de Cundinamarca. El objetivo principal es desarrollar un modelo de predicción que permita anticipar el comportamiento del tráfico en las estaciones base 4G durante estos eventos, garantizando así la continuidad del servicio y mejorando la experiencia del usuario. El proyecto se centra en la recopilación de fuentes técnicas, gubernamentales y estatales con el fin de generar análisis de datos históricos de tráfico de red y en la identificación de patrones asociados a eventos relevantes en el departamento. La metodología utilizada incluye técnicas de minería de datos, web scraping para la recolección de información sobre festividades, y el uso de modelos de series temporales como Facebook Prophet, redes neuronales y modelos combinados (NeuralProphet) para mejorar la precisión en las predicciones. Los resultados obtenidos permiten proyectar aumentos de tráfico en fechas específicas, lo cual facilita la planificación de medidas preventivas y el ajuste de la infraestructura de red. El modelo propuesto demuestra ser eficaz en la detección de tendencias y patrones estacionales, lo que contribuye a la optimización del servicio y la reducción de problemas de saturación cuando se realizan eventos en dichos municipios. En conclusión, este proyecto ofrece una herramienta que le permite a las empresas de telecomunicaciones, conocer el comportamiento de la red en diferentes eventos que se realizan en los municipios de Colombia y así enfocar y proporcionar un enfoque proactivo en la gestión de la red, especialmente en contextos de alta demanda.
  • Item
    Clasificación de datos MOCAP sobre una disciplina deportiva usando modelos de Machine Learning
    (Pontificia Universidad Javeriana Cali, 2024) García Moncayo, Mario Fernando; Valencia Marín, Cristhian Kaori
    Este proyecto analiza en profundidad los datos capturados para clasificar categorías de movimiento en jugadores de tenis, utilizando herramientas de reconocimiento de actividades humanas (HAR) y captura de movimiento (MOCAP). Con un enfoque en los jugadores de la liga de tenis de Caldas, se busca detectar y extraer datos precisos sobre la posición y orientación de los atletas durante diversas acciones deportivas. Los datos, que fueron previamente obtenidos y organizados sin necesidad de una recolección nueva, están en formato BVH (Biovision Hierarchy), lo que permite representar con detalle la estructura y cinemática del cuerpo humano en movimiento. La investigación emplea modelos avanzados de aprendizaje automático para clasificar y analizar patrones biomecánicos en el tenis, con técnicas como el análisis de componentes principales (PCA) y algoritmos de clasificación para diferenciar movimientos específicos como golpes de derecha, reveses y servicios. Este enfoque facilita el estudio de variaciones entre jugadores en términos de eficiencia técnica y biomecánica. El objetivo final es proporcionar una base para recomendaciones personalizadas que optimicen el entrenamiento, permitiendo a entrenadores y jugadores ajustar técnicas y estrategias. Así, el proyecto tiene el potencial de ofrecer una herramienta para análisis deportivo avanzado
  • Item
    Generación de noticias a partir de conjuntos de datos económicos utilizando técnicas de inteligencia artificial y aprendizaje automático
    (Pontificia Universidad Javeriana Cali, 2025) López Gómez, David Leonardo; Bejarano Bejarano, Luis Vidal; Linares Ospina, Diego Luis; Álvarez Vargas, Gloria Inés
    En el contexto actual de rápida generación de datos económicos, surge el desafío de transformar conjuntos de datos complejos en información accesible y comprensible. Esta investigación aborda esta problemática mediante el uso de técnicas de inteligencia artificial (IA) y aprendizaje automático (AA) para la generación automatizada de noticias basadas en procesamiento de lenguaje natural (PLN). Aquí, el problema radica en la ineficiencia de los métodos tradicionales de análisis de datos frente al volumen y la complejidad de la información económica contemporánea. Además, los medios de comunicación enfrentan una creciente demanda de entrega rápida y precisa de contenidos, lo que presenta desafíos significativos en términos de costos y operatividad. Para abordar estos retos, se desarrolló un sistema basado en los modelos T5 y GPT-2, ambos con arquitecturas de tipo transformer. Los datos económicos fueron preprocesados, limpiados y estructurados para entrenar los modelos. Se realizaron ajustes utilizando hiperparámetros optimizados y métricas de evaluación como BLEU, BERTScore y perplejidad, con el objetivo de medir la calidad de los textos generados. Los resultados mostraron que el modelo T5 superó al GPT-2 en precisión, coherencia y fluidez del texto generado, logrando un BLEU de 0.14, un BERTScore promedio (F1) de 0.83 y una perplejidad de 1.11 tras la optimización. En comparación, el GPT-2 alcanzó un BLEU de 0.15, un BERTScore promedio (F1) de 0.70 y una perplejidad de 12.75. Estas métricas indican que el T5 es más adecuado para generar textos complejos y altamente estructurados, mientras que el GPT-2 destaca en tareas donde se requiere mayor creatividad y generación de contenido más diversificado. El resultado de esta investigación, aporta un avance en la transformación de datos económicos en contenido informativo, reduciendo costos y tiempos asociados a los procesos tradicionales. La solución propuesta se presenta como una herramienta prometedora para democratizar el acceso a información económica y apoyar la toma de decisiones en entornos dinámicos.
  • Item
    Clasificación de los estudiantes de pregrado de acuerdo a su rendimiento académico y su uso para la predicción del éxito de su formación profesional
    (Pontificia Universidad Javeriana Cali, 2023) López Silva, Carolina; Mosquera Valencia, Diego Fernando; Cortés Rodríguez, Mauricio José
    En Colombia, se estima que alrededor de la mitad de los estudiantes que inician un proceso de formación superior, lo finalizan. Este comportamiento también se da en la Pontificia Universidad Javeriana Cali, por lo cual, una forma en la que se podría aportar a la solución de esta problemática es con el desarrollo de este proyecto aplicado, donde primero se planteó encontrar las diferentes tipologías de los estudiantes a partir de su rendimiento académico, y un modelo que predice dichas tipologías, y de esa forma se consolide un proceso de analítica que le brinde información a la Universidad, para incidir en el éxito académico, es decir la culminación de los estudios, de sus estudiantes.
  • Item
    Aprendizaje automático aplicado al diagnóstico de la ocurrencia de la leishmaniasis a través de imágenes de lesiones cutáneas
    (Pontificia Universidad Javeriana Cali, 2023) Castro Duarte, Camilo; Linares Ospina, Diego Luis; Gómez, María Adelaida
    Este proyecto buscó aplicar técnicas de aprendizaje automático específicamente Redes Neuronales Convolucionales, para predecir si una lesión de tipo cutánea corresponde o no a la enfermedad de la Leishmaniasis, evaluación que no resulta tan simple mediante observación debido a la similitud con otros tipos de lesiones, para ello, se entrenaron modelos predictivos mediante una base de datos con 885 imágenes de lesiones cutáneas (407 correspondientes a Leishmaniasis y 478 correspondientes a otras lesiones cutáneas), las imágenes de Leishmaniasis fueron suministradas por el CIDEIM (Centro Internacional de Entrenamiento e Investigaciones Médicas). Durante el desarrollo del proyecto se trabajaron diferentes etapas como es el caso de la limpieza y adecuación de la base de datos de imágenes, selección y entrenamiento de los modelos, contraste de resultados y la identificación del modelo más adecuado. Los resultados arrojados por los diferentes experimentos y sus respectivas métricas permitieron establecer cuál es el modelo más adecuado para hacer la predicción, de esta forma es posible hacer un diagnóstico previo de la lesión del paciente sin siquiera estar este de cuerpo presente, también permite ayudar a personal de la salud que no tiene tanta experiencia en este tipo de lesiones a despejar dudas y tomar medidas. De esta forma se le da paso a diferentes posibilidades de aplicación del algoritmo desarrollado dentro del campo médico, como es el caso de integraciones futuras con aplicativos móviles o desarrollos web, esto puede facilitar el análisis de las lesiones de los pacientes de manera remota y de una forma ágil.
  • Item
    Pronóstico del patrón de arribo de contactos en una Línea de BPO
    (Pontificia Universidad Javeriana Cali, 2024) Solís Padilla, Johnattan; García Arboleda, Isabel Cristina
    Este proyecto consiste en el desarrollo de un modelo de pronóstico para la predicción del patrón de arribo de llamadas en una línea telefónica de atención al cliente, y la implementación de este modelo en una solución de analítica avanzada. Uno de los principales retos en la administración de las líneas de atención telefónica es predecir el volumen de contactos que serán atendidos con una proyección a largo plazo, mediano plazo y en tiempo real; esto es requerido para poder generar los planes de contratación de personal, configuración de horarios y toma de decisiones en tiempo real con respecto a cuando sacar o meter agentes de la línea. Actualmente, la empresa en estudio desarrolla estas estimaciones de una forma empírica o con técnicas poco avanzadas e imprecisas. Con este proyecto se pretende establecer el modelo de pronóstico más apropiado para predecir el patrón de arribo de contactos, evaluando modelos estadísticos y de aprendizaje automático para posterior implementar una solución de analítica avanzada que le permita a la administración de la línea tener una vista del pronóstico a mediano plazo (2 meses), corto plazo (entre mes) y tiempo real (entre día) de las llamadas que ingresarán a la línea. Este proyecto será aplicado a una línea de soporte de una cuenta anónima, pero se espera que su aplicabilidad se extienda a las más de 250 líneas que opera la empresa de BPO más grande en Colombia y una de las más grandes del mundo.
  • Item
    Detección de fenómenos territoriales en Santiago de Cali a partir de imágenes VHR
    (Pontificia Universidad Javeriana Cali, 2024) Cardona Hansen, Fernando; Sarria Montemiranda, Gerardo Mauricio
    Las imágenes satelitales son una fuente de datos alternativa en proyectos de ciencia de datos adelantados dentro del sector público en Colombia. Los asentamientos informales son fenómenos propios del crecimiento urbano caracterizados por la concurrencia de condiciones físicas y sociales deficitarias como población en condiciones de vulnerabilidad y falta de acceso a infraestructura de servicios públicos básicos. El uso de imágenes satelitales para identificar y mapear eventos de interés territorial como los asentamientos informales, constituye una alternativa para la implementación de acciones gubernamentales oportunas que sustituyan las medidas reactivas. El proyecto “Detección de fenómenos territoriales en Santiago de Cali usando imágenes VHR” tiene el propósito de desarrollar un modelo de aprendizaje profundo para la detección de asentamientos informales en imágenes satelitales del perímetro urbano de Cali, que contribuya a identificación de este fenómeno por parte de la administración municipal.
  • Item
    Predicción de deserción de clientes en planes de previsión exequial utilizando técnicas de aprendizaje automático
    (Pontificia Universidad Javeriana Cali, 2024) Cortés Cataño, Carlos Felipe; Mora Cañas, Carlos Luis; González Gómez, Daniel Enrique
    El presente proyecto evaluó varias técnicas de clasificación para identificar los clientes propensos a presentar deserción en contratos de previsión exequial en una compañía funeraria para después de comparar varias técnicas, seleccionar la técnica de aprendizaje automático “XGBoost”. La retención de clientes es esencial para la competitividad, cobertura y rentabilidad de esta empresa, y mediante la aplicación de este modelo, se logra un “recall” equivalente al 89%, permitiendo la identificación de 578 contratos propensos a desertar. Esto proporciona a la funeraria una buena alternativa para implementar estrategias más precisas y dirigidas a retener sus clientes, contribuyendo así a sus objetivos de crecimiento y éxito a largo plazo.
  • Item
    Sistema de reconocimiento de la estructura cerebral Cavum Septum Pellucidum basado en Deep Learning para el análisis de anomalías del desarrollo en imágenes de ultrasonido fetal en 2D
    (Pontificia Universidad Javariana Cali, 2025) Cifuentes Ortega, Milton Fabián; Torres Valencia, Cristian Alejandro
    En este proyecto se presenta el diseño, desarrollo e implementación de un sistema de reconocimiento basado en Deep Learning para la detección de la estructura craneal en fetos llamada Cavum Septum Pellucidum sobre imágenes de ultrasonido 2D, el cual tiene como objetivo colaborar con el sector salud en la detección temprana de anormalidades prenatales, debido a que este tipo de inconvenientes son muy comunes en el desarrollo del feto y así se podría reducir los índices de mortalidad en recién nacidos. Para el desarrollo del sistema se llevaron a cabo tareas de selección de criterios de recolección y procesamiento de las imágenes de ultrasonido fetal en 2D, además de la identificación de métricas de evaluación para la clasificación de normalidad o anormalidad. Estos modelos podrían ser aplicado a cualquier proceso de seguimiento prenatal donde se tomen imágenes de ultrasonidos para el control del crecimiento del feto. Las anormalidades detectadas podrían ayudar a diagnosticar posibles enfermedades tales como holoprosencefalia, displasia septo-óptica, agenesia de cuerpo calloso, enfermedad de Alexander, esclerosis tuberosa, facomatosis, pinealoma, trisomía del par y esquisencefalia. Teniendo en cuenta todo lo anterior se obtuvo como resultado final de este proyecto dos modelos; El primer modelo se centró en el reconocimiento de los planos craneales y se obtuvo un 99% de accuracy. Por otro lado, el segundo modelo se dividió por plano cerebral (Trans-Ventricular, Trans-Thalamic y Trans-Cerebellum) y se creó específicamente cada uno de ellos enfocados en la identificación de la estructura cerebral Cavum Septum Pellucidum, obteniendo como resultado final un 88.8%, 91% y 95.1% de Curva AUC ROC respectivamente.
  • Item
    Predicción de tasa de interés y su relación con los indicadores económicos mediante Ciencia de Datos
    (Pontificia Universidad Javariana Cali, 2024) Meza Pastrana, Sebastián Javier; Arango Londoño, David
    El presente proyecto aborda la predicción de la Tasa de Intervención de Política Monetaria en Colombia, una variable crucial para la estabilidad macroeconómica y la toma de decisiones en política económica. Dada la relevancia de esta tasa para regular la liquidez, influir en las decisiones de inversión y financiamiento, y estabilizar los precios, se exploraron enfoques avanzados de predicción mediante modelos de Machine Learning, contrastándolos con un modelo econométrico tradicional de regresión lineal múltiple. La problemática identificada radica en las limitaciones de los enfoques econométricos lineales para capturar relaciones no lineales y manejar conjuntos de datos de alta dimensionalidad. Con base en esta problemática, el proyecto tuvo como objetivos principales identificar las variables macroeconómicas más relevantes, evaluar la precisión de diferentes algoritmos de Machine Learning (Ridge, Lasso, Random Forest, XGBoost y SVR) y comparar su desempeño con el modelo econométrico. Los resultados evidenciaron que los modelos de Machine Learning, en particular XGBoost y Random Forest, lograron un mejor desempeño predictivo con errores promedio más bajos (MSE de 0.11 y 0.16, respectivamente) y mayor capacidad explicativa (R² superior a 0.97 en prueba). Por otro lado, el modelo econométrico, aunque respaldado por fundamentos teóricos sólidos, se quedó corto en precisión y capacidad para capturar patrones complejos, presentando autocorrelación y heterocedasticidad en los residuos. Además, se implementaron herramientas como SHAP para mejorar la interpretabilidad de los modelos avanzados, identificando las variables macroeconómicas más influyentes en las predicciones. Este análisis integral no solo subraya la relevancia de la tasa de política monetaria para la estabilidad económica, sino que también demuestra la importancia de integrar métodos avanzados para lograr predicciones precisas y proporcionar herramientas útiles para la toma de decisiones en entornos de alta incertidumbre. Las aplicaciones de este trabajo incluyen el fortalecimiento de la planificación financiera y el diseño de políticas públicas más informadas, así como la mejora en la gestión de riesgos económicos en sectores como el financiero y el empresarial. Los hallazgos refuerzan la necesidad de métodos modernos en el análisis de variables clave para enfrentar los retos dinámicos de las economías modernas
  • Item
    Análisis de imágenes satelitales para la clasificación de ecosistemas en predios
    (Pontificia Universidad Javariana Cali, 2024) Quiroz Moscarella, Roberto Enrique; Santos Peñuela, Francisco José; Castaño Idárraga, Omar Andrés
    El proyecto aplicado se centra en la segmentación de imágenes satelitales de predios para identificar ecosistemas. Aborda la problemática del trabajo manual requerido para segmentar zonas en imágenes, especialmente en la elaboración de proyectos de bonos de carbono. Se desarrolló un algoritmo funcional que permita a los investigadores segmentar grandes extensiones de tierra de manera eficiente, reduciendo el tiempo necesario para esta tarea. Los resultados obtenidos permiten la automatización del proceso de segmentación, particularmente sobre zonas verdes y cuerpos de agua permitiendo la evaluación de su extensión. Las posibles aplicaciones de este proyecto abarcan la investigación ambiental, la planificación del uso del suelo y la gestión de recursos naturales.
  • Item
    Predicción del gasto de bolsillo en salud de los hogares en Colombia usando modelos de aprendizaje automático
    (Pontificia Universidad Javariana Cali, 2024) Parada Portilla, Juan Sebastián; Ortega Lenis, Delia
    Este trabajo desarrolla modelos de aprendizaje automático para predecir el gasto de bolsillo en salud de los hogares colombianos. Utilizando datos de la Encuesta de Calidad de Vida (ECV), se identificaron variables clave como la presencia de enfermedades crónicas en el hogar, el ingreso del hogar, el tamaño del hogar, el estado de salud y la afiliación al sistema de seguridad social. Inicialmente, se exploraron modelos de regresión, pero debido a la alta proporción de valores nulos (85\% de los hogares no reportan gasto en salud), su desempeño fue limitado. Para abordar este problema, se transformó la variable dependiente en una binaria y se aplicaron modelos de clasificación, incluyendo Random Forest, Gradient Boosting y regresión logística, optimizados con la técnica SMOTE para balancear las clases. Los resultados muestran que los modelos de clasificación superan a los de regresión, con Random Forest y Gradient Boosting logrando los mejores desempeños en términos de ROC AUC. Este estudio proporciona herramientas útiles para el diseño de políticas públicas basadas en evidencia, permitiendo identificar hogares con mayor riesgo de incurrir en altos gastos en salud y facilitando intervenciones para reducir el impacto financiero en las familias colombianas.
  • Item
    “Diseminación selectiva de la información usando ciencia de datos: recomendación de libros y lecturas en las bibliotecas Comfama”
    (Pontificia Universidad Javariana Cali, 2024) Bedoya Henao, Edwin José; Álvarez Vargas, Gloria Inés; Linares Ospina, Diego Luis
    Este proyecto se enfoca en el desarrollo de un sistema de recomendación de libros para las Bibliotecas Comfama, con el objetivo de mejorar la experiencia de los usuarios al proporcionar sugerencias personalizadas basadas en sus preferencias de lectura y comportamiento histórico. La relevancia del proyecto radica en abordar el problema de la infoxicación, o sobrecarga de información, en un entorno donde la vasta cantidad de materiales disponibles dificulta la selección de lecturas adecuadas para cada usuario. El sistema de recomendación se construyó utilizando técnicas avanzadas de ciencia de datos, como modelos de agrupación (K-Means) y representaciones vectoriales de libros mediante Word2Vec, lo que permite identificar patrones de lectura y preferencias individuales. A partir de esta estructura, se generaron recomendaciones altamente precisas y personalizadas que optimizan el servicio de préstamo de las Bibliotecas Comfama, aumentando así la satisfacción de los usuarios. El sistema se fundamenta en una estructura de datos que integra tanto características demográficas como el historial de préstamos y consultas de cada usuario, lo que facilita la identificación de perfiles de lectores y la agrupación de usuarios con intereses similares. Como resultado, el proyecto ofrece un sistema innovador que promueve el uso más frecuente y eficiente de los servicios bibliotecarios, fortaleciendo el papel de las bibliotecas en la promoción de la cultura y el conocimiento. Este enfoque tiene aplicaciones potenciales más allá del ámbito bibliotecario, con posibilidades de implementación en sectores como el comercio electrónico o la selección de contenido digital, aprovechando las capacidades de la ciencia de datos para anticipar y satisfacer las preferencias individuales de los usuarios.
  • Item
    Estimación del precio de renta en predios rurales mediante modelación espacial en Colombia.
    (Pontificia Universidad Javariana Cali, 2024) Salgado Ramírez, Carlos Andrés; Arango Londoño, David; Bohórquez, Martha Patricia
    La Sociedad de Activos Especiales (SAE), que administra predios en extinción de dominio, actualmente está en el proceso de otorgar sus predios a diversas instituciones y comunidades para contribuir tanto a la soberanía alimentaria, como a otros sectores sociales del país. Para lograr esto, se deben establecer precios de renta justos y transparentes. Los métodos existentes para estimar la renta en predios rurales no han sido implementados hasta ahora en el país. Este proyecto desarrolla un modelo basado en técnicas de aprendizaje supervisado usando machine learning para estimar la renta de predios rurales en Colombia. El modelo incorpora la dependencia espacial, lo que permite una comprensión más profunda de las variaciones en los precios de renta. Este proyecto representa una oportunidad de innovación para la estimación de la renta en predios rurales y contribuye significativamente a la seguridad y soberanía alimentaria del país.
  • Item
    Estadificación imagenológica de la atrofia geográfica en la degeneración macular relacionada con la edad (DMAE), utilizando tomografía óptica coherente (OCT) con 3 cortes, en una población del sur de Colombia
    (Pontificia Universidad Javariana Cali, 2024) Quiñones Lucio, Andrés Felipe; Vargas Cardona, Hernán Darío
    La degeneración macular relacionada con la edad (DMAE) es una enfermedad degenerativa que afecta el segmento posterior del ojo, específicamente la mácula, que es la parte central de la retina responsable de la visión detallada y nítida. Es una de las principales causas de pérdida visual en personas mayores de 50 años. Existen dos tipos de DMAE: la atrófica o seca y la exudativa o húmeda. La forma atrófica es la más común y se caracteriza por la presencia de atrofia geográfica y acumulación de drusas— depósitos de desechos celulares y lipídicos—en la retina, particularmente en la mácula. Fisiopatológicamente, ocurre una descomposición y muerte (apoptosis) de las células maculares, lo que conduce a un deterioro gradual de la visión central. La forma exudativa es menos común pero más agresiva; se distingue por el desarrollo de neovascularización anormal debajo de la retina que puede sangrar y ocasionar cicatrices, resultando en una disminución más rápida de la agudeza visual. Aunque la DMAE no tiene cura, existen tratamientos que ayudan a retrasar su progresión y preservar la visión, lo que resalta la importancia del diagnóstico y tratamiento tempranos. La tomografía de coherencia óptica (OCT) se ha consolidado como una herramienta esencial para visualizar las capas retinianas y detectar cambios estructurales asociados con la DMAE. Las tecnologías avanzadas de OCT permiten obtener imágenes de alta resolución, facilitando la identificación de la atrofia y otras lesiones asociadas. La clasificación consensuada de la atrofia en DMAE mediante OCT ha sido establecida para estandarizar diagnósticos y fue la utilizada en el presente trabajo para su aplicación en técnicas de aprendizaje profundo.