Maestría en Ciencia de Datos
Permanent URI for this collection
Browse
Browsing Maestría en Ciencia de Datos by Title
Now showing 1 - 20 of 142
Results Per Page
Sort Options
Item Análisis comparativo de la percepción mediática de la reforma a la salud en Colombia usando técnicas NLP(Pontificia Universidad Javeriana Cali, 2025) Hernández Moreno, Bryan Steven; Coronado Cobos, Samuel Andrés; González Ipuz, José Luis; Álvarez Bustos, Abel; Ramírez Ovalle, Carlos ErnestoEste estudio aplicó técnicas de ciencia de datos y procesamiento de lenguaje natural (NLP) para analizar la percepción mediática sobre la reforma a la salud en Colombia (2022-2024), abordando una brecha en la literatura al examinar diferencias regionales en la cobertura periodística. Partiendo del rol del periodismo en la formación de opinión pública especialmente en temas críticos como la salud, se recolectaron 1.401 noticias mediante web scraping de fuentes confiables (SCImago) en las regiones Andina, Caribe y Pacífica, siguiendo criterios de inclusión rigurosos (periodo 2022-2024, idioma español, relevancia temática). Los datos se preprocesaron con técnicas de NLP (tokenización, lematización, eliminación de stopwords y publicidad) y se depuraron mediante análisis estadístico (excluyendo 39 noticias atípicas por IQR). Para el análisis, se implementaron modelos de similitud (TF-IDF, Doc2Vec, MPNet) y clasificación de sentimientos (BETO, RoBERTa y ChatGPT-4o), este último como contraste. Los modelos fine tuned (BETO: 91.29% accuracy; RoBERTa: 89.18%) superaron significativamente a ChatGPT-4o (67.29%), demostrando la importancia del ajuste especializado para contextos periodísticos en español. El etiquetado manual (26.43% del corpus) permitió validar los resultados, destacando tendencias regionales: neutralidad en la cobertura Andina (asociada a enfoques institucionales), mayor positividad en el Caribe y predominio de narrativas negativas en el Pacífico (vinculadas a críticas locales). Los hallazgos confirman que: Las diferencias geopolíticas y socioculturales moldean narrativas mediáticas, pese a cierta homogeneidad discursiva intrarregional (validada por métricas de similitud). El fine-tuning de modelos de NLP es crucial para análisis de sentimientos en dominios especializados, siendo BETO óptimo para español. La metodología propuesta integrando web scraping, NLP y visualización interactiva (Power BI) ofrece un marco replicable para estudios de percepción mediática en políticas públicas.Item Análisis comparativo de Modelos de Segmentación en imágenes de tomografía computarizada (CT) del área abdominal(Pontificia Universidad Javeriana Cali, 2024) Polanco Velasco, Jan; Astudillo Bello, Stefania; Gil González, JuliánEl presente trabajo de grado titulado “Análisis comparativo de Modelos de Segmentación en imágenes de tomografía computarizada (CT) del área abdominal” se propone desarrollar y comparar seis modelos de Deep Learning ampliamente utilizados en tareas de segmentación: U-Net, U-Net con Backbone VGG16, U-Net con Backbone ResNet50, SegNet, FPN con Backbone ResNet50 y LinkNet con Backbone VGG16. El objetivo principal de este estudio es determinar cuál de estos modelos ofrece el mejor rendimiento en términos de precisión, recall, coeficiente Dice, accuracy, IoU y loss, al segmentar imágenes de CT del área abdominal. El proyecto se estructura en varias etapas clave. En primer lugar, se lleva a cabo una recolección y procesamiento exhaustivo de los datos de CT abdominal, incluyendo técnicas de limpieza de artefactos y ruido adicional, así como el uso de Data Augmentation para aumentar la diversidad del conjunto de datos. Posteriormente, se implementan y entrenan los modelos de segmentación seleccionados utilizando plataformas avanzadas de computación, como Kaggle, ajustando los parámetros específicos para el problema en cuestión. La evaluación del rendimiento de cada modelo se realiza utilizando un conjunto de métricas rigurosas y específicas, tales como precisión, recall, coeficiente Dice, accuracy, IoU, loss, F1 y F2, permitiendo un análisis comparativo detallado de los resultados obtenidos. Además, se consideran aspectos como el tiempo de entrenamiento y la capacidad de generalización de los modelos a nuevos datos no vistos durante el entrenamiento.Item Análisis de clusterización de clientes alertados por posibles operaciones sospechosas en bancolombia(Pontificia Universidad Javeriana Cali, 2024) Ospina Martínez, Ximena; Mariaca Rueda, Cristian David; Cano Cadavid, Andrés FelipeEn la Vicepresidencia de Cumplimiento en Bancolombia cada mes se generan alertas de clientes con posibles operaciones sospechosas, identificadas a partir de modelos analíticos detectivos. El crecimiento del negocio y aumento de la cobertura de tipologías ha derivado en un aumento de alertas, saturando la capacidad de análisis del área de Investigación, lo que impide generar una respuesta oportuna para mitigar el riesgo de Lavado de Activos y Financiación del Terrorismo (LAFT). Por el aumento de alertas, se han implementado algunos métodos de agrupación que emplean procedimientos intuitivos y requieren aproximadamente tres días hábiles para su ejecución. Para el área de Investigación es útil este proyecto, ya que se centra en buscar la mejora de los procesos de evaluación impactando dos aspectos relevantes a la hora de identificar riesgos LAFT: capacidad y tiempo oportuno de evaluación de las alertas. El objetivo principal del trabajo es implementar modelos de clusterización a partir de técnicas de aprendizaje de máquina para agrupar a los clientes alertados según características de riesgo LAFT que estos representan para el Banco. Además, se busca identificar las variables más relevantes e influyentes en el riesgo LAFT de un cliente alertado. Se espera obtener un modelo de agrupamiento para clientes con posibles operaciones sospechosas en Bancolombia, tener claras las variables, características y patrones que tienen los clientes alertados por operaciones sospechosas, para ser tenidas en cuenta en los monitoreos del Banco, y de esta forma, aportar a que el indicador de oportunidad en el tiempo de respuesta de las alertas sea optimo.Item Análisis de conglomerados en desigualdades y Enfermedades Cardiovasculares (ECV): una base para la asignación de recursos en políticas públicas en salud(Pontificia Universidad Javariana Cali, 2024) Meza Buchely, Juan Sebastián; Rosero Ramos, Karen Marcela; Paz Roa, Juan CamiloEl proyecto tiene como objetivo identificar la incidencia de las condiciones socioeconómicas en la mortalidad por ECV para fortalecer la focalización de recursos de las políticas públicas de salud en la región pacífica colombiana teniendo como base información correspondiente al periodo 2016-2020 mediante un análisis de conglomerados geoespacial. La metodología empleada en el estudio combina un enfoque teórico-práctico basado en la recolección de datos secundarios y su posterior análisis mediante la metodología CRISP-DM, que consta de seis etapas para el procesamiento de datos. Se emplearon técnicas de análisis espacial y de conglomerados para identificar patrones en la prevalencia de mortalidad por ECV en la región pacífica colombiana. El procedimiento incluyó la recopilación de información de fuentes oficiales, la aplicación de reducción de dimensionalidad (T-SNE) y el uso de algoritmos de clusterización (K-means y otros métodos complementarios) para agrupar municipios según sus características sociodemográficas y tasas de mortalidad. Posteriormente, se validaron los resultados con expertos en políticas públicas de salud y se implementó un tablero digital interactivo para la visualización de los hallazgos, con el objetivo de apoyar la toma de decisiones en salud pública. Los resultados del estudio permitieron destacar que las condiciones socioeconómicas, como el NBI, la cobertura educativa, el IRCA, el valor agregado y el gasto en salud, tienen un alto poder explicativo en la mortalidad por ECV en la región pacífica colombiana. Utilizando el método K-means con reducción de dimensionalidad mediante T-SNE, se agruparon los municipios en cuatro clústeres con características diferenciadas. La validación con métricas estadísticas determinó que este modelo era el más adecuado, confirmando su consistencia y separación óptima de los grupos. Además, los resultados fueron validados por expertos en salud pública, quienes resaltaron la relevancia del estudio para la focalización de recursos y la formulación de políticas. Finalmente, se desarrolló un tablero digital de acceso público para apoyar la toma de decisiones en saludItem Análisis de factores y alerta temprana del riesgo de violencia basada en género en Colombia(Pontificia Universidad Javeriana Cali, 2023) Barrera Barrera, David Samuel; Poveda Aguirre, Eliana Liney; Arango Londoño, DavidLa violencia física, psicológica, sexual y económica contra las mujeres hacen parte de las distintas formas de violencia basada en género (VBG). En consecuencia, con el presente proyecto se creó, tentativamente, un modelo de aprendizaje no supervisado que permitió identificar los determinantes que inciden en la VBG y, con ello, visibilizar el uso de herramientas de machine learning para la comprensión de este fenómeno a nivel nacional. Conocer dónde se concentra, por qué, y en qué casos se incrementa la violencia de pareja y sexual es relevante para la prevención y, en particular, para la planificación de los recursos y servicios institucionales implicados en la lucha contra la VBG, especialmente de intervención temprana.Item Análisis de imágenes satelitales para la clasificación de ecosistemas en predios(Pontificia Universidad Javariana Cali, 2024) Quiroz Moscarella, Roberto Enrique; Santos Peñuela, Francisco José; Castaño Idárraga, Omar AndrésEl proyecto aplicado se centra en la segmentación de imágenes satelitales de predios para identificar ecosistemas. Aborda la problemática del trabajo manual requerido para segmentar zonas en imágenes, especialmente en la elaboración de proyectos de bonos de carbono. Se desarrolló un algoritmo funcional que permita a los investigadores segmentar grandes extensiones de tierra de manera eficiente, reduciendo el tiempo necesario para esta tarea. Los resultados obtenidos permiten la automatización del proceso de segmentación, particularmente sobre zonas verdes y cuerpos de agua permitiendo la evaluación de su extensión. Las posibles aplicaciones de este proyecto abarcan la investigación ambiental, la planificación del uso del suelo y la gestión de recursos naturales.Item Análisis de la deforestación en la Amazonía colombiana usando técnicas de aprendizaje automático(Pontificia Universidad Javeriana Cali, 2023) León Acosta, Paola Andrea; Otero Martínez, Guillermo AndrésDebido al alto impacto de la deforestación en el calentamiento global, el aumento de enfermedades zoonóticas y el riesgo de extinción de la biodiversidad, surge la necesidad de desarrollar nuevos enfoques para la medición y análisis de la deforestación que permitan a los gobiernos tener una mejor compresión de este fenómeno para centrar su atención y recursos a atender esta crisis ambiental en las zonas más vulnerables. Dada esta situación y considerando el amplio uso de los algoritmos de aprendizaje automático para analizar datos complejos como imágenes y textos, este proyecto tuvo como objetivo analizar el comportamiento de la deforestación en la Amazonía colombiana usando diferentes técnicas de aprendizaje automático con imágenes satelitales de Google earth engine, considerando estas metodologías como nuevas propuestas de medición en el análisis de la cobertura forestal. Posteriormente, se evaluaron estos modelos mediante métricas de evaluación, una vez seleccionado el modelo con mejor rendimiento, se identificaron las zonas con deforestación en las imágenes satelitales, y a partir de estos resultados se cuantificó y analizó el incremento de la perdida de bosques en un periodo determinado con el propósito de generar alertas de las zonas más vulnerables, y así brindar una herramienta que se pueda considerar como un insight para la formulación de planes de acción y políticas para la prevención y reforestación.Item Análisis de la red de transporte del sistema de transporte masivo de Cali (MIO) en términos de transbordo(Pontificia Universidad Javeriana Cali, 2024) Marín Zamora, César Alejandro; Guzmán Zuñiga, Jhon Alexander; Vargas Valencia, Miguel Ángel; Martínez Arias, Juan CarlosEn el 2008 en la Ciudad de Cali se implementó un sistema de transporte masivo (MIO), que desde la fecha a la actualidad ha presentado inconvenientes para cubrir su demanda con eficiencia, generando colapso en sus estaciones e inconformidades en sus pasajeros. A partir de lo anterior, se planteó este proyecto de investigación donde se realizo un análisis a la red de transporte del sistema MIO en términos de transbordo, a través de técnicas de recolección y procesamiento de datos como web scraping, clustering aglomerativo, teoría de redes, Network Analysis, medidas de centralidad e intermediación de una red, encontrando como resultado la caracterización de la red de transporte MIO con relación a los transbordos que la conforman, mediante la identificación de las rutas y los puntos de transbordos más utilizados e importantes de la Ciudad, el reconocimiento del patrón de movilidad de los pasajeros con relación al uso de transbordos y la eficiencia del sistema de transporte MIO; información que se podrá utilizar en futuras investigaciones para crear planes de mejora.Item Análisis de polaridad de tweets sobre contexto político colombiano usando técnicas de aprendizaje no supervisado(Pontificia Universidad Javeriana Cali, 2024) Pizarro Rivera, Francisco; Pabón, María ConstanzaEl análisis de polaridad u orientación semántica es una de las ramas del Natural Language Processing que ha tenido más crecimiento en el última década, con amplias aplicaciones a nivel académico y comercial. En este proyecto de grado se realizó una exploración sobre la aplicación de modelos de Machine Learning de carácter Auto Supervisado y No Supervisado para realizar el análisis de polaridad en tweets escritos por los usuarios de la red social X específicamente escritos sobre el contexto político colombiano. Se exploró el uso de un enfoque con modelos híbridos, en los cuales se hace un preproceso de pseudo etiquetado por medio de un modelo basado en lexicones (modelo VADER) para luego entrenar modelos supervisados como SVM, Logistic Regression y Multinomial Naive Bayes. El segundo enfoque constó de usar el modelo No Supervisado de K-Means, obteniendo un performance superior en la ejecución del modelo hibrido. Este trabajo tiene también por output la exportación a modo de prototipo del modelo con mejor performance y su vectorizador entrenado con el vocabulario de los 4.830 tweets recolectados de manera manual para ser desplegado en posibles ambientes de producción para el desarrollo de herramientas de análisis de orientación semántica aplicada a textos de redes sociales, pero en específico a tweets relacionados con el contexto político colombiano.Item Análisis de sentimiento de las llamadas del Call Center de la Universidad Javeriana de Cali mediante el uso de Ciencia de Datos(Pontificia Universidad Javeriana Cali, 2025) Semma Álvarez, Luis Miguel; Quiza Vargas, Iván Felipe; Agreda Villota, Nelson Andrés; Álvarez Vargas, Gloria Inés; Linares Ospina, Diego LuisEl presente proyecto se enfocó en el análisis de sentimiento de las llamadas del Call Center de la Universidad Javeriana de Cali mediante técnicas de ciencia de datos. Su finalidad fue desarrollar una herramienta que permita analizar el sentimiento expresado en cada llamada y clasificar las interacciones según su contenido emocional, contribuyendo a mejorar la calidad del servicio y apoyar la toma de decisiones informadas. Para ello, se emplearon técnicas como GCP Speech-to-Text para la transcripción de audios, modelos de clasificación supervisada como SVM y RNN y clasificación no supervisada con NMF. Los resultados muestran un buen desempeño, destacando la utilidad del modelo SVM-TFIDF con métricas de F1 y AUC positivas. Está solución representa un avance significativo en la gestión de la información y atención al cliente en el entorno educativo.Item Análisis de sentimiento para determinar patrones predictivos de problemas de crisis reputacional en hoteles de Bogotá(Pontificia Universidad Javeriana Cali, 2025) Silva López, Juan Manuel; Mora Cardona, Mario JuliánEste proyecto se centró en el análisis de reseñas de hoteles en Bogotá con el objetivo de identificar patrones textuales y temporales asociados a posibles crisis de reputación empresarial. Mediante el uso de herramientas de ciencia de datos como Python, Jupyter Notebook y bibliotecas especializadas como Pandas, Scikit-learn y NLTK, se procesaron miles de opiniones de usuarios para construir un modelo predictivo basado en sentimientos negativos. Se realizó un análisis de series de tiempo sobre reseñas negativas, identificando patrones estacionales y periodos críticos que pueden servir como alertas tempranas. Este componente permitió incorporar una dimensión temporal valiosa para la toma de decisiones estratégicas. Se aplicaron técnicas de procesamiento de lenguaje natural (NLP), incluyendo lematización y vectorización, para transformar el texto en variables cuantificables. A partir de una función de clasificación que distinguía entre estados de crisis y no crisis, se entrenaron cuatro algoritmos de aprendizaje supervisado: Regresión Logística, Random Forest, Support Vector Machine (SVM) y MLPClassifier. Cada modelo fue evaluado antes y después del ajuste de hiperparámetros mediante GridSearchCV, siendo el SVM y el MLP los que lograron mejores métricas de precisión y recall en la predicción de crisis. En conjunto, el proyecto demuestra la viabilidad de utilizar análisis de sentimientos y aprendizaje automático para fortalecer la gestión reputacional en el sector hotelero, con potencial de escalabilidad a otras industrias dependientes de plataformas de opinión digital.Item Análisis de sentimientos en llamadas en centros de atención al cliente(Pontificia Universidad Javeriana Cali, 2025) Andrea, Arias Gómez; Rincón Loaiza, Daniel; Rojas Tavera, Jhon Alexander; Torres Valencia, Cristian AlejandroEn el contexto de los centros de contacto, la calidad de las interacciones entre agentes telefónicos y clientes es esencial para garantizar la satisfacción del cliente y promover el crecimiento empresarial. La ausencia de herramientas para identificar los factores que influyen en el rendimiento de los servicios puede impactar negativamente la reputación y eficiencia operativa. En este contexto, se desarrolló un proyecto de análisis de sentimientos aplicado a transcripciones de llamadas en español, específicamente en el call center de la Universidad Pontificia Javeriana de Cali. El objetivo principal fue analizar y clasificar las emociones expresadas en estas interacciones para identificar patrones emocionales, mejorar la comprensión de las necesidades de los usuarios y optimizar la experiencia del cliente en un entorno educativo. El proyecto integra técnicas avanzadas de aprendizaje automático y procesamiento de lenguaje natural (PLN), incluyendo reconocimiento automático del habla y diarización, para segmentar y analizar las conversaciones. El trabajo abarcó desde la construcción de un corpus representativo y el preprocesamiento avanzado de texto, hasta la configuración y adaptación de modelos de aprendizaje profundo. Además, se diseñó una interfaz con AppScript, que facilita la carga de datos y la visualización de resultados, asegurando una experiencia de usuario eficiente y accesible. La evaluación de los modelos de clasificación se realizó mediante métricas como precisión, recall y F1-score, dentro de un marco metodológico robusto que combina CRISP-DM y Scrum, garantizando un proceso estructurado y ágil. Este enfoque permite a las empresas del sector BPO en Colombia anticipar problemas, optimizar operaciones y mantener una reputación positiva en un mercado altamente competitivo.Item Análisis de sentimientos utilizando aprendizaje automático de menciones en twitter para la secretaría de movilidad de Bogotá(Pontificia Universidad Javeriana Cali, 2023) Quiñonez Romero, Luis Eduardo; Carbonell García, Luisa Fernanda; Peralta Alean, Andrés Gabriel; Pabón Burbano, María ConstanzaLa evolución de la sociedad moderna ha llevado a la instauración de urbes de gran densidad en donde difícilmente se logra mantener un balance entre las zonas de trabajo, estudio y las zonas residenciales, lo que genera desplazamientos considerables para la población media dentro de su ciclo de cotidianidad. La ciudad de Bogotá no es la excepción a estas condiciones, por lo que la Secretaría de Movilidad asume un reto en la implementación de medidas que agilicen el transporte de los ciudadanos. Un desafío subyacente en la implementación de estas medidas es la medición de su efectividad, donde la percepción de los usuarios juega un papel fundamental en la evolución de los planes de movilidad y la identificación de necesidades y ajustes de las iniciativas actuales. En ese sentido las redes sociales operan como compiladores masivos de percepciones sobre la gestión realizada, generando que la Secretaría enfoque esfuerzos de comunicación sobre la red social twitter, queriendo contar con un mecanismo automatizado que permita identificar las tendencias en cuanto a las percepciones de los usuarios. Para tal fin se pretende desarrollar un análisis de sentimientos con un modelo de clasificación de aprendizaje supervisado, el cual permita, mediante una aplicación en línea usando uno o varios modelos entrenados, identificar y clasificar conjuntos de tweets.Item Análisis descriptivo y predictivo para la vigilancia de los casos de dengue grave en la ciudad de Cali(Pontificia Universidad Javeriana de Cali, 2023) Mena Ríos, Andrés Mauricio; Hurtado Murillo, Faber Esteban; Sánchez Andrade, Jefferson; Arango Londoño, DavidEste proyecto de ciencia de datos desarrolla un modelo predictivo que permite estimar la cantidad de casos de dengue grave que ocurren en un determinado momento en la ciudad de Cali. Para eso, se realiza un análisis de la dinámica de la enfermedad, considerando aspectos como la temporalidad, la incidencia geográfica y algunas variables sociodemográficas; además, se construyen modelos predictivos basados en cuatro algoritmos de Machine Learning, el uso de fuentes de datos informales, y la incorporación de una variable novedosa como predictor. La primera parte del proyecto se enfoca en análisis descriptivos del dengue grave en Cali, a partir del procesamiento de los registros históricos oficiales, con el propósito de comprender patrones y tendencias de la enfermedad e identificar factores relacionados con su incidencia. La segunda sección del proyecto gira alrededor de la determinación del mejor modelo para predecir la cantidad de casos de dengue en Cali, haciendo uso de una variedad de recursos de la ciencia de datos para la construcción, evaluación y análisis de los candidatos.Item Análisis espaciotemporal de la relación entre las infracciones y los accidentes de tránsito en la ciudad de Cali, Colombia 2021–2022(Pontificia Universidad Javeriana Cali, 2025) Grisales Cárdenas , Christian Fernando; Castro Salazar, Fabián Andrés; Moreno Collazos, Gustavo Andrés; Arango Londoño, DavidEl presente documento es resultado del proyecto aplicado, requisito esencial para optar por el título de Maestría en Ciencia de Datos de la Pontificia Universidad Javeriana Cali. En él se propone la aplicación de modelos estadísticos para procesos puntuales espaciales con el fin de analizar la distribución geográfica de los siniestros viales con fatalidad, en relación con diversas covariables asociadas a infracciones de tránsito, en el área urbana de Santiago de Cali. La información utilizada fue proporcionada por la Secretaría de Movilidad e incluye datos georreferenciados de siniestros y reportes de infracciones correspondientes a los años 2021 y 2022. Con un enfoque teórico-práctico, guiado por la metodología CRISP DM, se integró el conocimiento académico en la solución de una problemática social crítica como lo es la mortalidad por accidentes de tránsito. Inicialmente, se establecieron los fundamentos conceptuales de los procesos puntuales espaciales. Luego, se llevó a cabo una exploración de los datos espaciales y se desarrollaron modelos de intensidad de puntos, utilizando tanto enfoques estadísticos clásicos como algoritmos de aprendizaje automático. Entre estos, el modelo de bosques aleatorios presentó el mejor desempeño según las métricas MAE, RMSE y R². Los resultados evidencian que los siniestros mortales están significativamente asociados con infracciones como conducir bajo los efectos del alcohol o sustancias psicoactivas, así como ignorar señales de pare o semáforos en cruces viales. Además, se identificaron zonas de alto y bajo riesgo de fatalidad en la ciudad, lo cual permitió generar recomendaciones de intervención en infraestructura y programas de educación vial.Item Análisis predictivo de la salud mental en estudiantes y colaboradores de una universidad privada colombiana mediante técnicas de ciencia de datos(Pontificia Universidad Javeriana Cali, 2024) Valderrama Moreno, Nini Alejandra; González Gómez, Daniel EnriqueLa salud mental presenta un desafío a nivel mundial con repercusiones negativas en contextos sociales, institucionales, familiares, laborales, educativos, entre otros, este proyecto tuvo como objetivo principal comprender la salud mental de estudiantes y colaboradores de una universidad privada de Colombia, a través de la implementación de técnicas de modelamiento predictivo en Ciencia de Datos, para ello se empleó técnicas avanzadas de análisis de datos, aprendizaje automático y visualización interactiva. En una primera etapa, se realizó una exhaustiva exploración descriptiva de la base de datos, seguidamente, se aplicaron técnicas de reducción de dimensionalidad (PCA, t-SNE, UMAP) y métodos de agrupamiento (KMeans, clustering aglomerativo, GMM) para identificar patrones y posibles subgrupos latentes, aunque las métricas cuantitativas no evidenciaron clústers naturales bien definidos. En la segunda fase, se implementaron modelos de aprendizaje supervisado, incluyendo Regresión Lasso, Random Forest, XGBoost y LightGBM, para predecir variables clave como depresión, ansiedad, estrés, soledad, resiliencia, satisfacción con la vida y recursos psicosociales. Se emplearon técnicas de sobremuestreo (SMOTE) y validación cruzada para asegurar la robustez de los modelos y se analizaron las variables predictoras más relevantes asociadas a cada indicador. Finalmente, se desarrolló una herramienta de visualización interactiva desarrollada en PowerBi, que integra los resultados descriptivos, de clustering y de predicción, permitiendo a usuarios técnicos y no técnicos explorar dinámicamente la estructura y los determinantes del bienestar (Indicadores Positivos) y malestar psicológico (Indicadores Negativos) en la población de Colaboradores, estudiantes de Posgrado y estudiantes de Pregrado. Los hallazgos obtenidos aportan una visión integral y basada en evidencia sobre los factores asociados a la salud mental en cuanto bienestar y malestar en contextos universitarios, y constituyen una base sólida para el diseño de intervenciones focalizadas y futuras investigaciones en salud mental y determinantes sociales.Item Análisis predictivo del impacto del fenómeno El Niño-Oscilación Sur (ENOS) en el nivel del mar en el Pacífico Colombiano, empleando Modelos de Series de Tiempo y Algoritmos de Machine Learning(Pontificia Universidad Javeriana Cali, 2025) Vásquez López, Laura Marcela; Bermúdez Rivas, Christian; Ramírez Buelvas, Sandra MilenaEste estudio evaluó el impacto del fenómeno El Niño-Oscilación del Sur (ENOS) sobre la variabilidad del nivel del mar en el litoral Pacífico colombiano, con énfasis en las zonas urbanas de Ciudad Mutis, Buenaventura y Tumaco. Se implementó una metodología basada en el estándar CRISP-DM, integrando técnicas de ciencia de datos, modelado geoestadístico y algoritmos de aprendizaje profundo orientados a series de tiempo, con el objetivo de generar escenarios predictivos de sobreelevación del nivel del mar y analizar su impacto espacial sobre ecosistemas y asentamientos humanos vulnerables. Para alcanzar este objetivo, se integraron múltiples fuentes de datos, incluyendo series de tiempo oceanográficas y atmosféricas (nivel del mar, temperatura superficial del mar, presión media a nivel del mar, viento superficial y precipitación acumulada), productos satelitales y de reanálisis (CMEMS, ERA5, MSWEP ), así como datos altimétricos de alta resolución obtenidos mediante sensores como el Light Detention and Ranging - LiDAR. Las series temporales fueron sometidas a procesos de limpieza, transformación (análisis de anomalías, suavizado, estandarización) y análisis de correlación, tanto bivariado como multivariado. Posteriormente, se implementaron modelos de redes neuronales recurrentes tipo Long Short-Term Memory (LSTM ), entrenados con series multivariadas para predecir anomalías del nivel del mar asociadas a diferentes fases del ENOS. Los resultados mostraron que los modelos LSTM alcanzaron un desempeño sobresaliente, con coeficientes de determinación (R2) superiores a 0.920 y errores cuadráticos medios (RMSE ) inferiores a 0.011 m en todas las localidades. El modelo multivariado (Modelo 3), que utilizó directamente las series de tiempo de las anomalías estandarizadas de las variables ambientales, superó en precisión a los modelos basados en componentes canónicos. Se identificaron asociaciones significativas entre el nivel del mar y los índices ENOS, especialmente Niño 3.4, así como con variables locales como la presión y el viento zonal. Los eventos El Niño Canónico y Costero generaron las mayores sobreelevaciones (hasta 0.110 m), mientras que los eventos La Niña provocaron descensos moderados (hasta –0.060 m). En paralelo, se generaron Modelos Digitales de Elevación (MDE ) a partir de datos LiDAR, utilizando técnicas geoestadísticas (kriging) y métodos determinísticos (interpolación lineal, cúbica y por vecinos más cercanos). La interpolación lineal demostró ser la técnica más precisa y estable, con valores de R2 superiores a 0.999 en las tres localidades. Estos MDE fueron fundamentales para la construcción de escenarios de inundación, definidos como la suma de la marea máxima observada (percentil 90), el run-up por oleaje (estimado mediante la fórmula de Stockdon) y la sobreelevación inducida por eventos El Niño. Los mapas de inundación generados evidenciaron impactos sobre ecosistemas de manglar y áreas urbanas de alta vulnerabilidad, particularmente en Tumaco y Buenaventura. En Ciudad Mutis, se observó una afectación considerable sobre zonas ribereñas y humedales costeros. Estos hallazgos resaltaron la utilidad de los modelos LSTM y del análisis geoespacial de alta resolución como herramientas técnicas para la predicción de riesgos costeros, la planificación territorial y la formulación de estrategias de adaptación frente a la variabilidad climática en regiones altamente expuestas.Item Aplicación de ciencia de datos para proyección de saldos de productos de captaciones en entidad bancaria(Pontificia Universidad Javeriana de Cali, 2023) León Gil, Carlos Alberto; Pinzón Cortés, Mauricio; Arango Londoño, DavidLos datos son el insumo principal de un proyecto de ciencia de datos y a su vez hoy día son el activo más importante que se tiene en cualquier sector. Los resultados de la aplicación de técnicas de ciencia de datos para obtener valor y conocimiento, permiten la mejora continua en el proceso de toma de decisiones generando valor a nivel del negocio. Actualmente en el entorno financiero, se hace necesario hacer uso de la información para la toma de decisiones de una manera más eficiente y oportuna, no solo por buenas prácticas o temas de moda sino por supervivencia. En este sentido tener la mayor cantidad de información para la toma de decisiones hace que los modelos predictivos tengan bastante relevancia. Actualmente no se tiene definido un modelo de predicción de saldos de productos de captaciones para cuentas de ahorros y cuentas corrientes, el cual se hace necesario para poder generar estrategias en pro del mantenimiento o aumento de los saldos, con el fin de garantizar que exista el capital para realizar colocaciones y aumentar la utilidad neta del negocio.Item Aplicación de modelos de clusterización para analizar patrones comerciales en la Calle 5 de Cali: Impacto de equipamientos y estructura vial(Pontificia Universidad Javeriana Cali, 2025) Gutiérrez Ayala, Juan Fernando; López Velásquez, Juan Camilo; Arteaga Botero, Gustavo AdolfoEste proyecto realiza un análisis urbano del corredor de la Calle 5, entre la carrera 1 y la carrera 50 en Santiago de Cali, una zona con relevancia patrimonial y urbanística que atraviesa procesos de transformación física y social. El estudio parte del reconocimiento de la complejidad de las dinámicas urbanas y aplica algoritmos de Machine Learning no supervisados para identificar patrones en la consolidación de usos comerciales y vocaciones del territorio. El corredor de la Calle 5 actúa como eje articulador de distintos usos del suelo que han definido la vocación de barrios y sectores enteros de la ciudad. En este contexto, el objetivo del proyecto es integrar herramientas de análisis urbano y ciencia de datos para construir un modelo de agrupamiento que permita comprender mejor la configuración actual del corredor y apoyar la toma de decisiones. El trabajo se desarrolló en cuatro etapas: (1) revisión de literatura para identificar variables relevantes y modelos de agrupamiento aplicados a contextos urbanos; (2) consolidación de una base de datos armonizada a partir de fuentes públicas y mixtas; (3) aplicación y evaluación de distintos modelos de agrupamiento para seleccionar el más adecuado; y (4) interpretación de los patrones espaciales resultantes, con énfasis en los usos comerciales del corredor. Uno de los hallazgos clave es que la presencia de establecimientos comerciales no determina por sí sola la configuración de las vocaciones urbanas en el corredor, salvo en el caso de los asociados al sector salud. En cambio, los equipamientos urbanos, los elementos relacionados con la movilidad y, en menor medida, la accesibilidad y conectividad de las manzanas, fueron las variables más influyentes en la formación de patrones espaciales. Este proyecto reconoce que los procesos de transformación urbana responden a sistemas complejos con múltiples variables interrelacionadas. Por ello, promueve el uso de herramientas de ciencia de datos como insumo para entender y gestionar estos procesos de forma más eficiente. Se hace un llamado a la apropiación tecnológica en la función pública, resaltando el valor del análisis de datos en la planificación urbana y en la toma de decisiones informadas.Item “Aplicación de Modelos Machine Learning para predecir el riesgo de pérdida de seguimiento en tuberculosis”(Pontificia Universidad Javariana Cali, 2025) Rodríguez Camargo, Rubén Darío ; Guerrero Barreto, Diana Azucena; Ortega Lenis, DeliaLa tuberculosis (TB) es una enfermedad que afecta a un gran número de personas en todo el mundo, es curable y prevenible; razones que han llevado a la Organización Mundial de la Salud (OMS) a priorizar la enfermedad a nivel de salud pública. No obstante, las pérdidas en el seguimiento amenazan el éxito de los programas de control, dado por aumentos en las tasas de mortalidad y se constituyen como un factor desencadenante en la aparición de formas farmacorresistentes. Se han descrito diferentes determinantes en salud (DSS) que influyen en la pérdida de seguimiento, siendo los principales: sexo hombre, tener un bajo nivel educativo, bajos ingresos económicos, pertenecer a un grupo poblacional vulnerable, presentar alguna comorbilidad, tener barreras de acceso al sistema de salud, antecedente de tratamiento previo, baja tolerancia a efectos secundarios al tratamiento y afectaciones en salud mental. El distrito capital no es ajeno a esta situación y se ha visto que el éxito programático no alcanza la meta del 90 % en los últimos años. Dentro de los factores que afectan el cumplimiento se encuentran los pacientes fallecidos y con pérdida de seguimiento cuya prevalencia para el distrito en los últimos 7 años corresponde al 7.3 %. Los avances en inteligencia artificial (IA) han permitido comprender mejor el fenómeno de pérdida de seguimiento en otros países con alta carga de la enfermedad, los cuales han servido como base para la reformulación de políticas públicas por parte de las autoridades sanitarias, que han permitido mejorar la adherencia terapéutica de los pacientes. En este sentido, el objetivo del presente proyecto consistió en desarrollar un modelo de Machine Learning que permita predecir el riesgo de pérdida de seguimiento en pacientes pertenecientes al programa de TB en el distrito capital, a partir de los determinantes sociales en salud contenidos en el sistema de información. Para ello se desarrollaron cuatro tipos de algoritmos de aprendizaje automático supervisado con diferentes técnicas de remuestreo para balancear las clases y se aplicaron diferentes técnicas para seleccionar variables predictoras incidentes en la pérdida de seguimiento. Como resultado se obtuvo un modelo de XGBoost con buen desempeño en las métricas sensibilidad, exactitud y AUC; con el cual se puede brindar un apoyo al personal de salud que hace parte de los programas locales de tuberculosis y del distrito para identificar de forma temprana a este tipo de pacientes.