Maestría en Ciencia de Datos
Permanent URI for this collection
Browse
Recent Submissions
Item Análisis comparativo de la percepción mediática de la reforma a la salud en Colombia usando técnicas NLP(Pontificia Universidad Javeriana Cali, 2025) Hernández Moreno, Bryan Steven; Coronado Cobos, Samuel Andrés; González Ipuz, José Luis; Álvarez Bustos, Abel; Ramírez Ovalle, Carlos ErnestoEste estudio aplicó técnicas de ciencia de datos y procesamiento de lenguaje natural (NLP) para analizar la percepción mediática sobre la reforma a la salud en Colombia (2022-2024), abordando una brecha en la literatura al examinar diferencias regionales en la cobertura periodística. Partiendo del rol del periodismo en la formación de opinión pública especialmente en temas críticos como la salud, se recolectaron 1.401 noticias mediante web scraping de fuentes confiables (SCImago) en las regiones Andina, Caribe y Pacífica, siguiendo criterios de inclusión rigurosos (periodo 2022-2024, idioma español, relevancia temática). Los datos se preprocesaron con técnicas de NLP (tokenización, lematización, eliminación de stopwords y publicidad) y se depuraron mediante análisis estadístico (excluyendo 39 noticias atípicas por IQR). Para el análisis, se implementaron modelos de similitud (TF-IDF, Doc2Vec, MPNet) y clasificación de sentimientos (BETO, RoBERTa y ChatGPT-4o), este último como contraste. Los modelos fine tuned (BETO: 91.29% accuracy; RoBERTa: 89.18%) superaron significativamente a ChatGPT-4o (67.29%), demostrando la importancia del ajuste especializado para contextos periodísticos en español. El etiquetado manual (26.43% del corpus) permitió validar los resultados, destacando tendencias regionales: neutralidad en la cobertura Andina (asociada a enfoques institucionales), mayor positividad en el Caribe y predominio de narrativas negativas en el Pacífico (vinculadas a críticas locales). Los hallazgos confirman que: Las diferencias geopolíticas y socioculturales moldean narrativas mediáticas, pese a cierta homogeneidad discursiva intrarregional (validada por métricas de similitud). El fine-tuning de modelos de NLP es crucial para análisis de sentimientos en dominios especializados, siendo BETO óptimo para español. La metodología propuesta integrando web scraping, NLP y visualización interactiva (Power BI) ofrece un marco replicable para estudios de percepción mediática en políticas públicas.Item Modelo predictivo para la identificación de zonas de riesgo de dengue grave: un enfoque integral de condiciones sociodemográficas y calidad de servicios de salud(Pontificia Universidad Javeriana Cali, 2024) Rueda González, Sergio Andrés; Ortega Lenis, DeliaEl presente proyecto aplicado desarrolla un modelo predictivo para identificar zonas de riesgo de dengue grave en el municipio de Girón (Santander, Colombia), integrando variables epidemiológicas, climáticas, sociodemográficas y relacionadas con la calidad de los servicios de salud. El dengue grave constituye una amenaza creciente para la salud pública, y su manejo inadecuado en contextos de alta vulnerabilidad social aumenta la letalidad. La investigación partió de la recolección y unificación de múltiples fuentes de datos: reportes del sistema SIVIGILA (2018–2024), registros de visitas entomológicas (ETV) a 9.885 viviendas, y series de precipitaciones diarias del IDEAM mediante CHIRPS. Tras un riguroso proceso de limpieza, normalización y estandarización de nombres de barrios, se consolidó una matriz multifuente de predictores a nivel territorial. Entre las variables clave se incluyeron número de criaderos por vivienda, precipitaciones acumuladas, proporción de síntomas (fiebre, vómito, dolor abdominal), indicadores de riesgo clínico por manejo inadecuado, estrato socioeconómico, edad promedio y proporción de mujeres. El modelo objetivo se definió como la clasificación binaria de barrios en zonas de riesgo alto cuando se reportó al menos un caso de dengue grave. Se entrenaron modelos de regresión logística, Random Forest y XGBoost, aplicando estrategias para enfrentar el desbalance de clases (79,7% barrios sin riesgo vs. 20,3% con riesgo), como imputación diferenciada, escalamiento estandarizado, técnica SMOTE y ajuste de umbral a 0.4. Los resultados de la validación cruzada estratificada (k=5) evidenciaron desempeños óptimos. El modelo Random Forest alcanzó la mayor sensibilidad (0,95) y un AUC-ROC de 0,95, destacándose por minimizar falsos negativos, mientras que XGBoost logró el mejor F1-score promedio (0,86), mostrando un balance superior entre precisión y recall. La regresión logística, aunque menos precisa, aportó interpretabilidad estadística y validez metodológica. El análisis de importancia de variables reveló que los principales predictores fueron: número de viviendas con criaderos, indicadores de riesgo por conducta médica inadecuada, tipos de criaderos (floreros, tanques, llantas), síntomas clínicos y precipitaciones promedio en los siete días previos. Adicionalmente, la inclusión de indicadores de calidad de atención en salud (demora en la notificación, severidad clínica promedio y fuga asistencial) mejoró la capacidad explicativa del modelo, visibilizando debilidades institucionales que aumentan la vulnerabilidad territorial. La representación geoespacial en mapas tipo choropleth permitió identificar barrios críticos como Rincón de Girón, Villas de San Juan y Nuevo Girón, donde confluyen alta carga entomológica, reconsultas frecuentes y deficiencias en la atención clínica. Estas visualizaciones constituyen herramientas estratégicas para planificación territorial, priorización de recursos y focalización de intervenciones preventivas en escenarios de restricción presupuestal. En conclusión, el estudio confirma que el riesgo de dengue grave es producto de una interacción compleja entre determinantes ambientales, sociales e institucionales. El modelo predictivo propuesto constituye una herramienta innovadora para fortalecer la vigilancia epidemiológica activa y la gestión local en salud pública. Se recomienda su validación en otros municipios endémicos y la incorporación de datos en tiempo real para consolidarlo como un sistema escalable de alerta temprana frente al dengue y otras enfermedades transmitidas por vectores.Item Super-resolución en estudios de MRI mediante técnicas de aprendizaje profundo(Pontificia Universidad Javeriana Cali, 2025) Arcos Ramírez, Carlos Manuel; Ortega Solarte, Rafael Giovanny; Daza Malagón, Charles Erasmo; Vargas Cardona, Hernán DaríoEste proyecto se centró en aplicar técnicas de super-resolución basadas en aprendizaje profundo, tanto en 2D como en 3D, para mejorar la resolución espacial de estudios de resonancia magnética (MRI) anatómicos tipo T1. La calidad de las imágenes médicas es crucial para una adecuada interpretación clínica, pero suele verse limitada por factores técnicos durante su adquisición. Esta problemática motivó la implementación de soluciones computacionales que permitan incrementar la resolución de las imágenes sin necesidad de repetir estudios. Los objetivos incluyeron gestionar estudios MRI anatómicos T1 de bases de datos públicas, implementar y entrenar algoritmos de super resolución y evaluar su desempeño mediante indicadores cuantitativos como PSNR, SSIM, MSE y evaluaciones perceptuales, utilizando imágenes de referencia como Gold Standard. Para ello, se gestionó un conjunto de datos reales, públicos y anonimizados provenientes de la iniciativa Parkinson’s Progression Markers Initiative (PPMI), con el fin de entrenar y validar distintos modelos. Se implementaron arquitecturas como SRCNN, U-Net, EDSR, VDSR, DRCN, Autoencoder, SRGAN, SRResNet, SRDenseNet, cGAN y SR3, en sus variantes 2D o 3D según el caso. Los resultados mostraron que ciertas arquitecturas, como SRResNet 2D, SRDenseNet 2D, UNet 3D, EDSR 3D y SRCNN 3D, destacaron por su capacidad de reconstruir imágenes con alta fidelidad estructural, mientras que otras como VDSR, DRCN, SRGAN y cGAN presentaron un rendimiento aceptable, aunque con oportunidades de mejora. Por otro lado, Autoencoder 2D y SR3 demostraron limitaciones significativas en esta tarea específica. Estas observaciones sugieren que los modelos basados en bloques residuales o con estructuras encoder-decoder son especialmente prometedores para su uso futuro. Este trabajo resalta la utilidad del aprendizaje profundo como herramienta clave para la mejora computacional de imágenes médicas, con aplicaciones que pueden contribuir a diagnósticos más precisos, reducción de costos y desarrollo de tecnologías asistidas en imagenología médica.Item ClientMinds – Optimización de la experiencia del cliente utilizando modelos de procesamiento de lenguaje natural (PLN)(Pontificia Universidad Javeriana Cali, 2025) Potes Blandón, Jonathan; García Quiroz, Obed; Linares Ospina, Diego Luis; Álvarez Vargas, Gloria InésEn el contexto empresarial actual, la gestión de las relaciones con los clientes (CRM, por sus siglas en inglés) es crucial para el éxito organizacional. Muchas empresas enfrentan dificultades para comprender y mejorar la satisfacción del cliente, pese a disponer de abundantes datos en sus sistemas de CRM, lo que limita la optimización de estas relaciones. Dada la problemática anterior y la oportunidad que tienen las organizaciones con los datos almacenados, este proyecto tuvo como objetivo desarrollar un sistema de Procesamiento del Lenguaje Natural (PNL) basado en un modelo de lenguaje a gran escala (LLM) para mejorar la comprensión y satisfacción del cliente. Este modelo no solo permite interpretar y responder a las solicitudes de los clientes de manera personalizada, sino que también analiza los sentimientos expresados en las interacciones y responden en consecuencia. Las estrategias implementadas incluyen la limpieza y exploración de datos textuales, el ajuste fino de los LLM preentrenados y la creación de un chatbot que integra estas capacidades. Este chatbot no solo interactúa eficazmente con los clientes, sino que también deja registro de dichas interacciones con el propósito de generar insights valiosos, los cuales permiten hacer seguimiento a la satisfacción del cliente y tomar decisiones estratégicas basadas en su comportamiento. En conclusión, este sistema basado en PLN se perfila como una herramienta innovadora para mejorar la experiencia del cliente y fortalecer las relaciones cliente-empresa, lo anterior, gracias a la capacidad de LLM para identificar emociones, ofrecer respuestas precisas y generar información valiosa, facilitando asi la implementación de acciones efectivas orientadas a la mejora continua de la relación con los clientes. Esto no solo eleva la calidad del servicio, sino que también impulsa la fidelización y posiciona a las organizaciones como referentes en el uso de inteligencia artificial para la gestión de sus relaciones con los clientes.Item Análisis predictivo de la salud mental en estudiantes y colaboradores de una universidad privada colombiana mediante técnicas de ciencia de datos(Pontificia Universidad Javeriana Cali, 2024) Valderrama Moreno, Nini Alejandra; González Gómez, Daniel EnriqueLa salud mental presenta un desafío a nivel mundial con repercusiones negativas en contextos sociales, institucionales, familiares, laborales, educativos, entre otros, este proyecto tuvo como objetivo principal comprender la salud mental de estudiantes y colaboradores de una universidad privada de Colombia, a través de la implementación de técnicas de modelamiento predictivo en Ciencia de Datos, para ello se empleó técnicas avanzadas de análisis de datos, aprendizaje automático y visualización interactiva. En una primera etapa, se realizó una exhaustiva exploración descriptiva de la base de datos, seguidamente, se aplicaron técnicas de reducción de dimensionalidad (PCA, t-SNE, UMAP) y métodos de agrupamiento (KMeans, clustering aglomerativo, GMM) para identificar patrones y posibles subgrupos latentes, aunque las métricas cuantitativas no evidenciaron clústers naturales bien definidos. En la segunda fase, se implementaron modelos de aprendizaje supervisado, incluyendo Regresión Lasso, Random Forest, XGBoost y LightGBM, para predecir variables clave como depresión, ansiedad, estrés, soledad, resiliencia, satisfacción con la vida y recursos psicosociales. Se emplearon técnicas de sobremuestreo (SMOTE) y validación cruzada para asegurar la robustez de los modelos y se analizaron las variables predictoras más relevantes asociadas a cada indicador. Finalmente, se desarrolló una herramienta de visualización interactiva desarrollada en PowerBi, que integra los resultados descriptivos, de clustering y de predicción, permitiendo a usuarios técnicos y no técnicos explorar dinámicamente la estructura y los determinantes del bienestar (Indicadores Positivos) y malestar psicológico (Indicadores Negativos) en la población de Colaboradores, estudiantes de Posgrado y estudiantes de Pregrado. Los hallazgos obtenidos aportan una visión integral y basada en evidencia sobre los factores asociados a la salud mental en cuanto bienestar y malestar en contextos universitarios, y constituyen una base sólida para el diseño de intervenciones focalizadas y futuras investigaciones en salud mental y determinantes sociales.Item Transformación digital en la gestión contractual: automatización inteligente de la identificación de requisitos contractuales mediante ciencia de datos(Pontificia Universidad Javeriana Cali, 2025) Antolínez Becerra, Mónica Jazmín; Güiza Saavedra, Adriana Marcela; Álvarez Vargas, Gloria Inés; Linares Ospina, Diego LuisLas entidades que contratan con recursos públicos en Colombia deben velar por la transparencia en el proceso contractual, para ello se tiene un sistema electrónico donde reposa toda la información para dicho fin denominado SECOP. Esta gestión la ejecutan profesionales de gestión contractual asegurando que se cumplan los requisitos acordados en los documentos para el seguimiento periódico. La identificación de los requisitos es una tarea que actualmente se hace manualmente y al no ser una tarea exclusiva, se corre con el riesgo de pasar por alto requisitos que puedan poner en peligro a la empresa en términos económicos, legales entre otros. Este proyecto consiste en la identificación automatizada de requisitos contractuales, utilizando técnicas avanzadas de Procesamiento de Lenguaje Natural (PLN) y Aprendizaje Automático (AA). El sistema desarrollado toma como entrada documentos contractuales en formato PDF, extrae su contenido textual y lo somete a procesos de limpieza, normalización y vectorización. A partir de una muestra de minutas etiquetadas manualmente, se entrenaron modelos supervisados de clasificación binaria para cada requisito contractual, utilizando dos técnicas de representación de texto: TF-IDF y Word2Vec. Como algoritmo de clasificación se empleó Support Vector Classifier (SVC), optimizado mediante búsqueda en cuadrícula (GridSearchCV) para maximizar el desempeño de predicción. Posteriormente, se aplicaron los modelos entrenados para etiquetar automáticamente un corpus más amplio de minutas sin ninguna etiqueta. Con la base de datos consolidada, se realizó un entrenamiento final de los modelos para cada requisito, seleccionando la técnica de vectorización más adecuada según los resultados obtenidos en validaciones anteriores. Las métricas utilizadas para evaluar el desempeño fueron: Accuracy, Precision Macro, Recall Macro, F1-Score Macro, Precision Weighted, Recall Weighted, F1-Score Weighted, esta última priorizada, debido al desbalance de las clases. La herramienta cuenta con una interfaz de usuario intuitiva y funcional que permite a los profesionales de gestión contractual adjuntar documentos contractuales y recibir un listado de todos los requisitos contractuales identificados. Esta interfaz facilita la carga de documentos y la visualización del listado con los requisitos contractuales identificados.Item Predicción de avistamientos de aves para la conservación de especies endémicas utilizando algoritmos de aprendizaje automático(Pontificia Universidad Javeriana Cali, 2025) López Arango, Paula Andrea; Escobar Martínez, María Victoria; Blandón Castaño, Juan SebastiánEl presente proyecto muestra los resultados sobre predicción de avistamientos de aves para la conservación de especie endémicas mediante la aplicación de algoritmos de Aprendizaje de Automático. La región de América Latina y el Caribe tiene dos características que hacen que el estudio de los efectos del cambio climático sobre la biodiversidad resulte particularmente relevante: i) es una de las regiones más vulnerables frente al cambio climático y ii) es una de las regiones con mayor concentración de biodiversidad del planeta. En Colombia hay aproximadamente el 20 % de las especies de aves del planeta, convirtiéndose en el país con la mayor diversidad en este ámbito, con un número de especies registradas para el 2020 de 1954, y de las cuales 82 eran endémicas. De esta forma, se desarrolló una metodología de predicción de avistamientos de aves con el fin de aportar insumos para la conservación de especies endémicas a partir de algoritmos de ML. Los resultados de la investigación consistieron en implementar algoritmos en Python/R que aporten a la gestión de datos de avistamientos de aves, además permitiendo tratar datos georreferenciados de variables exógenas, para establecer correlaciones entre estas y datos de avistamientos de aves. El módulo de algoritmos de Modelos de Distribución de Especies permitió la identificación de áreas críticas para la conservación y el desarrollo y/o fortalecimiento del aviturismo para ciertos niveles de amenaza y departamentos específicos. Además, estos resultados llevaron a la generación de conocimiento que sirve de insumo para el desarrollo de planes de conservación y/o planificación del aviturismo en las regiones identificadas.Item Clusterización aplicada a empresas del sector energético que reportan indicadores ESG (ambiental, social y de gobernanza)(Pontificia Universidad Javeriana Cali, 2025) Fernández Acosta, María Isabel; Joaqui Barandica, OrlandoEste proyecto aplicó técnicas de aprendizaje no supervisado para segmentar empresas del sector energético con base en sus indicadores ESG (Ambientales, Sociales y de Gobernanza), abordando la necesidad de identificar perfiles diferenciados de sostenibilidad corporativa. La problemática detectada radica en la ausencia de clasificaciones sistemáticas que permitan evaluar, comparar y monitorear el desempeño ESG de las empresas, limitando su análisis desde perspectivas técnicas y estratégicas. Para ello, se construyó una base de datos estructurada con 576 registros provenientes de la plataforma London Stock Exchange Group (LSEG), se depuraron las variables mediante limpieza, estandarización y reducción de dimensionalidad usando Análisis de Componentes Principales (PCA), y se entrenaron modelos de clusterización como K-Means y agrupamiento jerárquico. El modelo óptimo fue K-Means con PCA=5 y 40 clústeres, que alcanzó métricas destacadas en cohesión interna y separación entre grupos. No obstante, se adoptó el modelo con K=2 para facilitar la interpretación cualitativa de los clústeres. Los resultados permitieron identificar dos perfiles empresariales claramente diferenciados: uno con alto compromiso en sostenibilidad y otro con desafíos estructurales significativos, aportando valor estratégico para inversionistas, reguladores y gestores de sostenibilidad. Este proyecto demuestra la viabilidad del uso de minería de datos para caracterizar empresas desde una óptica ESG y sienta las bases para futuras investigaciones orientadas a la predicción, monitoreo y evaluación dinámica del desempeño sostenible en sectores estratégicos.Item Análisis de sentimiento de las llamadas del Call Center de la Universidad Javeriana de Cali mediante el uso de Ciencia de Datos(Pontificia Universidad Javeriana Cali, 2025) Semma Álvarez, Luis Miguel; Quiza Vargas, Iván Felipe; Agreda Villota, Nelson Andrés; Álvarez Vargas, Gloria Inés; Linares Ospina, Diego LuisEl presente proyecto se enfocó en el análisis de sentimiento de las llamadas del Call Center de la Universidad Javeriana de Cali mediante técnicas de ciencia de datos. Su finalidad fue desarrollar una herramienta que permita analizar el sentimiento expresado en cada llamada y clasificar las interacciones según su contenido emocional, contribuyendo a mejorar la calidad del servicio y apoyar la toma de decisiones informadas. Para ello, se emplearon técnicas como GCP Speech-to-Text para la transcripción de audios, modelos de clasificación supervisada como SVM y RNN y clasificación no supervisada con NMF. Los resultados muestran un buen desempeño, destacando la utilidad del modelo SVM-TFIDF con métricas de F1 y AUC positivas. Está solución representa un avance significativo en la gestión de la información y atención al cliente en el entorno educativo.Item Clasificación basada en Machine Learning para la identificación de marcadores genéticos utilizando patrones estructurales asociados con cáncer de mama(Pontificia Universidad Javeriana Cali, 2025) González Martínez, Lina Yojana; Hurtado Siabato, Carlos Eduardo; Pérez Ruiz, Camilo Andrés; Tobar Tosse, Henry FabiánSegún el Observatorio Global del Cáncer de la Organización Mundial de la Salud, el cáncer de mama sigue siendo una de las principales causas de mortalidad a nivel mundial, presentando tasas de incidencia especialmente altas en algunas regiones de América Latina. En respuesta a esta situación, el presente estudio presenta un marco integrador fundamentado en aprendizaje automático para el análisis de datos genómicos de alta dimensión procedentes de pacientes latinoamericanos. En primer lugar, se implementó un modelo de clasificación capaz de identificar marcadores genéticos a partir de patrones estructurales y de contextos loci específicos, evaluando la probabilidad de generación de factores patogénicos. El mejor rendimiento se obtuvo con XGBoost con submuestreo, alcanzando un F1-score de 0.9625 y una exactitud de 0.9622. No obstante, el hecho de que una variante haya sido etiquetada como patogénica no siempre representa el desarrollo de la enfermedad en el paciente. Por esta razón, de manera complementaria, se realizó un análisis y modelamiento sobre un segundo dataset enfocado en el diagnóstico de pacientes con y sin cáncer de mama familiar, para el cual el mejor modelo obtenido fue XGBoost con sobremuestreo que logró un rendimiento de F1-score de 0.9969 y exactitud de 0.9969. Adicionalmente, se aplicaron enfoques de clustering y métodos avanzados de selección de características para descubrir asociaciones genómicas que enriquezcan el repertorio de atributos relevantes en el cáncer de mama. El análisis revela un panel de ARN no codificantes, incluyendo Y-RNA, snoRNA y componentes del spliceosoma, junto con genes que codifican proteínas determinantes como CDH4, SDK1, PTPRN2 y CSMD1. Estos hallazgos subrayan dos ejes centrales en la oncogénesis mamaria: la desregulación del procesamiento y traducción del ARN, y la alteración de la adhesión celular y las vías de señalización. La combinación de modelos supervisados y no supervisados no solo potencializó la identificación de patrones estructurales, sino que también facilitó el enriquecimiento de las variables genéticas que sustentan la progresión tumoral. Este enfoque integrador amplía el conocimiento molecular y sienta las bases para el desarrollo de herramientas de diagnóstico temprano, planificación terapéutica y monitorización clínica, mejorando, en última instancia, la calidad de vida de las pacientes afectadas.Item Identificación automática de riesgo de cáncer de cuello uterino aplicando deep learning en imágenes de colposcopia(Pontificia Universidad Javeriana Cali, 2025) Fuentes Esparza, César; Correa Bustamante, Julián Alexis; Correa Romero, Julián; Vargas Cardona, Hernán DaríoEl proyecto se enfoca en la implementación de diferentes modelos de deep learning para la detección automatizada de cáncer de cuello uterino mediante la clasificación de imágenes de colposcopia, abordando la problemática de la variabilidad en los diagnósticos debido a la subjetividad humana y la falta de especialistas en áreas con recursos limitados. Su importancia radica en mejorar la precisión y accesibilidad del diagnóstico temprano, crucial para el tratamiento efectivo de esta enfermedad, la cual es una de las principales causas de muerte por cáncer entre mujeres en países en desarrollo. Los objetivos propuestos incluyen la gestión de una base de datos de imágenes de colposcopia etiquetadas, el entrenamiento de algoritmos de deep learning en Python para clasificar las imágenes en normales o patológicas, y la validación de los modelos mediante métricas como Exactitud, Sensibilidad, Especificidad, F1-score y AUC-ROC. Se esperaba como resultados la implementación de modelos que mejorarán la precisión diagnóstica, facilitando la detección en áreas con recursos limitados. Las posibles aplicaciones de este proyecto incluyen el fortalecimiento de sistemas de salud pública, el apoyo a programas de tamizaje en comunidades rurales y la incorporación de herramientas automatizadas que contribuyan en la interpretación de exámenes colposcópicos. Este avance representó un aporte significativo tanto al campo de la inteligencia artificial aplicada a la medicina como a los esfuerzos globales por disminuir la morbilidad y mortalidad asociadas con el cáncer cervical.Item Análisis de sentimiento para determinar patrones predictivos de problemas de crisis reputacional en hoteles de Bogotá(Pontificia Universidad Javeriana Cali, 2025) Silva López, Juan Manuel; Mora Cardona, Mario JuliánEste proyecto se centró en el análisis de reseñas de hoteles en Bogotá con el objetivo de identificar patrones textuales y temporales asociados a posibles crisis de reputación empresarial. Mediante el uso de herramientas de ciencia de datos como Python, Jupyter Notebook y bibliotecas especializadas como Pandas, Scikit-learn y NLTK, se procesaron miles de opiniones de usuarios para construir un modelo predictivo basado en sentimientos negativos. Se realizó un análisis de series de tiempo sobre reseñas negativas, identificando patrones estacionales y periodos críticos que pueden servir como alertas tempranas. Este componente permitió incorporar una dimensión temporal valiosa para la toma de decisiones estratégicas. Se aplicaron técnicas de procesamiento de lenguaje natural (NLP), incluyendo lematización y vectorización, para transformar el texto en variables cuantificables. A partir de una función de clasificación que distinguía entre estados de crisis y no crisis, se entrenaron cuatro algoritmos de aprendizaje supervisado: Regresión Logística, Random Forest, Support Vector Machine (SVM) y MLPClassifier. Cada modelo fue evaluado antes y después del ajuste de hiperparámetros mediante GridSearchCV, siendo el SVM y el MLP los que lograron mejores métricas de precisión y recall en la predicción de crisis. En conjunto, el proyecto demuestra la viabilidad de utilizar análisis de sentimientos y aprendizaje automático para fortalecer la gestión reputacional en el sector hotelero, con potencial de escalabilidad a otras industrias dependientes de plataformas de opinión digital.Item Aplicación de modelos de clusterización para analizar patrones comerciales en la Calle 5 de Cali: Impacto de equipamientos y estructura vial(Pontificia Universidad Javeriana Cali, 2025) Gutiérrez Ayala, Juan Fernando; López Velásquez, Juan Camilo; Arteaga Botero, Gustavo AdolfoEste proyecto realiza un análisis urbano del corredor de la Calle 5, entre la carrera 1 y la carrera 50 en Santiago de Cali, una zona con relevancia patrimonial y urbanística que atraviesa procesos de transformación física y social. El estudio parte del reconocimiento de la complejidad de las dinámicas urbanas y aplica algoritmos de Machine Learning no supervisados para identificar patrones en la consolidación de usos comerciales y vocaciones del territorio. El corredor de la Calle 5 actúa como eje articulador de distintos usos del suelo que han definido la vocación de barrios y sectores enteros de la ciudad. En este contexto, el objetivo del proyecto es integrar herramientas de análisis urbano y ciencia de datos para construir un modelo de agrupamiento que permita comprender mejor la configuración actual del corredor y apoyar la toma de decisiones. El trabajo se desarrolló en cuatro etapas: (1) revisión de literatura para identificar variables relevantes y modelos de agrupamiento aplicados a contextos urbanos; (2) consolidación de una base de datos armonizada a partir de fuentes públicas y mixtas; (3) aplicación y evaluación de distintos modelos de agrupamiento para seleccionar el más adecuado; y (4) interpretación de los patrones espaciales resultantes, con énfasis en los usos comerciales del corredor. Uno de los hallazgos clave es que la presencia de establecimientos comerciales no determina por sí sola la configuración de las vocaciones urbanas en el corredor, salvo en el caso de los asociados al sector salud. En cambio, los equipamientos urbanos, los elementos relacionados con la movilidad y, en menor medida, la accesibilidad y conectividad de las manzanas, fueron las variables más influyentes en la formación de patrones espaciales. Este proyecto reconoce que los procesos de transformación urbana responden a sistemas complejos con múltiples variables interrelacionadas. Por ello, promueve el uso de herramientas de ciencia de datos como insumo para entender y gestionar estos procesos de forma más eficiente. Se hace un llamado a la apropiación tecnológica en la función pública, resaltando el valor del análisis de datos en la planificación urbana y en la toma de decisiones informadas.Item Predicción del monto total que se va a pagar por remesas en dólares que se originan en un día(Pontificia Universidad Javeriana Cali, 2025) Contreras Fuentes, William; Espinoza Guarnizo, Camilo; Agredo Chávez, Jorge; Pabón Burbano , María ConstanzaLas remesas son transferencias de dinero enviadas por trabajadores migrantes a sus países de origen para el sostenimiento de sus hogares [1]. En Colombia, según el DANE, estos flujos representaron aproximadamente el 2,8% del Producto Interno Bruto (PIB) en 2024. Dentro de la gestión operativa de las remesas, la predicción del monto en dólares por fecha de origen es un insumo clave, ya que la tasa de cambio se fija en el momento de iniciar cada transacción. Contar con una estimación anticipada permite a los agentes locales optimizar su cobertura cambiaria, mitigando los riesgos asociados. Para abordar este desafío, el proyecto desarrolló modelos predictivos basados en técnicas avanzadas de ciencia de datos, utilizando información histórica suministrada por una entidad financiera con alto volumen de operaciones en remesas en Colombia. El conjunto de datos abarcó un periodo de dos años y se compararon modelos con algoritmos de aprendizaje automático y análisis de series temporales. Entre los hallazgos más relevantes, se destaca que los modelos de árboles de decisión optimizados y redes neuronales recurrentes ofrecieron los mejores niveles de precisión, superando ampliamente a enfoques tradicionales como ARIMA o regresión basada en SVM. El mejor modelo alcanzó un R² de hasta 99.58 %, con un error absoluto medio significativamente bajo. Estos resultados confirman el valor de incorporar estructuras no lineales y secuenciales para mejorar la capacidad de pronóstico.Item Redes neuronales y procesamiento de lenguaje para la evaluación de la investigación colombiana en el contexto de los ODS(Pontificia Universidad Javeriana Cali, 2025) Riaño Díaz, John Agustín; Ramírez Ovalle, Carlos Ernesto; Álvarez Bustos, AbelEste proyecto se centra en el análisis de la producción científica en Colombia y su vinculación con los Objetivos de Desarrollo Sostenible (ODS) establecidos por la Organización de las Naciones Unidas. A pesar del crecimiento de la producción científica en el país, no existía una caracterización sistemática que evidenciara su alineación temática con los ODS, lo que dificultaba la identificación de tendencias, brechas y áreas de oportunidad en investigación. La investigación planteó como objetivo general desarrollar un modelo de análisis que, mediante técnicas de procesamiento de lenguaje natural y redes neuronales, permitiera clasificar resúmenes de artículos científicos de las áreas de ingeniería y medicina en función de su relación con los ODS. Para ello, se realizó un proceso de recopilación de datos a partir de artículos indexados en Scopus, correspondientes al año 2018 a 2024, seguido de la selección de una muestra representativa mediante muestreo estratificado. Posteriormente, se efectuó un etiquetado manual de los resúmenes en función de su correspondencia con los ODS, con base al contenido temático y su potencial contribución al desarrollo sostenible. Esta muestra etiquetada fue empleada para entrenar modelos supervisados, particularmente utilizando la arquitectura BERT, con el fin de optimizar la clasificación automática de nuevos documentos. Adicionalmente, se implementaron estrategias de balanceo de clases mediante técnicas de traducción y parafraseo, dada la baja representación de algunos ODS en los datos recopilados. El proyecto incorporó un proceso de validación cruzada para evaluar el desempeño de los modelos entrenados en tareas de clasificación, utilizando métricas como exactitud, precisión, recall y F1-score. Los resultados obtenidos permitieron caracterizar la producción investigativa colombiana, diferenciada por áreas de conocimiento, y establecer patrones de alineación con los ODS más representativos. Asimismo, se identificaron vacíos temáticos y áreas de fortalecimiento en la agenda científica nacional. El modelo desarrollado constituye una herramienta replicable que puede ser utilizada por instituciones académicas, entidades gubernamentales y organizaciones del sector privado para orientar estrategias de investigación, asignación de recursos y formulación de políticas públicas enfocadas en el cumplimiento de la Agenda 2030.Item Clasificación de emociones en audios de call center utilizando ciencia de datos(Pontificia Universidad Javeriana Cali, 2025) Marulanda Almanza, Johan Sebastian; Álvarez Vargas, Gloria Inés; Linares Ospina, Diego LuisEste proyecto se desarrolló con el objetivo de clasificar emociones en llamadas de call center utilizando transcripciones de audio y técnicas de machine learning, tomando como caso de estudio el centro de contacto de una Universidad de Cali. La investigación se enmarca dentro de una iniciativa más amplia en la que se exploraron un enfoque de análisis de transcripciones textuales, el presente trabajo se centró exclusivamente en la información textual derivada de los audios, evaluando la efectividad de diferentes modelos de clasificación. El principal desafío fue desarrollar un clasificador capaz de identificar emociones de manera automatizada y eficiente a partir de datos textuales. Para ello, se realizó una limpieza y normalización de datos, seguida de un entrenamiento supervisado con modelos como Logistic Regression, Random Forest y Multi-Layer Perceptron (MLP). Se aplicó un ajuste de hiperparámetros utilizando Grid Search, optimizando el rendimiento de los modelos.Item Predicción del porcentaje de ahorro energético en edificaciones de Colombia: un enfoque basado en variables de sostenibilidad y ASHRAE(Pontificia Universidad Javeriana Cali, 2025) Bolívar Sora , Johan Sebastián; Gallardo Esparragoza, Jesús Rafael; Ramírez Buelvas, Sandra MilenaUna metodología de predicción del ahorro energético basado en la metodología ASHRAE, aplicado a tipologías de edificios en Colombia, es de gran importancia para la construcción sostenible. La implementación de estándares específicos para edificaciones en la zona ecuatorial es esencial, dadas las condiciones ambientales únicas de esta ubicación geográfica y los requerimientos de certificaciones energéticas internacionales. Actualmente, los estándares internacionales de construcción sostenible están diseñados para maximizar el aprovechamiento energético en edificaciones situadas en climas extremos, donde la dependencia de sistemas de climatización es considerable. Este enfoque amplio resulta inadecuado para regiones con condiciones climáticas favorables, como Colombia, ya que incrementa los costos de construcción y desincentiva prácticas sostenibles en tales contextos. Para abordar esta problemática, el presente estudio propone una metodología estadística que permite predecir el porcentaje y nivel de ahorro energético, utilizando variables clave para la sostenibilidad en edificaciones según la metodología ASHRAE. La aplicación de esta metodología tiene como objetivo proporcionar información que facilite el cumplimiento de métricas adaptadas a las particularidades de las tipologías de edificios y al entorno ambiental característico de Colombia.Item Herramienta para detectar clientes potencialmente fraudulentos de Bancolombia(Pontificia Universidad Javeriana Cali, 2025) Patiño Munera, Santiago Alexis; Berrio Arenas, Johan Alexis; Pabón Burbano, María ConstanzaEn el ámbito bancario, la detección y prevención de fraudes externos es crucial debido a la sofisticación de los métodos empleados por defraudadores. Bancolombia enfrenta el riesgo de fraudes cometidos por clientes, quienes con acceso a servicios y productos que el banco ofrece, pueden realizar actividades ilícitas que impactan económicamente y dañan la reputación de la institución. Los sistemas actuales de monitoreo alertan sobre clientes sospechosos, pero su incapacidad para contextualizar adecuadamente cada cliente resulta en una alta tasa de falsos positivos. El objetivo de este proyecto es desarrollar un modelo de aprendizaje automático para detectar clientes fraudulentos de Bancolombia, integrando datos financieros, transaccionales y demográficos específicos. Con el objetivo de optimizar la asignación de recursos en la investigación de fraudes reales y fortalecer la seguridad financiera de la entidad, se espera obtener los siguientes resultados: una base de datos integrada y equilibrada, un modelo eficiente para la 2 detección de clientes fraudulentos y un informe detallado que evalúe el desempeño del modelo implementado. La implementación exitosa mitigará los riesgos operativos del fraude externo y promoverá la aplicación de la ciencia de datos para fortalecer la seguridad financiera y la confianza pública en Bancolombia. Además, este proyecto podría servir como referencia para otras entidades, mejorando la eficiencia operativa y reduciendo costos asociados con la gestión de alertas de fraude.Item Modelo de aprendizaje automático para proyección de ventas de los servicios publicitarios en el metro de Medellín(Pontificia Universidad Javeriana Cali, 2025) Tabares Álvarez, Julio César; Villarreal Trujillo, Sergio; Cárdenas Rojas, Jhonny Alejandro; García Arboleda, Isabel CristinaEl proyecto "Modelo de Aprendizaje Automático para Proyección de Ventas de los Servicios Publicitarios en el Metro de Medellín" busca desarrollar un modelo predictivo basado en técnicas de aprendizaje automático para optimizar las estrategias comerciales del Metro de Medellín. El Metro, con aproximadamente 1.3 millones de usuarios diarios, busca aumentar su participación de ingresos no tarifarios al 15% para 2025, donde la publicidad juega un papel clave. Actualmente, la empresa enfrenta desafíos en la comercialización de sus servicios publicitarios, por lo que este estudio propone una solución basada en la analítica de datos. En el proyecto se utilizó la metodología CRISP-DM, la cual abordó cinco fases clave: comprensión del negocio, preparación de datos, modelado, proyección y validación. Se obtuvieron y se realizó la limpieza de las bases de datos de afluencia de pasajeros y ventas de publicidad desde 2020 hasta 2024, permitiendo identificar patrones de consumo y demanda. El análisis inicial evidenció que la publicidad en estaciones, representan el 38.62% de las ventas, por lo que el proyecto decidió enfocarse en este segmento. Se evaluaron modelos de aprendizaje estadístico para seleccionar el que mejor optimice la predicción de las ventas con base en el desempeño y ajuste de cada modelo, con el fin de mejorar la toma de decisiones en la comercialización de este segmento. Además, se diseñó un tablero dinámico para el análisis de datos y la visualización de los resultados de los modelos. Para la validación y selección del mejor modelo, se utilizaron criterios como la métrica CPM, el ajuste visual, tiempo de ejecución de los modelos, facilidad de implementación y cantidad de estaciones con mejor desempeño. Como resultado se obtuvo que Holt Winters 2 fue el mejor modelo teniendo en cuenta estos criterios.Item Análisis de sentimientos en llamadas en centros de atención al cliente(Pontificia Universidad Javeriana Cali, 2025) Andrea, Arias Gómez; Rincón Loaiza, Daniel; Rojas Tavera, Jhon Alexander; Torres Valencia, Cristian AlejandroEn el contexto de los centros de contacto, la calidad de las interacciones entre agentes telefónicos y clientes es esencial para garantizar la satisfacción del cliente y promover el crecimiento empresarial. La ausencia de herramientas para identificar los factores que influyen en el rendimiento de los servicios puede impactar negativamente la reputación y eficiencia operativa. En este contexto, se desarrolló un proyecto de análisis de sentimientos aplicado a transcripciones de llamadas en español, específicamente en el call center de la Universidad Pontificia Javeriana de Cali. El objetivo principal fue analizar y clasificar las emociones expresadas en estas interacciones para identificar patrones emocionales, mejorar la comprensión de las necesidades de los usuarios y optimizar la experiencia del cliente en un entorno educativo. El proyecto integra técnicas avanzadas de aprendizaje automático y procesamiento de lenguaje natural (PLN), incluyendo reconocimiento automático del habla y diarización, para segmentar y analizar las conversaciones. El trabajo abarcó desde la construcción de un corpus representativo y el preprocesamiento avanzado de texto, hasta la configuración y adaptación de modelos de aprendizaje profundo. Además, se diseñó una interfaz con AppScript, que facilita la carga de datos y la visualización de resultados, asegurando una experiencia de usuario eficiente y accesible. La evaluación de los modelos de clasificación se realizó mediante métricas como precisión, recall y F1-score, dentro de un marco metodológico robusto que combina CRISP-DM y Scrum, garantizando un proceso estructurado y ágil. Este enfoque permite a las empresas del sector BPO en Colombia anticipar problemas, optimizar operaciones y mantener una reputación positiva en un mercado altamente competitivo.