Maestría en Ciencia de Datos

Browse

Recent Submissions

Now showing 1 - 20 of 156
  • Item
    Predicción de la supervivencia en pacientes con cáncer de estómago: integración de características clínicas, genéticas y análisis de imágenes para el apoyo en la toma de decisiones clínicas
    (Pontificia Universidad Javeriana Cali, 2025) López León, William Andrés; Parra Barrera, Eliana Liseth; Meneses Ramírez, Karem Dayana; Tobar Tosse, Henry Fabián
    El cáncer gástrico continúa siendo uno de los principales desafíos en salud pública a nivel mundial, no solo por su elevada mortalidad, sino también por las limitaciones actuales para estratificar adecuadamente el riesgo y personalizar las decisiones terapéuticas. A pesar de los avances diagnósticos y moleculares, la predicción de supervivencia sigue siendo imprecisa debido a la heterogeneidad tumoral y a la fragmentación de la información clínica y genómica. En este escenario, los modelos integrativos basados en ciencia de datos representan una oportunidad para mejorar el pronóstico y apoyar de manera objetiva la toma de decisiones clínicas. Este proyecto tuvo como objetivo desarrollar y evaluar modelos de predicción de supervivencia en cáncer gástrico mediante la integración de variables clínicas (edad, sexo, estadio TNM, grado histológico), perfiles de expresión de miRNA y características cuantitativas derivadas de imágenes histopatológicas digitales H&E. Para ello, se emplearon datos del repositorio TCGA STAD del National Cancer Institute, incluyendo tablas clínicas, matrices de expresión miRNA-seq y Whole Slide Images en formato SVS. El pipeline metodológico incluyó: (1) preprocesamiento clínico con imputación y estandarización; (2) selección de miRNA mediante análisis de expresión diferencial y pruebas univariadas; (3) normalización de color y extracción de parches tisulares con OpenSlide; (4) extracción de características morfológicas, estructurales y texturales con un enfoque interpretable desde criterios histopatológicos; y (5) agregación estadística por paciente. Con este conjunto multimodal se entrenaron tres modelos de supervivencia ampliamente utilizados: Coxnet penalizado, Random Survival Forest (RSF) y DeepSurv, optimizados mediante búsqueda aleatoria y validación interna. Entre las estrategias evaluadas, el modelo Coxnet penalizado se consolidó como el más robusto e interpretable para la predicción de supervivencia en la cohorte TCGA-STAD. Este alcanzó un C index de 0.7315 y valores de AUC(t) de 0.784, 0.758 y 0.760 a 1, 3 y 5 años, respectivamente. El Brier Score obtenido (0.1441) evidenció una adecuada calibración, mientras que las curvas de Kaplan–Meier mostraron una separación significativa entre los grupos de riesgo (log-rank p = 1.36 × 10⁻⁴), confirmando su utilidad para estratificar pacientes según su pronóstico. En conjunto, estos resultados demuestran que los enfoques multimodales permiten capturar de manera más completa la heterogeneidad biológica del cáncer gástrico y proporcionan herramientas predictivas superiores al análisis clínico tradicional, favoreciendo una estratificación temprana del riesgo y decisiones terapéuticas más precisas.
  • Item
    Identificación de contratistas del departamento de La Guajira relacionados con publicaciones de corrupción
    (Pontificia Universidad Javeriana Cali, 2025) Lara Moreno, Nohora Julieta; Mora Cardona, Mario Julián
    Con este proyecto se propone la identificación de personas naturales y jurídicas que sean contratistas públicos y que se encuentren relacionadas con casos de corrupción, lo anterior, asociando datos de contratación pública con publicaciones de noticias, mediante la utilización de herramientas de ciencia de datos. Este asunto es relevante porque aborda una problemática histórica desde una nueva perspectiva que integra la ciencia de datos con las prácticas de abastecimiento del Estado; el uso de técnicas como machine learning y procesamiento de lenguaje natural en un contexto de impacto social puede demostrar como esta ciencia puede ser utilizada para analizar el alcance de las políticas públicas en la sociedad. Esta propuesta nace de la dificultad para reconocer patrones que conecten a los contratistas y proponentes con actos de corrupción a causa de la dispersión de las fuentes de información, lo que restringe la capacidad de entidades de vigilancia y control y entidades públicas en general, para prever riesgos asociados con la ejecución de contratos de adquisición de bienes, servicios y obras. Los objetivos incluyen recaudar y procesar datos de noticias de corrupción de diferentes medios de comunicación, además de los datos de contratos públicos y contratistas en el departamento de la Guajira, con el propósito de obtener bases de datos estructuradas o semiestructuradas, determinar y elegir las variables para la clasificación de los contratistas, construir y entrenar un modelo de clasificación supervisado, donde se utilicen técnicas de aprendizaje automático, con el fin de clasificar a los contratistas entre aquellos que tienen antecedentes de corrupción en los medios y los que no y evaluar el desempeño del modelo desarrollado. Como resultado se obtuvo un modelo de clasificación supervisado para identificar adjudicatarios de contratos públicos que presenten patrones o atributos correlacionados con factores de riesgo en la ejecución contractual dentro del sector público y/o con antecedentes de noticias relacionadas con actos de corrupción, específicamente en el Departamento de La Guajira, reconociendo a aquellos contratistas que tengan antecedentes de corrupción (o presunta corrupción) y representen un riesgo para el cumplimiento de futuras obligaciones contractuales. El análisis se centra en cada contratista identificado por su NIT y usando como base la información del Sistema Electrónico de Contratación Pública, el Registro Único Empresarial, el Boletín de Responsables Fiscales, registros del Departamento Administrativo de la Función Pública, de la Comisión Nacional Electoral y noticias regionales disponibles en internet, relacionadas con presuntos casos de corrupción. La información obtenida contribuye a orientar el análisis propuesto, sin constituir una determinación de responsabilidad.
  • Item
    Influencia de los homicidios sobre la relación entre la eficiencia escolar y la resiliencia académica: un análisis espacial para Santiago de Cali (2014-2024)
    (Pontificia Universidad Javeriana Cali, 2025) Cardona Londoño, Nicolás; Chia Amaya, Caris Andrea; López Estrada, Sebastián
    Este estudio analiza la influencia de los homicidios en la relación entre la resiliencia académica y la eficiencia educativa en las instituciones escolares de Santiago de Cali entre 2014 y 2024. A partir de datos del ICFES, DANE y la Secretaría de Seguridad y Justicia de Cali, se construyó un modelo de machine learning basado en Random Forest con interpretación SHAP para estimar la resiliencia académica, y un modelo condicional de eficiencia (Order-m FDH) para evaluar el desempeño educativo ajustado por factores socioespaciales. Los resultados evidencian una correlación positiva moderada (r = 0.48) entre resiliencia y eficiencia educativa, confirmando que las instituciones más eficientes tienden a generar entornos más favorables para estudiantes resilientes. Sin embargo, la violencia (medida por densidad de homicidios) ejerce una influencia negativa y estadísticamente significativa sobre la eficiencia (-0.12) y la resiliencia (-0.09), especialmente en zonas con alta concentración de delitos y menor infraestructura educativa. El análisis espacial identificó clústeres de baja eficiencia y resiliencia en el oriente y ladera de Cali, coincidentes con mayores tasas de homicidio. Los hallazgos sugieren que la exposición a la violencia reduce la productividad educativa y limita la capacidad institucional para promover resiliencia, destacando la necesidad de políticas integradas de seguridad y educación en territorios vulnerables.
  • Item
    Predicción de la resiliencia escolar en municipios colombianos afectados por el conflicto armado
    (Pontificia Universidad Javeriana Cali, 2025) Lucumí Hernández, Luz Carime; Martínez Martínez, Luis Carlos; Álvarez Vargas, Gloria Inés; Linares Ospina, Diego Luis
    Este proyecto tiene como objetivo predecir la resiliencia escolar en los municipios colombianos afectados por el conflicto armado, utilizando técnicas de aprendizaje automático y análisis espacial. La resiliencia escolar se refiere a la capacidad de los estudiantes para mantener un buen rendimiento académico a pesar de las adversidades, dado que, aunque estas regiones enfrentan grandes desafíos, algunos estudiantes logran sobresalir, lo que subraya la importancia de identificar los factores que contribuyen a este éxito. El proyecto se enfoca en desarrollar un modelo predictivo para estimar la resiliencia escolar en estas zonas, basado en datos educativos, sociales y económicos. Entre los objetivos se incluyen la preparación de los datos, la construcción y evaluación de los modelos predictivos, y el desarrollo de un prototipo para visualizar los resultados. Este enfoque basado en el análisis de grandes volúmenes de datos ofrece una manera de comprender y abordar la resiliencia escolar en contextos de conflicto.
  • Item
    Modelo predictivo para estimar la humedad del suelo en cultivos del CIAT usando técnicas de aprendizaje automático
    (Pontificia Universidad Javeriana Cali, 2025) Paternina Miranda, Fabio Andrés; Zarate Jiménez, Juliana; Álvarez Vargas, Gloria Inés; Barrios Pérez, Camilo
    El presente trabajo desarrolló un modelo predictivo para la estimación de la humedad volumétrica del suelo a partir de la integración de variables espectrales, climáticas y edáficas, empleando técnicas avanzadas de aprendizaje automático y análisis multifuente. El estudio se realizó en parcelas experimentales del Centro Internacional de Agricultura Tropical (CIAT), utilizando datos provenientes de sensores de humedad del suelo, imágenes satelitales PlanetScope (índices NDVI, EVI, NDMI y NDWI) y registros meteorológicos locales (precipitación, temperatura, radiación solar, evapotranspiración y velocidad del viento). El proceso metodológico incluyó un análisis exploratorio para evaluar la calidad y distribución de los datos, identificar correlaciones significativas y eliminar redundancias entre variables. Posteriormente, se seleccionaron nueve variables predictoras finales que representaron de forma eficiente los componentes hidrológicos, energéticos y vegetativos del sistema suelo–planta–atmósfera. Cinco algoritmos fueron evaluados en la fase de modelado: XGBoost, Random Forest, Support Vector Regression (SVR), Multi-Layer Perceptron (MLP) y K-Nearest Neighbors (KNN). Tras un proceso de optimización mediante GridSearchCV y validación cruzada K-Fold (k = 5), el modelo XGBoost optimizado se consolidó como la alternativa más precisa y estable, alcanzando un desempeño sobresaliente (R² = 0.96; MAE = 1.95; RMSE = 2.94). Este resultado evidenció su capacidad para capturar relaciones no lineales y manejar la multicolinealidad entre variables, superando a los demás algoritmos en generalización y eficiencia computacional. Como aplicación práctica, se desarrolló una interfaz web interactiva que permite realizar predicciones en tiempo real de la humedad del suelo a partir de datos climáticos y satelitales ingresados por el usuario. La interfaz integra visualizaciones dinámicas y un sistema de clasificación por categorías de humedad (muy baja, baja, media y alta), facilitando la interpretación de los resultados y la toma de decisiones agronómicas.
  • Item
    Digitalización del sector cacaocultor en el municipio de Baraya - Huila
    (Pontificia Universidad Javeriana Cali, 2025) Salas Diaz, Juan Camilo; Solano Correa, Yady Tatiana; Patiño Velasco, Mario Milver
    El sector cacaocultor del departamento del Huila enfrenta desafíos que limitan su sostenibilidad y competitividad. Aunque el área de cultivo de cacao ha disminuido en los últimos años, la producción total ha aumentado debido a mejoras en los rendimientos por hectárea. Sin embargo, este incremento en la eficiencia no ha contrarrestado la reducción de la superficie cultivada, lo cual evidencia la necesidad de implementar estrategias que promuevan un uso eficiente y sostenible de los recursos. Para abordar este problema, este proyecto abordo una metodología basada en la integración de tecnologías avanzadas de análisis de datos y aprendizaje automático. Partiendo de la creación de una base de datos estructurada integrando datos sociales, agronómicos, físicos del suelo e imágenes multiespectrales de las unidades productivas de cacao en el municipio de Baraya, Huila. Esta base de datos se usó para aplicar técnicas de machine learning, con el fin de identificar patrones y similitudes entre las unidades productivas, cuyos modelos son evaluados mediante métricas específicas de validación. Finalmente se desarrolló una estrategia de visualización interactiva que permite a los agricultores y tomadores de decisiones interpretar fácilmente los resultados obtenidos, facilitando así una gestión más precisa del cultivo. Los resultados incluyen la identificación y agrupamiento de unidades productivas con características similares, permitiendo un enfoque diferenciado en la toma de decisiones y la implementación de prácticas agrícolas específicas para cada grupo.
  • Item
    Determinación de islas de calor en las ciudades de Barranquilla, Cartagena y Santa Marta a partir de imágenes satelitales y algoritmos de machine learning
    (Pontificia Universidad Javeriana Cali, 2025) Sánchez González, Jonny Carlos; Rodríguez Ortiz, Cristian Camilo; Solano Correa, Yady Tatiana; Patiño Velasco, Mario Milver
    El fenómeno de las islas de calor urbanas constituye uno de los desafíos ambientales más significativos derivados de la urbanización acelerada y el cambio en los usos del suelo, un problema ambiental causado por la sustitución de superficies naturales que aumenta la temperatura de las ciudades. Se realizó el estudio de este fenómeno es las ciudades de Barranquilla, Cartagena y Santa Marta de la región caribe colombiana para el periodo comprendido entre el 2015 y 2024. La metodología se basó en la integración de percepción remota (imágenes Landsat), Sistemas de Información Geográfica y aprendizaje automático. Se utilizaron herramientas de código abierto para automatizar el análisis y procesamiento de los productos espaciales para la determinación de las islas de calor. El proyecto no busca proponer soluciones directas, sino generar información geoespacial y analítica para apoyar la evaluación del fenómeno y que sea de utilidad para la planificación territorial y la toma de decisiones urbanísticas de las entidades territoriales municipales.
  • Item
    Modelo de Machine Learning para la Identificación de Pólipos en Imágenes de Colonoscopia
    (Pontificia Universidad Javeriana Cali, 2025) Alba Talero, Jairo Enrique; Linares Ospina, Diego Luis; Álvarez Vargas, Gloria Inés
    Un pólipo en el colon es una acumulación pequeña de células formado en el revestimiento del colon. En su mayoría los pólipos no causan daños o alteraciones, sin embargo, algunos de ellos pueden crecer y transformarse en tumores pre-cancerosos o cancerosos, por lo que la detección de los mismos a través de la prueba gold standard, la colonoscopia, es de gran importancia clínica. Un problema en la identificación de estos pólipos es que muchos de ellos se pasan por alto en el momento de realizar el examen, por lo que se propuso elaborar un algoritmo de aprendizaje profundo para que, a través de imágenes, se pueda asistir la interpretación de las imágenes. Se recopilaron imágenes de colonoscopias obtenidas durante procedimientos médicos. Las imágenes se seleccionaron, clasificaron y etiquetaron con la ayuda de expertos para garantizar su calidad e integridad para luego hacer uso de ellas.
  • Item
    Modelo predictivo del tipo de cambio EUR/USD: integración de datos históricos y análisis de sentimiento de noticias financieras a través de redes neuronales LSTM
    (Pontificia Universidad Javeriana Cali, 2025) Arias Martínez, Manuela; Quintero Carvajal, Esteban; Mejía Romero, Joaquín Nicolás; García Arboleda, Isabel Cristina
    Este proyecto se centra en la propuesta de un modelo predictivo para el tipo de cambio EUR/USD, incorporando el análisis de sentimiento derivado de noticias financieras y datos históricos mediante el uso de redes neuronales LSTM. La importancia de este tema radica en que el EUR/USD, como uno de los pares de divisas más negociados, funciona como un barómetro de la salud económica global, y su volatilidad refleja cambios en políticas monetarias, crisis económicas y eventos geopolíticos. Ante la limitación de los modelos tradicionales, que solo consideran datos históricos de precios, este proyecto aborda la problemática de mejorar la precisión de las predicciones al incluir el sentimiento del mercado. Los objetivos propuestos incluyen procesar y analizar datos relevantes, evaluar la relación entre el sentimiento y las fluctuaciones del tipo de cambio, e implementar un modelo que integre estas variables. Se logra crear un conjunto de datos limpio y que permite la propuesta de un modelo predictivo que mejora la comprensión de las dinámicas del mercado, además de elaborar un informe detallado sobre la metodología aplicada y los resultados obtenidos. Estas herramientas benefician a inversores y profesionales del área financiera en la toma de decisiones más informadas y en la mitigación de riesgos asociados con la volatilidad del mercado. El modelo resultante también sirve como base para futuras investigaciones que exploran otros mercados y aplicaciones. Al adoptar este enfoque, el proyecto contribuye al campo de la ciencia de datos y las finanzas, además de establecer nuevos paradigmas en la predicción del tipo de cambio EUR/USD.
  • Item
    Predicción de fraudes y anomalías en el suministro de agua potable con técnicas de analítica de datos
    (Pontificia Universidad Javeriana Cali, 2025) Zamudio Rojas, José David; Enríquez Sánchez, Dany Alexander; Rodríguez Rodríguez, Cristian Fabián; Ramírez Buelvas, Sandra Milena
    El estudio desarrolló una metodología integral para la detección de fraudes y anomalías en el consumo de agua potable en Chile, utilizando una base de datos anonimizada con series de consumo mensuales, características metrológicas y localización geográfica de medidores mecánicos. En la detección de fraude sin enfoque de negocio, los modelos supervisados Random Forest (RF) y XGBoost (XGB) mostraron desempeños técnicos similares, con diferencias leves en métricas como el F1-Score. Al incorporar el enfoque de negocio mediante matrices de costos y métricas económicas, las métricas estadísticas se mantuvieron estables, pero el Random Forest resultó con mejor desempeño operativamente, alcanzando una ganancia promedio cercana a 2,31 millones de dólares y un mROI del 64,3%, superior al 59,9% obtenido por XGBoost. En el análisis de anomalías técnicas, los modelos supervisados también se evaluaron, pero el desempeño fue limitado debido a la baja frecuencia de muestreo, mientras que el enfoque no supervisado basado en DBSCAN no logró separar de forma efectiva los casos de interés de fraude y anomalías. Adicional, se empleó la regresión logística para el problema de fraude como modelo base interpretable: permitió identificar el efecto de variables de consumo, clase metrológica, año de instalación y zona geográfica, alcanzó un AUC-ROC de 0,78 y un Brier Score de 0,18, aunque la prueba de Hosmer--Lemeshow (p-value approx 0) indicó un ajuste limitado frente a la complejidad del fenómeno. Por su parte, en el caso de anomalías el modelo de regresión logística no cumplió los supuestos fundamentales de linealidad en el logit ni de adecuación del ajuste, por lo que no resultó apropiado para predecir anomalías y fue descartado como alternativa metodológica en este componente. A su vez, enfoque no supervisado basado en DBSCAN tampoco logró separar de forma efectiva los casos de interés, presentando sensibilidades cercanas a cero para la detección de fraude y utilidad acotada para anomalías. Finalmente, pese a las limitaciones inherentes del muestreo mensual y el desbalance extremo, los resultados obtenidos muestran que es posible construir modelos predictivos útiles para la priorización de inspecciones y el fortalecimiento de estrategias de control de fraude.
  • Item
    Impacto de la Expansión Urbana en la Pobreza: Análisis Geoespacial y Socioeconómico en Bogotá D.C.
    (Pontificia Universidad Javeriana Cali, 2025) Vera Mendivelso, Christian David; Castiblanco Hernández, Julián Felipe; Arnedo Pertuz, Andrew Rafael; Solano Correa, Yady Tatiana
    El proyecto se centra en analizar la influencia de la expansión urbana en los índices de pobreza en la ciudad de Bogotá D.C., abordando un tema crucial para la planificación urbana y el desarrollo social. En particular, resulta esencial comprender cómo el crecimiento descontrolado de la ciudad afecta la distribución de la pobreza y la desigualdad. Este fenómeno tiene un impacto significativo en las áreas periféricas, que suelen experimentar un desarrollo informal y enfrentan serias limitaciones en el acceso a servicios básicos, perpetuando ciclos de vulnerabilidad y exclusión social. La investigación parte del reconocimiento de la creciente brecha socioeconómica en la ciudad, evidenciada por la expansión urbana desregulada, agravando los niveles de pobreza. Para abordar este problema, se integraron datos geoespaciales usando imágenes satelitales, junto con el índice de pobreza multidimensional, como indicador socioeconómico, para identificar las dinámicas de expansión urbana en cada una de las UPZ de la ciudad, en la última década (2014–2024) y analizar cómo estas influyen en los patrones de pobreza. Se analizó y explicó por qué la densidad poblacional, el porcentaje de urbanización, entre otras métricas, impactan de manera distinta al norte, el centro y el sur de la ciudad. Finalmente, se desarrollaron visualizaciones interactivas que facilitan la interpretación de los resultados, contribuyendo así a la generación de conocimiento útil para la toma de decisiones en políticas públicas y planificación urbana.
  • Item
    Desarrollo de un modelo predictivo basado en machine learning para la optimización de curvas de cuantificación en toxicología forense
    (Pontificia Universidad Javeriana Cali, 2025) Bernal Rey, Andrea Milena; Forero López, Diego Alejandro; González Gómez, Daniel Enrique
    La toxicología forense desempeña un papel fundamental en la administración de justicia al proporcionar análisis cualitativos y cuantitativos de sustancias de interés toxicológico en muestras biológicas, como sangre, orina y tejidos. Estos análisis permiten determinar la causa de muerte, establecer niveles de intoxicación y evaluar correlaciones con comportamientos específicos. En el laboratorio del Instituto Nacional de Medicina Legal y Ciencias Forenses (TOXF-INMLCF), la generación de curvas de calibración es una etapa crítica, pero también altamente demandante en términos de tiempo y recursos, ya que se requieren curvas específicas para cada caso analizado. Para mitigar esta carga, el laboratorio ha implementado curvas de calibración multipropósito que permiten correlacionar concentraciones y factores de respuesta instrumental para sustancias frecuentes. No obstante, garantizar la validez y estabilidad de estas curvas exige herramientas avanzadas que optimicen su análisis. En este contexto, el Machine Learning emerge como una solución innovadora, permitiendo procesar grandes volúmenes de datos, identificar patrones complejos y generar modelos predictivos confiables que optimicen la cuantificación toxicológica. El presente trabajo tiene como objetivo implementar un modelo de Machine Learning que permita optimizar las curvas de cuantificación de analitos toxicológicos en sangre, asegurando precisión, reproducibilidad y consistencia en los análisis forenses. Esta investigación no solo busca mejorar la eficiencia operativa del laboratorio, sino también fortalecer la precisión de la evidencia forense presentada en procesos judiciales. Además, posicionará al laboratorio como un referente en la región, promoviendo enfoques científicos avanzados en toxicología forense. En conjunto, el proyecto responde a la necesidad de herramientas innovadoras para abordar desafíos complejos en el análisis toxicológico, contribuyendo al avance de la ciencia y la administración de justicia.
  • Item
    Modelo para predecir si un aspirante admitido se matriculará en un programa de pregrado de una universidad colombiana, aplicando técnicas de ciencia de datos
    (Pontificia Universidad Javeriana Cali, 2025) Piñeros Castro, Carlos Rodrigo; Linares Ospina, Diego Luis; Álvarez Vargas, Gloria Inés
    Se desarrolló un modelo para predecir si un aspirante admitido se matriculará en un programa de pregrado de una universidad colombiana utilizando técnicas de aprendizaje automático. Las universidades tienen la necesidad de contar con herramientas que faciliten la optimización de los recursos y la toma de decisiones estratégicas para garantizar su sostenibilidad. La fluctuación del número de estudiantes inscritos, admitidos y matriculados nuevos genera incertidumbre en la planificación académica y financiera. En este sentido, se propuso el desarrollo de un modelo que permite predecir la matrícula a partir de la información de los aspirantes. Este proyecto se centró en la preparación de los datos, el entrenamiento de diferentes modelos de clasificación, la utilización de métricas de evaluación para verificar el rendimiento de los modelos y el desarrollo de un prototipo que realiza predicciones a partir de nuevos datos. Se espera que este modelo promueva el diseño de estrategias de marketing para la captación y el reclutamiento ajustadas a los perfiles de los aspirantes.
  • Item
    Modelo predictivo de resistencia antibiótica en bacterias bucales mediante análisis fenotípico y taxonómico
    (Pontificia Universidad Javeriana Cali, 2025) Sotelo Ariza, Ana Luisa; Barrera Salgado, Jorge Iván; Tobar Tosse, Henry Fabián
    Este proyecto presenta un enfoque de aprendizaje supervisado para predecir resistencia antibiótica en bacterias bucales mediante la integración de características fenotípicas y taxonómicas. Se construyó un flujo de procesamiento y consolidación de datos a partir de cuatro fuentes heterogéneas del repositorio BV-BRC: metadatos de muestras clínicas, identificadores genómicos, información del linaje taxonómico y registros fenotípicos de susceptibilidad a antibióticos. La fase de preprocesamiento incluyó normalización de columnas, depuración de valores faltantes e inconsistentes, eliminación de duplicados, estandarización del nombre científico y procesamiento por bloques para manejar archivos TSV de gran tamaño. Este procedimiento permitió generar un conjunto de datos unificado y estructurado para análisis estadístico y modelado predictivo. Se realizó un análisis exploratorio que caracterizó la distribución de las bacterias por familia, género y especie, así como su relación con los fenotipos de resistencia. Mediante tablas cruzadas, gráficos de barras apiladas y mapas de calor proporcionales, se identificaron grupos taxonómicos con mayor prevalencia de fenotipos resistentes. Posteriormente, se implementó un modelo de regresión logística binaria empleando codificación categórica, validación mediante división train–test y métricas de desempeño como exactitud, precisión, recall y F1-score. El modelo alcanzó un accuracy del 75.2 % y un F1-score de 0.49, resultados que reflejan el desbalance entre clases y la complejidad inherente a la predicción de resistencia antibiótica. No obstante, el análisis de los coeficientes permitió identificar señales fenotípicas y taxonómicas asociadas a niveles diferenciados de resistencia. Los resultados demuestran la viabilidad de este enfoque computacional para caracterizar tendencias de resistencia antibiótica en bacterias bucales y constituyen una base metodológica para el desarrollo de modelos predictivos más robustos, con aplicaciones potenciales en vigilancia epidemiológica y análisis microbiológico basado en datos.
  • Item
    Análisis comparativo de la percepción mediática de la reforma a la salud en Colombia usando técnicas NLP
    (Pontificia Universidad Javeriana Cali, 2025) Hernández Moreno, Bryan Steven; Coronado Cobos, Samuel Andrés; González Ipuz, José Luis; Álvarez Bustos, Abel; Ramírez Ovalle, Carlos Ernesto
    Este estudio aplicó técnicas de ciencia de datos y procesamiento de lenguaje natural (NLP) para analizar la percepción mediática sobre la reforma a la salud en Colombia (2022-2024), abordando una brecha en la literatura al examinar diferencias regionales en la cobertura periodística. Partiendo del rol del periodismo en la formación de opinión pública especialmente en temas críticos como la salud, se recolectaron 1.401 noticias mediante web scraping de fuentes confiables (SCImago) en las regiones Andina, Caribe y Pacífica, siguiendo criterios de inclusión rigurosos (periodo 2022-2024, idioma español, relevancia temática). Los datos se preprocesaron con técnicas de NLP (tokenización, lematización, eliminación de stopwords y publicidad) y se depuraron mediante análisis estadístico (excluyendo 39 noticias atípicas por IQR). Para el análisis, se implementaron modelos de similitud (TF-IDF, Doc2Vec, MPNet) y clasificación de sentimientos (BETO, RoBERTa y ChatGPT-4o), este último como contraste. Los modelos fine tuned (BETO: 91.29% accuracy; RoBERTa: 89.18%) superaron significativamente a ChatGPT-4o (67.29%), demostrando la importancia del ajuste especializado para contextos periodísticos en español. El etiquetado manual (26.43% del corpus) permitió validar los resultados, destacando tendencias regionales: neutralidad en la cobertura Andina (asociada a enfoques institucionales), mayor positividad en el Caribe y predominio de narrativas negativas en el Pacífico (vinculadas a críticas locales). Los hallazgos confirman que: Las diferencias geopolíticas y socioculturales moldean narrativas mediáticas, pese a cierta homogeneidad discursiva intrarregional (validada por métricas de similitud). El fine-tuning de modelos de NLP es crucial para análisis de sentimientos en dominios especializados, siendo BETO óptimo para español. La metodología propuesta integrando web scraping, NLP y visualización interactiva (Power BI) ofrece un marco replicable para estudios de percepción mediática en políticas públicas.
  • Item
    Modelo predictivo para la identificación de zonas de riesgo de dengue grave: un enfoque integral de condiciones sociodemográficas y calidad de servicios de salud
    (Pontificia Universidad Javeriana Cali, 2024) Rueda González, Sergio Andrés; Ortega Lenis, Delia
    El presente proyecto aplicado desarrolla un modelo predictivo para identificar zonas de riesgo de dengue grave en el municipio de Girón (Santander, Colombia), integrando variables epidemiológicas, climáticas, sociodemográficas y relacionadas con la calidad de los servicios de salud. El dengue grave constituye una amenaza creciente para la salud pública, y su manejo inadecuado en contextos de alta vulnerabilidad social aumenta la letalidad. La investigación partió de la recolección y unificación de múltiples fuentes de datos: reportes del sistema SIVIGILA (2018–2024), registros de visitas entomológicas (ETV) a 9.885 viviendas, y series de precipitaciones diarias del IDEAM mediante CHIRPS. Tras un riguroso proceso de limpieza, normalización y estandarización de nombres de barrios, se consolidó una matriz multifuente de predictores a nivel territorial. Entre las variables clave se incluyeron número de criaderos por vivienda, precipitaciones acumuladas, proporción de síntomas (fiebre, vómito, dolor abdominal), indicadores de riesgo clínico por manejo inadecuado, estrato socioeconómico, edad promedio y proporción de mujeres. El modelo objetivo se definió como la clasificación binaria de barrios en zonas de riesgo alto cuando se reportó al menos un caso de dengue grave. Se entrenaron modelos de regresión logística, Random Forest y XGBoost, aplicando estrategias para enfrentar el desbalance de clases (79,7% barrios sin riesgo vs. 20,3% con riesgo), como imputación diferenciada, escalamiento estandarizado, técnica SMOTE y ajuste de umbral a 0.4. Los resultados de la validación cruzada estratificada (k=5) evidenciaron desempeños óptimos. El modelo Random Forest alcanzó la mayor sensibilidad (0,95) y un AUC-ROC de 0,95, destacándose por minimizar falsos negativos, mientras que XGBoost logró el mejor F1-score promedio (0,86), mostrando un balance superior entre precisión y recall. La regresión logística, aunque menos precisa, aportó interpretabilidad estadística y validez metodológica. El análisis de importancia de variables reveló que los principales predictores fueron: número de viviendas con criaderos, indicadores de riesgo por conducta médica inadecuada, tipos de criaderos (floreros, tanques, llantas), síntomas clínicos y precipitaciones promedio en los siete días previos. Adicionalmente, la inclusión de indicadores de calidad de atención en salud (demora en la notificación, severidad clínica promedio y fuga asistencial) mejoró la capacidad explicativa del modelo, visibilizando debilidades institucionales que aumentan la vulnerabilidad territorial. La representación geoespacial en mapas tipo choropleth permitió identificar barrios críticos como Rincón de Girón, Villas de San Juan y Nuevo Girón, donde confluyen alta carga entomológica, reconsultas frecuentes y deficiencias en la atención clínica. Estas visualizaciones constituyen herramientas estratégicas para planificación territorial, priorización de recursos y focalización de intervenciones preventivas en escenarios de restricción presupuestal. En conclusión, el estudio confirma que el riesgo de dengue grave es producto de una interacción compleja entre determinantes ambientales, sociales e institucionales. El modelo predictivo propuesto constituye una herramienta innovadora para fortalecer la vigilancia epidemiológica activa y la gestión local en salud pública. Se recomienda su validación en otros municipios endémicos y la incorporación de datos en tiempo real para consolidarlo como un sistema escalable de alerta temprana frente al dengue y otras enfermedades transmitidas por vectores.
  • Item
    Super-resolución en estudios de MRI mediante técnicas de aprendizaje profundo
    (Pontificia Universidad Javeriana Cali, 2025) Arcos Ramírez, Carlos Manuel; Ortega Solarte, Rafael Giovanny; Daza Malagón, Charles Erasmo; Vargas Cardona, Hernán Darío
    Este proyecto se centró en aplicar técnicas de super-resolución basadas en aprendizaje profundo, tanto en 2D como en 3D, para mejorar la resolución espacial de estudios de resonancia magnética (MRI) anatómicos tipo T1. La calidad de las imágenes médicas es crucial para una adecuada interpretación clínica, pero suele verse limitada por factores técnicos durante su adquisición. Esta problemática motivó la implementación de soluciones computacionales que permitan incrementar la resolución de las imágenes sin necesidad de repetir estudios. Los objetivos incluyeron gestionar estudios MRI anatómicos T1 de bases de datos públicas, implementar y entrenar algoritmos de super resolución y evaluar su desempeño mediante indicadores cuantitativos como PSNR, SSIM, MSE y evaluaciones perceptuales, utilizando imágenes de referencia como Gold Standard. Para ello, se gestionó un conjunto de datos reales, públicos y anonimizados provenientes de la iniciativa Parkinson’s Progression Markers Initiative (PPMI), con el fin de entrenar y validar distintos modelos. Se implementaron arquitecturas como SRCNN, U-Net, EDSR, VDSR, DRCN, Autoencoder, SRGAN, SRResNet, SRDenseNet, cGAN y SR3, en sus variantes 2D o 3D según el caso. Los resultados mostraron que ciertas arquitecturas, como SRResNet 2D, SRDenseNet 2D, UNet 3D, EDSR 3D y SRCNN 3D, destacaron por su capacidad de reconstruir imágenes con alta fidelidad estructural, mientras que otras como VDSR, DRCN, SRGAN y cGAN presentaron un rendimiento aceptable, aunque con oportunidades de mejora. Por otro lado, Autoencoder 2D y SR3 demostraron limitaciones significativas en esta tarea específica. Estas observaciones sugieren que los modelos basados en bloques residuales o con estructuras encoder-decoder son especialmente prometedores para su uso futuro. Este trabajo resalta la utilidad del aprendizaje profundo como herramienta clave para la mejora computacional de imágenes médicas, con aplicaciones que pueden contribuir a diagnósticos más precisos, reducción de costos y desarrollo de tecnologías asistidas en imagenología médica.
  • Item
    ClientMinds – Optimización de la experiencia del cliente utilizando modelos de procesamiento de lenguaje natural (PLN)
    (Pontificia Universidad Javeriana Cali, 2025) Potes Blandón, Jonathan; García Quiroz, Obed; Linares Ospina, Diego Luis; Álvarez Vargas, Gloria Inés
    En el contexto empresarial actual, la gestión de las relaciones con los clientes (CRM, por sus siglas en inglés) es crucial para el éxito organizacional. Muchas empresas enfrentan dificultades para comprender y mejorar la satisfacción del cliente, pese a disponer de abundantes datos en sus sistemas de CRM, lo que limita la optimización de estas relaciones. Dada la problemática anterior y la oportunidad que tienen las organizaciones con los datos almacenados, este proyecto tuvo como objetivo desarrollar un sistema de Procesamiento del Lenguaje Natural (PNL) basado en un modelo de lenguaje a gran escala (LLM) para mejorar la comprensión y satisfacción del cliente. Este modelo no solo permite interpretar y responder a las solicitudes de los clientes de manera personalizada, sino que también analiza los sentimientos expresados en las interacciones y responden en consecuencia. Las estrategias implementadas incluyen la limpieza y exploración de datos textuales, el ajuste fino de los LLM preentrenados y la creación de un chatbot que integra estas capacidades. Este chatbot no solo interactúa eficazmente con los clientes, sino que también deja registro de dichas interacciones con el propósito de generar insights valiosos, los cuales permiten hacer seguimiento a la satisfacción del cliente y tomar decisiones estratégicas basadas en su comportamiento. En conclusión, este sistema basado en PLN se perfila como una herramienta innovadora para mejorar la experiencia del cliente y fortalecer las relaciones cliente-empresa, lo anterior, gracias a la capacidad de LLM para identificar emociones, ofrecer respuestas precisas y generar información valiosa, facilitando asi la implementación de acciones efectivas orientadas a la mejora continua de la relación con los clientes. Esto no solo eleva la calidad del servicio, sino que también impulsa la fidelización y posiciona a las organizaciones como referentes en el uso de inteligencia artificial para la gestión de sus relaciones con los clientes.
  • Item
    Análisis predictivo de la salud mental en estudiantes y colaboradores de una universidad privada colombiana mediante técnicas de ciencia de datos
    (Pontificia Universidad Javeriana Cali, 2024) Valderrama Moreno, Nini Alejandra; González Gómez, Daniel Enrique
    La salud mental presenta un desafío a nivel mundial con repercusiones negativas en contextos sociales, institucionales, familiares, laborales, educativos, entre otros, este proyecto tuvo como objetivo principal comprender la salud mental de estudiantes y colaboradores de una universidad privada de Colombia, a través de la implementación de técnicas de modelamiento predictivo en Ciencia de Datos, para ello se empleó técnicas avanzadas de análisis de datos, aprendizaje automático y visualización interactiva. En una primera etapa, se realizó una exhaustiva exploración descriptiva de la base de datos, seguidamente, se aplicaron técnicas de reducción de dimensionalidad (PCA, t-SNE, UMAP) y métodos de agrupamiento (KMeans, clustering aglomerativo, GMM) para identificar patrones y posibles subgrupos latentes, aunque las métricas cuantitativas no evidenciaron clústers naturales bien definidos. En la segunda fase, se implementaron modelos de aprendizaje supervisado, incluyendo Regresión Lasso, Random Forest, XGBoost y LightGBM, para predecir variables clave como depresión, ansiedad, estrés, soledad, resiliencia, satisfacción con la vida y recursos psicosociales. Se emplearon técnicas de sobremuestreo (SMOTE) y validación cruzada para asegurar la robustez de los modelos y se analizaron las variables predictoras más relevantes asociadas a cada indicador. Finalmente, se desarrolló una herramienta de visualización interactiva desarrollada en PowerBi, que integra los resultados descriptivos, de clustering y de predicción, permitiendo a usuarios técnicos y no técnicos explorar dinámicamente la estructura y los determinantes del bienestar (Indicadores Positivos) y malestar psicológico (Indicadores Negativos) en la población de Colaboradores, estudiantes de Posgrado y estudiantes de Pregrado. Los hallazgos obtenidos aportan una visión integral y basada en evidencia sobre los factores asociados a la salud mental en cuanto bienestar y malestar en contextos universitarios, y constituyen una base sólida para el diseño de intervenciones focalizadas y futuras investigaciones en salud mental y determinantes sociales.
  • Item
    Transformación digital en la gestión contractual: automatización inteligente de la identificación de requisitos contractuales mediante ciencia de datos
    (Pontificia Universidad Javeriana Cali, 2025) Antolínez Becerra, Mónica Jazmín; Güiza Saavedra, Adriana Marcela; Álvarez Vargas, Gloria Inés; Linares Ospina, Diego Luis
    Las entidades que contratan con recursos públicos en Colombia deben velar por la transparencia en el proceso contractual, para ello se tiene un sistema electrónico donde reposa toda la información para dicho fin denominado SECOP. Esta gestión la ejecutan profesionales de gestión contractual asegurando que se cumplan los requisitos acordados en los documentos para el seguimiento periódico. La identificación de los requisitos es una tarea que actualmente se hace manualmente y al no ser una tarea exclusiva, se corre con el riesgo de pasar por alto requisitos que puedan poner en peligro a la empresa en términos económicos, legales entre otros. Este proyecto consiste en la identificación automatizada de requisitos contractuales, utilizando técnicas avanzadas de Procesamiento de Lenguaje Natural (PLN) y Aprendizaje Automático (AA). El sistema desarrollado toma como entrada documentos contractuales en formato PDF, extrae su contenido textual y lo somete a procesos de limpieza, normalización y vectorización. A partir de una muestra de minutas etiquetadas manualmente, se entrenaron modelos supervisados de clasificación binaria para cada requisito contractual, utilizando dos técnicas de representación de texto: TF-IDF y Word2Vec. Como algoritmo de clasificación se empleó Support Vector Classifier (SVC), optimizado mediante búsqueda en cuadrícula (GridSearchCV) para maximizar el desempeño de predicción. Posteriormente, se aplicaron los modelos entrenados para etiquetar automáticamente un corpus más amplio de minutas sin ninguna etiqueta. Con la base de datos consolidada, se realizó un entrenamiento final de los modelos para cada requisito, seleccionando la técnica de vectorización más adecuada según los resultados obtenidos en validaciones anteriores. Las métricas utilizadas para evaluar el desempeño fueron: Accuracy, Precision Macro, Recall Macro, F1-Score Macro, Precision Weighted, Recall Weighted, F1-Score Weighted, esta última priorizada, debido al desbalance de las clases. La herramienta cuenta con una interfaz de usuario intuitiva y funcional que permite a los profesionales de gestión contractual adjuntar documentos contractuales y recibir un listado de todos los requisitos contractuales identificados. Esta interfaz facilita la carga de documentos y la visualización del listado con los requisitos contractuales identificados.