Vitela :: Browsing by Subject "Aprendizaje automático"

Browsing by Subject "Aprendizaje automático"

Now showing 1 - 20 of 75

Análisis comparativo de la percepción mediática de la reforma a la salud en Colombia usando técnicas NLP
(Pontificia Universidad Javeriana Cali, 2025) Hernández Moreno, Bryan Steven; Coronado Cobos, Samuel Andrés; González Ipuz, José Luis; Álvarez Bustos, Abel; Ramírez Ovalle, Carlos Ernesto
Este estudio aplicó técnicas de ciencia de datos y procesamiento de lenguaje natural (NLP) para analizar la percepción mediática sobre la reforma a la salud en Colombia (2022-2024), abordando una brecha en la literatura al examinar diferencias regionales en la cobertura periodística. Partiendo del rol del periodismo en la formación de opinión pública especialmente en temas críticos como la salud, se recolectaron 1.401 noticias mediante web scraping de fuentes confiables (SCImago) en las regiones Andina, Caribe y Pacífica, siguiendo criterios de inclusión rigurosos (periodo 2022-2024, idioma español, relevancia temática). Los datos se preprocesaron con técnicas de NLP (tokenización, lematización, eliminación de stopwords y publicidad) y se depuraron mediante análisis estadístico (excluyendo 39 noticias atípicas por IQR). Para el análisis, se implementaron modelos de similitud (TF-IDF, Doc2Vec, MPNet) y clasificación de sentimientos (BETO, RoBERTa y ChatGPT-4o), este último como contraste. Los modelos fine tuned (BETO: 91.29% accuracy; RoBERTa: 89.18%) superaron significativamente a ChatGPT-4o (67.29%), demostrando la importancia del ajuste especializado para contextos periodísticos en español. El etiquetado manual (26.43% del corpus) permitió validar los resultados, destacando tendencias regionales: neutralidad en la cobertura Andina (asociada a enfoques institucionales), mayor positividad en el Caribe y predominio de narrativas negativas en el Pacífico (vinculadas a críticas locales). Los hallazgos confirman que: Las diferencias geopolíticas y socioculturales moldean narrativas mediáticas, pese a cierta homogeneidad discursiva intrarregional (validada por métricas de similitud). El fine-tuning de modelos de NLP es crucial para análisis de sentimientos en dominios especializados, siendo BETO óptimo para español. La metodología propuesta integrando web scraping, NLP y visualización interactiva (Power BI) ofrece un marco replicable para estudios de percepción mediática en políticas públicas.
Análisis de imágenes satelitales para la clasificación de ecosistemas en predios
(Pontificia Universidad Javariana Cali, 2024) Quiroz Moscarella, Roberto Enrique; Santos Peñuela, Francisco José; Castaño Idárraga, Omar Andrés
El proyecto aplicado se centra en la segmentación de imágenes satelitales de predios para identificar ecosistemas. Aborda la problemática del trabajo manual requerido para segmentar zonas en imágenes, especialmente en la elaboración de proyectos de bonos de carbono. Se desarrolló un algoritmo funcional que permita a los investigadores segmentar grandes extensiones de tierra de manera eficiente, reduciendo el tiempo necesario para esta tarea. Los resultados obtenidos permiten la automatización del proceso de segmentación, particularmente sobre zonas verdes y cuerpos de agua permitiendo la evaluación de su extensión. Las posibles aplicaciones de este proyecto abarcan la investigación ambiental, la planificación del uso del suelo y la gestión de recursos naturales.
Análisis de la deforestación en la Amazonía colombiana usando técnicas de aprendizaje automático
(Pontificia Universidad Javeriana Cali, 2023) León Acosta, Paola Andrea; Otero Martínez, Guillermo Andrés
Debido al alto impacto de la deforestación en el calentamiento global, el aumento de enfermedades zoonóticas y el riesgo de extinción de la biodiversidad, surge la necesidad de desarrollar nuevos enfoques para la medición y análisis de la deforestación que permitan a los gobiernos tener una mejor compresión de este fenómeno para centrar su atención y recursos a atender esta crisis ambiental en las zonas más vulnerables. Dada esta situación y considerando el amplio uso de los algoritmos de aprendizaje automático para analizar datos complejos como imágenes y textos, este proyecto tuvo como objetivo analizar el comportamiento de la deforestación en la Amazonía colombiana usando diferentes técnicas de aprendizaje automático con imágenes satelitales de Google earth engine, considerando estas metodologías como nuevas propuestas de medición en el análisis de la cobertura forestal. Posteriormente, se evaluaron estos modelos mediante métricas de evaluación, una vez seleccionado el modelo con mejor rendimiento, se identificaron las zonas con deforestación en las imágenes satelitales, y a partir de estos resultados se cuantificó y analizó el incremento de la perdida de bosques en un periodo determinado con el propósito de generar alertas de las zonas más vulnerables, y así brindar una herramienta que se pueda considerar como un insight para la formulación de planes de acción y políticas para la prevención y reforestación.
Análisis de sentimientos en llamadas en centros de atención al cliente
(Pontificia Universidad Javeriana Cali, 2025) Arias Gómez, Andrea; Rincón Loaiza, Daniel; Rojas Tavera, Jhon Alexander; Torres Valencia, Cristian Alejandro
En el contexto de los centros de contacto, la calidad de las interacciones entre agentes telefónicos y clientes es esencial para garantizar la satisfacción del cliente y promover el crecimiento empresarial. La ausencia de herramientas para identificar los factores que influyen en el rendimiento de los servicios puede impactar negativamente la reputación y eficiencia operativa. En este contexto, se desarrolló un proyecto de análisis de sentimientos aplicado a transcripciones de llamadas en español, específicamente en el call center de la Universidad Pontificia Javeriana de Cali. El objetivo principal fue analizar y clasificar las emociones expresadas en estas interacciones para identificar patrones emocionales, mejorar la comprensión de las necesidades de los usuarios y optimizar la experiencia del cliente en un entorno educativo. El proyecto integra técnicas avanzadas de aprendizaje automático y procesamiento de lenguaje natural (PLN), incluyendo reconocimiento automático del habla y diarización, para segmentar y analizar las conversaciones. El trabajo abarcó desde la construcción de un corpus representativo y el preprocesamiento avanzado de texto, hasta la configuración y adaptación de modelos de aprendizaje profundo. Además, se diseñó una interfaz con AppScript, que facilita la carga de datos y la visualización de resultados, asegurando una experiencia de usuario eficiente y accesible. La evaluación de los modelos de clasificación se realizó mediante métricas como precisión, recall y F1-score, dentro de un marco metodológico robusto que combina CRISP-DM y Scrum, garantizando un proceso estructurado y ágil. Este enfoque permite a las empresas del sector BPO en Colombia anticipar problemas, optimizar operaciones y mantener una reputación positiva en un mercado altamente competitivo.
Análisis predictivo de la salud mental en estudiantes y colaboradores de una universidad privada colombiana mediante técnicas de ciencia de datos
(Pontificia Universidad Javeriana Cali, 2024) Valderrama Moreno, Nini Alejandra; González Gómez, Daniel Enrique
La salud mental presenta un desafío a nivel mundial con repercusiones negativas en contextos sociales, institucionales, familiares, laborales, educativos, entre otros, este proyecto tuvo como objetivo principal comprender la salud mental de estudiantes y colaboradores de una universidad privada de Colombia, a través de la implementación de técnicas de modelamiento predictivo en Ciencia de Datos, para ello se empleó técnicas avanzadas de análisis de datos, aprendizaje automático y visualización interactiva. En una primera etapa, se realizó una exhaustiva exploración descriptiva de la base de datos, seguidamente, se aplicaron técnicas de reducción de dimensionalidad (PCA, t-SNE, UMAP) y métodos de agrupamiento (KMeans, clustering aglomerativo, GMM) para identificar patrones y posibles subgrupos latentes, aunque las métricas cuantitativas no evidenciaron clústers naturales bien definidos. En la segunda fase, se implementaron modelos de aprendizaje supervisado, incluyendo Regresión Lasso, Random Forest, XGBoost y LightGBM, para predecir variables clave como depresión, ansiedad, estrés, soledad, resiliencia, satisfacción con la vida y recursos psicosociales. Se emplearon técnicas de sobremuestreo (SMOTE) y validación cruzada para asegurar la robustez de los modelos y se analizaron las variables predictoras más relevantes asociadas a cada indicador. Finalmente, se desarrolló una herramienta de visualización interactiva desarrollada en PowerBi, que integra los resultados descriptivos, de clustering y de predicción, permitiendo a usuarios técnicos y no técnicos explorar dinámicamente la estructura y los determinantes del bienestar (Indicadores Positivos) y malestar psicológico (Indicadores Negativos) en la población de Colaboradores, estudiantes de Posgrado y estudiantes de Pregrado. Los hallazgos obtenidos aportan una visión integral y basada en evidencia sobre los factores asociados a la salud mental en cuanto bienestar y malestar en contextos universitarios, y constituyen una base sólida para el diseño de intervenciones focalizadas y futuras investigaciones en salud mental y determinantes sociales.
Análisis y comparación de modelos de aprendizaje automático, estadístico y matemático para la predicción de brotes en salud pública
(Pontificia Universidad Javeriana Cali, 2025) Forero Benavides, Deisy; Rodríguez Rodríguez, Jeisson; Romero Pérez, Zujel Enrique; Ortega Lenis, Delia
El proyecto aplicado abordó la predicción de brotes de enfermedades infecciosas en salud pública, utilizando datos abiertos de COVID19 en la ciudad de Bogotá. Este estudio se realizó a través de la modelación predictiva de tipo matemático, estadístico y de aprendizaje automático realizando comparaciones con el fin de responder a la necesidad crítica de anticipar eventos epidemiológicos que ejercen una alta presión sobre los sistemas sanitarios y generan impactos significativos tanto sociales como económicos. Su importancia radica en que la identificación temprana de tendencias, picos de contagio y zonas de riesgo permite optimizar recursos, mejorar la toma de decisiones y fortalecer las intervenciones preventivas en contextos urbanos densamente poblados. La problemática central consistió en las limitaciones de los sistemas de salud para responder oportunamente a brotes, así como en los desafíos asociados a la calidad, selección y tratamiento de datos relevantes para la modelación predictiva. Como objetivo general, se propuso desarrollar y evaluar dichos modelos predictivos orientados a la preparación y depuración de los datos, la identificación de variables clave, el entrenamiento y ajuste de modelos y la comparación de su desempeño mediante métricas estandarizadas. Como resultado, se diseñaron y evaluaron modelos preliminares que evidenciaron diferencias claras en capacidad predictiva, interpretabilidad y viabilidad operativa, permitiendo identificar fortalezas y limitaciones de cada enfoque y establecer condiciones mínimas para su aplicación en escenarios reales de salud pública. Los hallazgos muestran que la integración de la ciencia de datos con enfoques tradicionales de modelación epidemiológica constituye una herramienta efectiva para la anticipación de brotes. Las posibles aplicaciones incluyen el apoyo a sistemas de alerta temprana, la planificación estratégica de recursos sanitarios y la formulación de políticas públicas basadas en evidencia, con potencial de replicabilidad a nivel nacional y en otros contextos urbanos similares.
Aplicación de ciencia de datos para predecir el éxito de la ejecución de los contratos públicos en Colombia
(Pontificia Universidad Javeriana Cali, 2025) Arias Sanabria, Javier Andrés; Pabón Burbano, María Constanza
Este trabajo de grado aborda el desafío de predecir el riesgo de fracaso (y, consecuentemente, validar el éxito) en la ejecución de la contratación pública en Colombia mediante la aplicación de técnicas avanzadas de Ciencia de Datos. Dada la vasta disponibilidad de información en el Portal de Datos Abiertos (SECOP I), el objetivo principal de esta investigación fue desarrollar un modelo predictivo escalable que funcione como un sistema de alerta temprana para identificar irregularidades contractuales, un tema de alto interés nacional y valor estratégico para las entidades de control. Metodológicamente, se analizó el universo poblacional completo de los procesos registrados entre 2011 y 2025, procesando una matriz final de más de 1.98 millones de registros. El diseño de ingeniería de características incluyó la codificación de riesgo geográfico mediante Target Encoding y el Procesamiento de Lenguaje Natural (NLP) a través de la vectorización TF-IDF para analizar semánticamente los objetos contractuales. Se evaluaron y optimizaron cinco arquitecturas de aprendizaje supervisado, enfrentando el reto del desbalance de clases mediante aprendizaje sensible al costo. Los resultados demostraron la superioridad del modelo de ensamble LightGBM, el cual logró un rendimiento excepcional con un AUC-ROC de 0.973 y una sensibilidad del 92.82%, manteniendo una tasa de falsas alarmas controlada (7.55%). En conclusión, este proyecto demuestra que el uso de Machine Learning supera las limitaciones del análisis estadístico tradicional al capturar interacciones complejas, entregando a los sectores gubernamentales una herramienta de auditoría preventiva ágil y de alta precisión para la protección de los recursos públicos.
Aplicación de modelos de clusterización para analizar patrones comerciales en la Calle 5 de Cali: Impacto de equipamientos y estructura vial
(Pontificia Universidad Javeriana Cali, 2025) Gutiérrez Ayala, Juan Fernando; López Velásquez, Juan Camilo; Arteaga Botero, Gustavo Adolfo
Este proyecto realiza un análisis urbano del corredor de la Calle 5, entre la carrera 1 y la carrera 50 en Santiago de Cali, una zona con relevancia patrimonial y urbanística que atraviesa procesos de transformación física y social. El estudio parte del reconocimiento de la complejidad de las dinámicas urbanas y aplica algoritmos de Machine Learning no supervisados para identificar patrones en la consolidación de usos comerciales y vocaciones del territorio. El corredor de la Calle 5 actúa como eje articulador de distintos usos del suelo que han definido la vocación de barrios y sectores enteros de la ciudad. En este contexto, el objetivo del proyecto es integrar herramientas de análisis urbano y ciencia de datos para construir un modelo de agrupamiento que permita comprender mejor la configuración actual del corredor y apoyar la toma de decisiones. El trabajo se desarrolló en cuatro etapas: (1) revisión de literatura para identificar variables relevantes y modelos de agrupamiento aplicados a contextos urbanos; (2) consolidación de una base de datos armonizada a partir de fuentes públicas y mixtas; (3) aplicación y evaluación de distintos modelos de agrupamiento para seleccionar el más adecuado; y (4) interpretación de los patrones espaciales resultantes, con énfasis en los usos comerciales del corredor. Uno de los hallazgos clave es que la presencia de establecimientos comerciales no determina por sí sola la configuración de las vocaciones urbanas en el corredor, salvo en el caso de los asociados al sector salud. En cambio, los equipamientos urbanos, los elementos relacionados con la movilidad y, en menor medida, la accesibilidad y conectividad de las manzanas, fueron las variables más influyentes en la formación de patrones espaciales. Este proyecto reconoce que los procesos de transformación urbana responden a sistemas complejos con múltiples variables interrelacionadas. Por ello, promueve el uso de herramientas de ciencia de datos como insumo para entender y gestionar estos procesos de forma más eficiente. Se hace un llamado a la apropiación tecnológica en la función pública, resaltando el valor del análisis de datos en la planificación urbana y en la toma de decisiones informadas.
Aplicación de procesamiento de lenguaje natural (PLN) para identificar riesgos operacionales en el sector salud
(Pontificia Universidad Javeriana Cali, 2026) Mejía Delgado, Alejandro; Pencue-Fierro, Edgar Leonairo
El presente proyecto aplicado, denominado “Aplicación de procesamiento de lenguaje natural (PLN) para identificar riesgos operacionales en el sector salud”, aborda el análisis de las PQRD reportadas ante la Superintendencia Nacional de Salud como fuente de información para identificar señales asociadas a fallas operacionales en la prestación de servicios de salud. Su importancia radica en que el alto volumen de inconformidades reportadas por los usuarios puede reflejar problemas recurrentes en procesos como acceso a servicios, autorizaciones, entrega de medicamentos, atención asistencial, atención administrativa y continuidad del cuidado, los cuales requieren ser analizados de forma sistemática para apoyar la gestión preventiva del riesgo. El objetivo del proyecto fue aplicar técnicas de PLN y aprendizaje automático para clasificar las PQRD en categorías de riesgo operacional y asociarlas con procesos de la prestación de servicios de salud, siguiendo la metodología CRISP-DM. Para ello, se consolidaron las bases abiertas de PQRD del periodo 2017–2024, se realizó la evaluación de calidad, depuración y normalización de los datos, y se construyó una base final de 8.039.810 registros. Posteriormente, se preparó un corpus textual a partir de los campos normalizados de macromotivo, motivo general y motivo específico, y se elaboró una muestra etiquetada manualmente de 4.000 registros en siete categorías de riesgo operacional. A partir de esta muestra se entrenaron y evaluaron diferentes modelos de clasificación supervisada, seleccionando como modelo final Linear SVC con representación TF-IDF calibrado mediante el método sigmoid, por su equilibrio entre desempeño, interpretabilidad y viabilidad computacional. El modelo fue aplicado sobre la base depurada, permitiendo clasificar las PQRD y relacionarlas con procesos de atención en salud. Como aplicación, los resultados permiten identificar patrones recurrentes de riesgo, priorizar procesos críticos, diseñar visualizaciones analíticas y formular recomendaciones orientadas a mejorar la calidad del servicio y prevenir la recurrencia de fallas operacionales en el sector salud.
Application of data augmentation methods in transfer learning algorithms to identify amphibian species in bioacoustic signals
(Pontificia Universidad Javeriana Cali, 2024) Melo Ordóñez, Adriana Lucía; Tobón Llano, Luis Eduardo
El calentamiento global y sus efectos se han establecido como asuntos importantes en la actualidad. Las consecuencias y evidencias del cambio climático deberían representar la urgencia de medidas más estrictas para prevenir secuelas irreversibles. De esta manera, es crucial reunir evidencia que corrobore el grado de efecto del calentamiento global, y el Monitoreo Acústico Pasivo, PAM en inglés, es un método para cumplir este objetivo. PAM puede supervisar especies que se encuentran en riesgo de extinción y que también son especialmente sensibles a los cambios de temperatura como es el caso de los anuros. Consecuentemente, estas especies son fundamentales en determinar el impacto del calentamiento global y la escala de urgencia para abordarlo. El estudio y supervisión de señales, reunidos de la aplicación de PAM, puede implicar un desafío debido a la extensa cantidad de horas de datos que se necesitan analizar, lo que puede ser una tarea demandante y que consume mucho tiempo. Entonces, el uso de Machine Learning aparece como una herramienta efectiva para automatizar la identificación de señales bioacústicas y facilitar su estudio. Sin embargo, con el fin de alcanzar resultados excepcionales con algoritmos de Machine Learning se requieren una cantidad de datos considerable, la cual no siempre puede estar disponible. Con el objeto de afrontar la falta de datos y mejorar el desempeño de los algoritmos, técnicas como la aumentación de datos y el aprendizaje por transferencia han sido desarrolladas. Este trabajo de grado pretende probar la eficacia de estas dos técnicas para clasificar espectrogramas multi-etiqueta generados de llamados de especies de anuros. Los experimentos involucraron comparar el desempeño de tres arquitecturas de redes neuronales convolucionales (ResNet, VGG y EfficientNet) en dos bases de datos. Los experimentos concluyeron que EfficientNet obtuvo los resultados más significativos, consiguiendo en promedio un F1-score de 0.83 cuando se usó junto con la aumentación de datos y el aprendizaje por transferencia.
Citobot: un enfoque de inteligencia artificial para la detección temprana del cáncer de cuello uterino
(Pontificia Universidad Javeriana Cali, 2024) Rivero Urbano, David Steven; Vargas Cardona, Hernán Darío
Hoy en día, el cáncer de cuello uterino sigue siendo una preocupación en términos de salud pública a nivel mundial debido a su alta incidencia y mortalidad, especialmente en países en desarrollo. En 2022, en Colombia se reportaron 30.997 casos prevalentes, lo que significó un incremento del 17% en la proporción de casos nuevos reportados. A pesar de los avances y la disponibilidad de pruebas de detección, estas cifras continúan generando inquietud, principalmente en áreas rurales, debido a la dificultad para obtener imágenes diagnósticas y la falta de expertos médicos capacitados para proporcionar una evaluación precisa en estos sitios. En el ámbito de la ingeniería, el uso de algoritmos de aprendizaje automático y profundo ha demostrado ser efectivo en aplicaciones de imágenes médicas, permitiendo identificar patrones y extraer características de distintas enfermedades, obteniendo un diagnóstico preciso en segundos. Además, la metodología de MLOps (DevOps para Machine Learning) se ha posicionado como una solución para llevar estos modelos a producción de manera efectiva, automatizando los flujos de trabajo y garantizando la escalabilidad y fiabilidad de los algoritmos. MLOps fusiona las prácticas de desarrollo de software (DevOps) con los procesos específicos de Machine Learning (ML), facilitando la implementación efectiva de modelos en entornos de producción y asegurando la integridad y confiabilidad de los algoritmos a lo largo del ciclo de vida del modelo. Bajo este contexto, el proyecto CITOBOT busca desarrollar un sistema portátil basado en inteligencia artificial para el tamizaje del cáncer de cuello uterino, implementando metodologías que permitan integrar adecuadamente un modelo predictivo de imágenes colposcópicas en una aplicación móvil que impulse el dispositivo CITOBOT. El objetivo es mejorar la detección temprana del cáncer de cuello uterino y garantizar un diagnóstico preciso y confiable de la enfermedad. Con esta iniciativa, se busca aliviar la carga de los centros médicos al proporcionar una herramienta de apoyo para el diagnóstico del cáncer de cuello uterino. Además, se pretende abordar las limitaciones en el acceso a servicios especializados en áreas rurales, al ofrecer una solución que pueda ser utilizada en dichas regiones.
Clasificación basada en Machine Learning para la identificación de marcadores genéticos utilizando patrones estructurales asociados con cáncer de mama
(Pontificia Universidad Javeriana Cali, 2025) González Martínez, Lina Yojana; Hurtado Siabato, Carlos Eduardo; Pérez Ruiz, Camilo Andrés; Tobar Tosse, Henry Fabián
Según el Observatorio Global del Cáncer de la Organización Mundial de la Salud, el cáncer de mama sigue siendo una de las principales causas de mortalidad a nivel mundial, presentando tasas de incidencia especialmente altas en algunas regiones de América Latina. En respuesta a esta situación, el presente estudio presenta un marco integrador fundamentado en aprendizaje automático para el análisis de datos genómicos de alta dimensión procedentes de pacientes latinoamericanos. En primer lugar, se implementó un modelo de clasificación capaz de identificar marcadores genéticos a partir de patrones estructurales y de contextos loci específicos, evaluando la probabilidad de generación de factores patogénicos. El mejor rendimiento se obtuvo con XGBoost con submuestreo, alcanzando un F1-score de 0.9625 y una exactitud de 0.9622. No obstante, el hecho de que una variante haya sido etiquetada como patogénica no siempre representa el desarrollo de la enfermedad en el paciente. Por esta razón, de manera complementaria, se realizó un análisis y modelamiento sobre un segundo dataset enfocado en el diagnóstico de pacientes con y sin cáncer de mama familiar, para el cual el mejor modelo obtenido fue XGBoost con sobremuestreo que logró un rendimiento de F1-score de 0.9969 y exactitud de 0.9969. Adicionalmente, se aplicaron enfoques de clustering y métodos avanzados de selección de características para descubrir asociaciones genómicas que enriquezcan el repertorio de atributos relevantes en el cáncer de mama. El análisis revela un panel de ARN no codificantes, incluyendo Y-RNA, snoRNA y componentes del spliceosoma, junto con genes que codifican proteínas determinantes como CDH4, SDK1, PTPRN2 y CSMD1. Estos hallazgos subrayan dos ejes centrales en la oncogénesis mamaria: la desregulación del procesamiento y traducción del ARN, y la alteración de la adhesión celular y las vías de señalización. La combinación de modelos supervisados y no supervisados no solo potencializó la identificación de patrones estructurales, sino que también facilitó el enriquecimiento de las variables genéticas que sustentan la progresión tumoral. Este enfoque integrador amplía el conocimiento molecular y sienta las bases para el desarrollo de herramientas de diagnóstico temprano, planificación terapéutica y monitorización clínica, mejorando, en última instancia, la calidad de vida de las pacientes afectadas.
Clasificación de emociones complejas en audio de conversaciones de Call Center de la Universidad Javeriana Cali mediante modelos semi supervisados de Machine Learning
(Pontificia Universidad Javariana Cali, 2024) Ospina Cuesta, Julián Andrés; Álvarez Vargas, Gloria Inés; Linares Ospina, Diego Luis
Este proyecto tuvo como objetivo identificar las expresiones emocionales complejas predominantes en llamadas del centro de contacto, para ofrecer una herramienta de medición en la satisfacción de clientes o evaluación de desempeño en la relación empleado-cliente. La problemática abordada se centró en ¿Cómo podría desarrollarse un modelo basado en técnicas de machine learning para la clasificación automática de emociones complejas en grabaciones de llamadas de un centro de contacto universitario, con el propósito de evaluar la satisfacción del cliente? El objetivo principal del proyecto fue desarrollar un modelo semi supervisado de machine learning para la clasificación automática de emociones en grabaciones de llamadas del call center de la Universidad Javeriana Cali, utilizando características acústicas. El alcance se limitó al análisis y clasificación de las emociones complejas predominantes identificadas en estas grabaciones, basándose en definiciones de emociones ajustadas a los objetivos del negocio. Los resultados de este proyecto incluyen: un conjunto de audios procesados y etiquetados de forma semi supervisada en las 'No llamadas', mientras que las 'Llamadas' fueron de manera supervisada; un modelo de clasificación automática de emociones que fue entrenado y validado, logrando una precisión del 95% en 'No llamadas' y del 41% en 'Llamadas'; y, por último, un prototipo de software diseñado como interfaz para cargar audios y clasificar las emociones según los modelos generados.
Clasificación de emociones en audios de call center utilizando ciencia de datos
(Pontificia Universidad Javeriana Cali, 2025) Marulanda Almanza, Johan Sebastian; Álvarez Vargas, Gloria Inés; Linares Ospina, Diego Luis
Este proyecto se desarrolló con el objetivo de clasificar emociones en llamadas de call center utilizando transcripciones de audio y técnicas de machine learning, tomando como caso de estudio el centro de contacto de una Universidad de Cali. La investigación se enmarca dentro de una iniciativa más amplia en la que se exploraron un enfoque de análisis de transcripciones textuales, el presente trabajo se centró exclusivamente en la información textual derivada de los audios, evaluando la efectividad de diferentes modelos de clasificación. El principal desafío fue desarrollar un clasificador capaz de identificar emociones de manera automatizada y eficiente a partir de datos textuales. Para ello, se realizó una limpieza y normalización de datos, seguida de un entrenamiento supervisado con modelos como Logistic Regression, Random Forest y Multi-Layer Perceptron (MLP). Se aplicó un ajuste de hiperparámetros utilizando Grid Search, optimizando el rendimiento de los modelos.
Clasificación de pacientes con Leishmaniasis basado en mutaciones genéticas por polimorfismo de nucleótido único (SNP) usando técnicas de Machine Learning
(Pontificia Universidad Javeriana de Cali, 2023) Gómez Vasco, Carlos Andrés; Álvarez Vargas, Gloria Inés; Linares Ospina, Diego Luis
La leishmaniasis es una enfermedad tropical transmitida mediante la picadura de insectos que son los vectores de la enfermedad. Se considera una endemia en más de 88 países de diferentes geografías. Las tasas reales de incidencia son sustancialmente altas y con una alta prevalencia en países de América Latina. Aunque existen diferentes tratamientos terapéuticos, son muy complicados para los pacientes y suelen ser bastante tóxicos para otros órganos del cuerpo, y, en general, tienen altos índices porcentuales de fallo, es decir, cumplido el tratamiento los pacientes no se recuperan. Actualmente no existe una herramienta clínica que le permita a un médico tratante determinar la probabilidad a priori de que un tratamiento sea efectivo. Por el contrario, de manera indiscriminada se aplica a los pacientes las terapias bajo la premisa del ensayo y error. En este proyecto aplicado, se realiza un estudio basado en mutaciones genéticas producidas por polimorfismo de nucleótido único (SNP) a un conjunto de setenta y dos (72) pacientes tratados con las técnicas terapéuticas existentes. A estos pacientes se les realizó una secuenciación genética consiguiendo 618,872 SNPs para cada uno y la información clínica del grupo étnico, así como la respuesta al tratamiento después de aplicado, etiquetado como cura o falla. Esta información es suficiente para generar un dataset que fue analizado mediante GWAS (Estudio de asociación de genoma completo) consiguiendo tres datasets denominados COMPLETO, AFRODESCENDIENTES y NO-AFRODESCENDIENTES con 41, 14 y 36 SNPs correspondientemente. Mediante técnicas de reducción de dimensionalidad, como el análisis de componentes principales (PCA), eliminación recursiva de características y regresión LASSO, se reduce el número de variables a aquellas mutaciones genéticas más relevantes para la respuesta inmune al tratamiento consiguiendo 69 subconjuntos de características. Mediante técnicas de aprendizaje automático se construyen 483 clasificadores basados en algoritmos de Regresión Lineal (RL), Stochastic Gradient Descent (SGD), Support Vector Machine (SVM), Decision Tree (DT), Random Forest (RF), Boosting (BT) y Gradient Boosting (GB) de los 69 subconjuntos, para clasificar con precisión las mutaciones genéticas relacionadas con la respuesta inmune al tratamiento terapéutico contra la leishmaniasis. Se utilizaron métricas de evaluación, como accuracy, precision, recall y F1 score para medir el rendimiento de los clasificadores. Estas métricas proporcionaron una visión detallada de la capacidad de los modelos para identificar correctamente las mutaciones relevantes. Después de la evaluación inicial de los 683 experimentos, se realizó la optimización de los hiperparámetros de los modelos mediante una búsqueda por cuadrícula explorando diferentes combinaciones y configuraciones, lo que permitió refinar los modelos y nuevamente estimar su desempeño permitiendo evaluar y comparar los resultados antes y después de la optimización, confirmando la mejora significativa en la capacidad de los clasificadores para identificar con precisión las mutaciones genéticas relacionadas con la respuesta inmune al tratamiento terapéutico contra la leishmaniasis. Al final, se consiguió una selección de 22 SNPs ubicados en genes con funciones biológicas altamente relacionadas con movimiento, transcripción, estructura y transporte celular, así como el transporte de metales, respuesta inmune y cicatrización. Evidenciando que las técnicas aplicadas son eficientes en la identificación de biomarcadores asociados con la respuesta al tratamiento contra la leishmaniasis.
Clasificador de sonidos que indiquen una alerta o amenaza para las personas con discapacidad auditiva
(Pontificia Universidad Javeriana Cali, 2024) Villalobos Tenorio, Jeremías; Gil González, Julián
Este trabajo de grado se enfoca en el entrenamiento de modelos de aprendizaje automático para clasificar algunos sonidos que se encuentran en el conjunto de datos AudioSet de Google. Estos sonidos fueron seleccionados en función de la cantidad de muestras disponibles y su relevancia para indicar una alerta o amenaza. A través de este proyecto, se quiere documentar el proceso para llegar a entrenar un modelo que cumpla la tarea de clasificación de sonidos, y mostrar los obstáculos que se pueden presentar para lograrlo. También se busca dejar las puertas abiertas para un trabajo futuro donde se implemente un modelo de este tipo en dispositivos móviles con micrófono, y se logre ayudar a las personas con discapacidad auditiva a aprender a asociar lo que escuchan con su significado, o a que puedan identificar sonidos de su entorno físico que indiquen una alerta o amenaza para su integridad. Para llegar a los resultados del proyecto, fue necesario generar espectrogramas a partir de los sonidos descargados y entrenar varios modelos con ayuda de transfer learning. En los resultados se presenta una comparación entre los modelos entrenados, su evaluación con distintas métricas de desempeño, y su comparación con algunos modelos del estado del arte.
Construcción de un modelo que permita identificar fallas en generadores de centrales hidroeléctricas
(Pontificia Universidad Javeriana Cali, 2023) Rodríguez Amaya, Adrián; Pérez Aponte, David Andrés; Pabón, María Constanza
Las indisponibilidades no planeadas en la generación eléctrica representan multas para las empresas generadoras de energía, por parte del administrador del mercado mayorista; el modelo propuesto permitirá identificar, predecir fallas en generadoras de centrales hidroeléctricas, y ayudar a los ingenieros de operación a programar mantenimientos proactivos. En el presente trabajo se analizaron las variables involucradas en un conjunto de datos descargados del SCADA de la operación de las unidades de generación, seleccionando los atributos más relevantes para la construcción de un modelo que identificó posibles fallas en los generadores eléctricos de una central hidroeléctrica, este conocimiento se aplicó en el contexto local para beneficio de la industria con el fin de reducir el impacto económico causado por las fallas, mediante el uso de la ciencia de datos.
Contrastación de técnicas econométricas tradicionales y aprendizaje automático en la predicción de los precios de los apartamentos de Santiago de Cali en el 2019
(Pontificia Universidad Javeriana Cali, 2023) Dow Valenzuela, Sebastián; Salazar Jaramillo, Fabián Andrés; Girón Cruz, Luis Eduardo
En el presente trabajo se pretenden contrastar las predicciones de los precios obtenidos por técnicas tradicionales de econometría y técnicas computacionales basadas en el aprendizaje automático. A partir de datos de 5074 apartamentos en Cali en el 2019 con sus características obtenidos de las páginas de ventas de inmuebles y utilizando regresión múltiple, K-NN, regresión LASSO y bosques aleatorios, encontrando que, en general, las técnicas de Machine Learning arrojan predicciones más precisas que el método de pronóstico fundamentado en regresión múltiple pero no por un margen muy amplio
Correlación entre cobertura vegetal y niveles de contaminación del aire en los alrededores de Cali: un enfoque basado en análisis de datos satelitales e inteligencia artificial
(Pontificia Universidad Javeriana Cali, 2025) Villarreal Monsalve, Alejandro; Osorio Serna, Carlos Andrés; Méndez Gutiérrez, Nicolás; Solano Correa, Yady Tatiana
Este trabajo de maestría investiga la relación entre la infraestructura verde urbana y la calidad del aire en Santiago de Cali, empleando técnicas de Ciencia de Datos y teledetección. El objetivo central fue determinar la correlación estadística entre la densidad de la cobertura vegetal y las concentraciones de material particulado (𝑃𝑀10 y 𝑃𝑀2.5) en la ciudad. La metodología consistió en el desarrollo de un flujo de trabajo (ETL) que integró imágenes satelitales de alta resolución de la constelación PlanetScope con datos históricos (2017 2020) de seis estaciones de monitoreo oficiales (SVCASC). Para la clasificación de la cobertura del suelo, se evaluaron diversos algoritmos de aprendizaje automático, siendo Random Forest el de mejor desempeño con una exactitud del 83.33%, superando a modelos como XGBoost y SVM. Los resultados arrojaron una correlación global de Pearson de 𝑟 = −0.37, confirmando que existe una relación inversa moderada: a mayor vegetación, menor contaminación. No obstante, el estudio destacó hallazgos críticos sobre la distribución espacial del problema. En el centro (estaciones Obrero y La Ermita), el efecto de "cañón urbano" y la alta densidad de emisiones saturan la capacidad de mitigación de la vegetación existente. Simultáneamente, se identificó una profunda desigualdad ambiental en el oriente de la ciudad (estación Compartir), donde la pérdida acelerada de cobertura vegetal coincide con un aumento en los niveles de 𝑃𝑀2.5. Se concluye que, si bien la vegetación actúa como un filtro natural funcional, en muchas zonas de Cali se encuentra saturada o es insuficiente. El estudio recomienda integrar urgentemente estrategias de expansión de áreas verdes en la planificación territorial para mejorar la salud pública.
Cuantificación del parásito Leishmania en imágenes de microscopio mediante técnicas de aprendizaje automático
(Pontificia Universidad Javeriana Cali, 2022) Díaz Cuesta, Yeffer Edilberto; Pinedo De la Hoz, David Enrique; Álvarez Vargas, Gloria Inés
La Leishmaniasis, causada por el parásito protozoo Leishmania spp., es una de las siete enfermedades tropicales más importantes a nivel mundial, según la Organización Mundial de la Salud (OMS) [1]. Esta enfermedad, que puede ser fatal para los humanos, tiene una alta prevalencia en varios países, afectando especialmente a las poblaciones vulnerables. En la actualidad, los procesos de conteo manual del microorganismo son desgastantes, demorados y, en ocasiones, ineficaces debido al porcentaje de error humano. Además, estos procesos pueden afectar la salud de las personas que los realizan, debido a las largas horas que deben pasar frente a la luz directa del microscopio. En este orden de ideas, se desarrolla el presente trabajo de grado, adscrito al grupo de investigación DESTINO y al proyecto con código 2576 de la Universidad Pontificia Javeriana de Cali, titulado: "Aplicación de técnicas de aprendizaje automático a la predicción del desenlace terapéutico de la leishmaniasis cutánea". El objetivo principal de este trabajo fue crear un modelo de aprendizaje automático, basado en técnicas de ciencia de datos, que permite identificar y cuantificar la presencia de Leishmania spp. en imágenes de microscopio. Para lograr este objetivo, se consolidó una base de datos con imágenes que sirvieron para entrenar el modelo en la caracterización del parásito. Se procesaron los datos de las imágenes para obtener información relevante y se aplicaron distintas técnicas de aprendizaje automático para cuantificar la carga parasitaria. Finalmente, se evaluó y seleccionó el modelo que presentó el mejor rendimiento con relación al alcance inicialmente propuesto. Se espera que este proyecto impulse la aplicación de la herramienta en diferentes espacios del sector de la salud y áreas académicas, en particular, en laboratorios donde se quiera incrementar la eficiencia y rapidez en los diagnósticos de presencia del parásito protozoo Leishmania. De este modo, se buscó automatizar el proceso de conteo del parásito, utilizando únicamente como insumo la imagen capturada por un microscopio al observar los microorganismos presentes en los portaobjetos.

Browsing by Subject "Aprendizaje automático"

Results Per Page

Sort Options