Browsing by Subject "Machine learning"
Now showing 1 - 20 of 63
Results Per Page
Sort Options
Item Análisis comparativo de la percepción mediática de la reforma a la salud en Colombia usando técnicas NLP(Pontificia Universidad Javeriana Cali, 2025) Hernández Moreno, Bryan Steven; Coronado Cobos, Samuel Andrés; González Ipuz, José Luis; Álvarez Bustos, Abel; Ramírez Ovalle, Carlos ErnestoEste estudio aplicó técnicas de ciencia de datos y procesamiento de lenguaje natural (NLP) para analizar la percepción mediática sobre la reforma a la salud en Colombia (2022-2024), abordando una brecha en la literatura al examinar diferencias regionales en la cobertura periodística. Partiendo del rol del periodismo en la formación de opinión pública especialmente en temas críticos como la salud, se recolectaron 1.401 noticias mediante web scraping de fuentes confiables (SCImago) en las regiones Andina, Caribe y Pacífica, siguiendo criterios de inclusión rigurosos (periodo 2022-2024, idioma español, relevancia temática). Los datos se preprocesaron con técnicas de NLP (tokenización, lematización, eliminación de stopwords y publicidad) y se depuraron mediante análisis estadístico (excluyendo 39 noticias atípicas por IQR). Para el análisis, se implementaron modelos de similitud (TF-IDF, Doc2Vec, MPNet) y clasificación de sentimientos (BETO, RoBERTa y ChatGPT-4o), este último como contraste. Los modelos fine tuned (BETO: 91.29% accuracy; RoBERTa: 89.18%) superaron significativamente a ChatGPT-4o (67.29%), demostrando la importancia del ajuste especializado para contextos periodísticos en español. El etiquetado manual (26.43% del corpus) permitió validar los resultados, destacando tendencias regionales: neutralidad en la cobertura Andina (asociada a enfoques institucionales), mayor positividad en el Caribe y predominio de narrativas negativas en el Pacífico (vinculadas a críticas locales). Los hallazgos confirman que: Las diferencias geopolíticas y socioculturales moldean narrativas mediáticas, pese a cierta homogeneidad discursiva intrarregional (validada por métricas de similitud). El fine-tuning de modelos de NLP es crucial para análisis de sentimientos en dominios especializados, siendo BETO óptimo para español. La metodología propuesta integrando web scraping, NLP y visualización interactiva (Power BI) ofrece un marco replicable para estudios de percepción mediática en políticas públicas.Item Análisis de imágenes satelitales para la clasificación de ecosistemas en predios(Pontificia Universidad Javariana Cali, 2024) Quiroz Moscarella, Roberto Enrique; Santos Peñuela, Francisco José; Castaño Idárraga, Omar AndrésEl proyecto aplicado se centra en la segmentación de imágenes satelitales de predios para identificar ecosistemas. Aborda la problemática del trabajo manual requerido para segmentar zonas en imágenes, especialmente en la elaboración de proyectos de bonos de carbono. Se desarrolló un algoritmo funcional que permita a los investigadores segmentar grandes extensiones de tierra de manera eficiente, reduciendo el tiempo necesario para esta tarea. Los resultados obtenidos permiten la automatización del proceso de segmentación, particularmente sobre zonas verdes y cuerpos de agua permitiendo la evaluación de su extensión. Las posibles aplicaciones de este proyecto abarcan la investigación ambiental, la planificación del uso del suelo y la gestión de recursos naturales.Item Análisis de polaridad de tweets sobre contexto político colombiano usando técnicas de aprendizaje no supervisado(Pontificia Universidad Javeriana Cali, 2024) Pizarro Rivera, Francisco; Pabón, María ConstanzaEl análisis de polaridad u orientación semántica es una de las ramas del Natural Language Processing que ha tenido más crecimiento en el última década, con amplias aplicaciones a nivel académico y comercial. En este proyecto de grado se realizó una exploración sobre la aplicación de modelos de Machine Learning de carácter Auto Supervisado y No Supervisado para realizar el análisis de polaridad en tweets escritos por los usuarios de la red social X específicamente escritos sobre el contexto político colombiano. Se exploró el uso de un enfoque con modelos híbridos, en los cuales se hace un preproceso de pseudo etiquetado por medio de un modelo basado en lexicones (modelo VADER) para luego entrenar modelos supervisados como SVM, Logistic Regression y Multinomial Naive Bayes. El segundo enfoque constó de usar el modelo No Supervisado de K-Means, obteniendo un performance superior en la ejecución del modelo hibrido. Este trabajo tiene también por output la exportación a modo de prototipo del modelo con mejor performance y su vectorizador entrenado con el vocabulario de los 4.830 tweets recolectados de manera manual para ser desplegado en posibles ambientes de producción para el desarrollo de herramientas de análisis de orientación semántica aplicada a textos de redes sociales, pero en específico a tweets relacionados con el contexto político colombiano.Item Análisis de sentimientos en llamadas en centros de atención al cliente(Pontificia Universidad Javeriana Cali, 2025) Andrea, Arias Gómez; Rincón Loaiza, Daniel; Rojas Tavera, Jhon Alexander; Torres Valencia, Cristian AlejandroEn el contexto de los centros de contacto, la calidad de las interacciones entre agentes telefónicos y clientes es esencial para garantizar la satisfacción del cliente y promover el crecimiento empresarial. La ausencia de herramientas para identificar los factores que influyen en el rendimiento de los servicios puede impactar negativamente la reputación y eficiencia operativa. En este contexto, se desarrolló un proyecto de análisis de sentimientos aplicado a transcripciones de llamadas en español, específicamente en el call center de la Universidad Pontificia Javeriana de Cali. El objetivo principal fue analizar y clasificar las emociones expresadas en estas interacciones para identificar patrones emocionales, mejorar la comprensión de las necesidades de los usuarios y optimizar la experiencia del cliente en un entorno educativo. El proyecto integra técnicas avanzadas de aprendizaje automático y procesamiento de lenguaje natural (PLN), incluyendo reconocimiento automático del habla y diarización, para segmentar y analizar las conversaciones. El trabajo abarcó desde la construcción de un corpus representativo y el preprocesamiento avanzado de texto, hasta la configuración y adaptación de modelos de aprendizaje profundo. Además, se diseñó una interfaz con AppScript, que facilita la carga de datos y la visualización de resultados, asegurando una experiencia de usuario eficiente y accesible. La evaluación de los modelos de clasificación se realizó mediante métricas como precisión, recall y F1-score, dentro de un marco metodológico robusto que combina CRISP-DM y Scrum, garantizando un proceso estructurado y ágil. Este enfoque permite a las empresas del sector BPO en Colombia anticipar problemas, optimizar operaciones y mantener una reputación positiva en un mercado altamente competitivo.Item Análisis de sentimientos integrado en un modelo de predicción del precio de las acciones, utilizando técnicas de aprendizaje automático(Pontificia Universidad Javeriana Cali, 2023) Londoño Cárdenas, Jhon Sebastián; Ortiz Morales, Luis Alberto; Linares Ospina, Diego Luis; Álvarez Vargas, Gloria InésEl mercado de acciones es uno que cuenta con cierta antigüedad, es por esto que se han desarrollado y probado una gran variedad técnicas para intentar predecir el comportamiento del valor del precio de las acciones. Sin embargo, para estas predicciones se tienen en cuenta, en mayor medida, variables como el histórico del precio, dejando de lado otro tipo de información como el análisis de sentimientos. En este proyecto se quiso contribuir a la investigación sobre el aporte que puede hacer este tipo de variable menos usada en la predicción del precio de las acciones, por este motivo, se llevó a cabo una integración entre dos técnicas con diferente grado de exploración. Para la parte del análisis de sentimientos se usó un dataset de tweets de la empresa Apple al cual se le aplicó técnicas de Procesamiento de Lenguaje Natural para el preprocesa miento, 2 algoritmos de aprendizaje semi-supervisado para ayudar a etiquetar los sentimientos de todos los tweets y 3 modelos de aprendizaje automático para que pudieran etiquetar tweets nuevos, siendo este la Máquina de Soporte Vectorial. Para la parte del histórico del precio se usó un dataset de diferentes valores de las acciones de la empresa Apple, gracias al cual se en traron 3 modelos de aprendizaje automático de los cuales la LSTM tuvo los mejores resultados. Posteriormente, se integraron los sentimientos obtenidos al histórico del precio, obteniendo que el mejor modelo era el Random Forest, sin embargo, no conseguía superar al mejor modelo que únicamente usaba el histórico del precio. Con dicho modelo de Random Forest se realizaron pruebas en un mercado simulado, determinando que el uso tanto del histórico del precio como del análisis de sentimientos es posible y tiene resultados aceptables, no obstante, la estrategia de compra y venta debe examinarse con mayor rigurosidad para darle un uso a estos modelos en el mundo real.Item Análisis predictivo de la salud mental en estudiantes y colaboradores de una universidad privada colombiana mediante técnicas de ciencia de datos(Pontificia Universidad Javeriana Cali, 2024) Valderrama Moreno, Nini Alejandra; González Gómez, Daniel EnriqueLa salud mental presenta un desafío a nivel mundial con repercusiones negativas en contextos sociales, institucionales, familiares, laborales, educativos, entre otros, este proyecto tuvo como objetivo principal comprender la salud mental de estudiantes y colaboradores de una universidad privada de Colombia, a través de la implementación de técnicas de modelamiento predictivo en Ciencia de Datos, para ello se empleó técnicas avanzadas de análisis de datos, aprendizaje automático y visualización interactiva. En una primera etapa, se realizó una exhaustiva exploración descriptiva de la base de datos, seguidamente, se aplicaron técnicas de reducción de dimensionalidad (PCA, t-SNE, UMAP) y métodos de agrupamiento (KMeans, clustering aglomerativo, GMM) para identificar patrones y posibles subgrupos latentes, aunque las métricas cuantitativas no evidenciaron clústers naturales bien definidos. En la segunda fase, se implementaron modelos de aprendizaje supervisado, incluyendo Regresión Lasso, Random Forest, XGBoost y LightGBM, para predecir variables clave como depresión, ansiedad, estrés, soledad, resiliencia, satisfacción con la vida y recursos psicosociales. Se emplearon técnicas de sobremuestreo (SMOTE) y validación cruzada para asegurar la robustez de los modelos y se analizaron las variables predictoras más relevantes asociadas a cada indicador. Finalmente, se desarrolló una herramienta de visualización interactiva desarrollada en PowerBi, que integra los resultados descriptivos, de clustering y de predicción, permitiendo a usuarios técnicos y no técnicos explorar dinámicamente la estructura y los determinantes del bienestar (Indicadores Positivos) y malestar psicológico (Indicadores Negativos) en la población de Colaboradores, estudiantes de Posgrado y estudiantes de Pregrado. Los hallazgos obtenidos aportan una visión integral y basada en evidencia sobre los factores asociados a la salud mental en cuanto bienestar y malestar en contextos universitarios, y constituyen una base sólida para el diseño de intervenciones focalizadas y futuras investigaciones en salud mental y determinantes sociales.Item Aplicación de modelos de clusterización para analizar patrones comerciales en la Calle 5 de Cali: Impacto de equipamientos y estructura vial(Pontificia Universidad Javeriana Cali, 2025) Gutiérrez Ayala, Juan Fernando; López Velásquez, Juan Camilo; Arteaga Botero, Gustavo AdolfoEste proyecto realiza un análisis urbano del corredor de la Calle 5, entre la carrera 1 y la carrera 50 en Santiago de Cali, una zona con relevancia patrimonial y urbanística que atraviesa procesos de transformación física y social. El estudio parte del reconocimiento de la complejidad de las dinámicas urbanas y aplica algoritmos de Machine Learning no supervisados para identificar patrones en la consolidación de usos comerciales y vocaciones del territorio. El corredor de la Calle 5 actúa como eje articulador de distintos usos del suelo que han definido la vocación de barrios y sectores enteros de la ciudad. En este contexto, el objetivo del proyecto es integrar herramientas de análisis urbano y ciencia de datos para construir un modelo de agrupamiento que permita comprender mejor la configuración actual del corredor y apoyar la toma de decisiones. El trabajo se desarrolló en cuatro etapas: (1) revisión de literatura para identificar variables relevantes y modelos de agrupamiento aplicados a contextos urbanos; (2) consolidación de una base de datos armonizada a partir de fuentes públicas y mixtas; (3) aplicación y evaluación de distintos modelos de agrupamiento para seleccionar el más adecuado; y (4) interpretación de los patrones espaciales resultantes, con énfasis en los usos comerciales del corredor. Uno de los hallazgos clave es que la presencia de establecimientos comerciales no determina por sí sola la configuración de las vocaciones urbanas en el corredor, salvo en el caso de los asociados al sector salud. En cambio, los equipamientos urbanos, los elementos relacionados con la movilidad y, en menor medida, la accesibilidad y conectividad de las manzanas, fueron las variables más influyentes en la formación de patrones espaciales. Este proyecto reconoce que los procesos de transformación urbana responden a sistemas complejos con múltiples variables interrelacionadas. Por ello, promueve el uso de herramientas de ciencia de datos como insumo para entender y gestionar estos procesos de forma más eficiente. Se hace un llamado a la apropiación tecnológica en la función pública, resaltando el valor del análisis de datos en la planificación urbana y en la toma de decisiones informadas.Item “Aplicación de Modelos Machine Learning para predecir el riesgo de pérdida de seguimiento en tuberculosis”(Pontificia Universidad Javariana Cali, 2025) Rodríguez Camargo, Rubén Darío ; Guerrero Barreto, Diana Azucena; Ortega Lenis, DeliaLa tuberculosis (TB) es una enfermedad que afecta a un gran número de personas en todo el mundo, es curable y prevenible; razones que han llevado a la Organización Mundial de la Salud (OMS) a priorizar la enfermedad a nivel de salud pública. No obstante, las pérdidas en el seguimiento amenazan el éxito de los programas de control, dado por aumentos en las tasas de mortalidad y se constituyen como un factor desencadenante en la aparición de formas farmacorresistentes. Se han descrito diferentes determinantes en salud (DSS) que influyen en la pérdida de seguimiento, siendo los principales: sexo hombre, tener un bajo nivel educativo, bajos ingresos económicos, pertenecer a un grupo poblacional vulnerable, presentar alguna comorbilidad, tener barreras de acceso al sistema de salud, antecedente de tratamiento previo, baja tolerancia a efectos secundarios al tratamiento y afectaciones en salud mental. El distrito capital no es ajeno a esta situación y se ha visto que el éxito programático no alcanza la meta del 90 % en los últimos años. Dentro de los factores que afectan el cumplimiento se encuentran los pacientes fallecidos y con pérdida de seguimiento cuya prevalencia para el distrito en los últimos 7 años corresponde al 7.3 %. Los avances en inteligencia artificial (IA) han permitido comprender mejor el fenómeno de pérdida de seguimiento en otros países con alta carga de la enfermedad, los cuales han servido como base para la reformulación de políticas públicas por parte de las autoridades sanitarias, que han permitido mejorar la adherencia terapéutica de los pacientes. En este sentido, el objetivo del presente proyecto consistió en desarrollar un modelo de Machine Learning que permita predecir el riesgo de pérdida de seguimiento en pacientes pertenecientes al programa de TB en el distrito capital, a partir de los determinantes sociales en salud contenidos en el sistema de información. Para ello se desarrollaron cuatro tipos de algoritmos de aprendizaje automático supervisado con diferentes técnicas de remuestreo para balancear las clases y se aplicaron diferentes técnicas para seleccionar variables predictoras incidentes en la pérdida de seguimiento. Como resultado se obtuvo un modelo de XGBoost con buen desempeño en las métricas sensibilidad, exactitud y AUC; con el cual se puede brindar un apoyo al personal de salud que hace parte de los programas locales de tuberculosis y del distrito para identificar de forma temprana a este tipo de pacientes.Item Application of data augmentation methods in transfer learning algorithms to identify amphibian species in bioacoustic signals(Pontificia Universidad Javeriana Cali, 2024) Melo Ordóñez, Adriana Lucía; Tobón Llano, Luis EduardoEl calentamiento global y sus efectos se han establecido como asuntos importantes en la actualidad. Las consecuencias y evidencias del cambio climático deberían representar la urgencia de medidas más estrictas para prevenir secuelas irreversibles. De esta manera, es crucial reunir evidencia que corrobore el grado de efecto del calentamiento global, y el Monitoreo Acústico Pasivo, PAM en inglés, es un método para cumplir este objetivo. PAM puede supervisar especies que se encuentran en riesgo de extinción y que también son especialmente sensibles a los cambios de temperatura como es el caso de los anuros. Consecuentemente, estas especies son fundamentales en determinar el impacto del calentamiento global y la escala de urgencia para abordarlo. El estudio y supervisión de señales, reunidos de la aplicación de PAM, puede implicar un desafío debido a la extensa cantidad de horas de datos que se necesitan analizar, lo que puede ser una tarea demandante y que consume mucho tiempo. Entonces, el uso de Machine Learning aparece como una herramienta efectiva para automatizar la identificación de señales bioacústicas y facilitar su estudio. Sin embargo, con el fin de alcanzar resultados excepcionales con algoritmos de Machine Learning se requieren una cantidad de datos considerable, la cual no siempre puede estar disponible. Con el objeto de afrontar la falta de datos y mejorar el desempeño de los algoritmos, técnicas como la aumentación de datos y el aprendizaje por transferencia han sido desarrolladas. Este trabajo de grado pretende probar la eficacia de estas dos técnicas para clasificar espectrogramas multi-etiqueta generados de llamados de especies de anuros. Los experimentos involucraron comparar el desempeño de tres arquitecturas de redes neuronales convolucionales (ResNet, VGG y EfficientNet) en dos bases de datos. Los experimentos concluyeron que EfficientNet obtuvo los resultados más significativos, consiguiendo en promedio un F1-score de 0.83 cuando se usó junto con la aumentación de datos y el aprendizaje por transferencia.Item Aprendizaje automático aplicado al diagnóstico de la ocurrencia de la leishmaniasis a través de imágenes de lesiones cutáneas(Pontificia Universidad Javeriana Cali, 2023) Castro Duarte, Camilo; Linares Ospina, Diego Luis; Gómez, María AdelaidaEste proyecto buscó aplicar técnicas de aprendizaje automático específicamente Redes Neuronales Convolucionales, para predecir si una lesión de tipo cutánea corresponde o no a la enfermedad de la Leishmaniasis, evaluación que no resulta tan simple mediante observación debido a la similitud con otros tipos de lesiones, para ello, se entrenaron modelos predictivos mediante una base de datos con 885 imágenes de lesiones cutáneas (407 correspondientes a Leishmaniasis y 478 correspondientes a otras lesiones cutáneas), las imágenes de Leishmaniasis fueron suministradas por el CIDEIM (Centro Internacional de Entrenamiento e Investigaciones Médicas). Durante el desarrollo del proyecto se trabajaron diferentes etapas como es el caso de la limpieza y adecuación de la base de datos de imágenes, selección y entrenamiento de los modelos, contraste de resultados y la identificación del modelo más adecuado. Los resultados arrojados por los diferentes experimentos y sus respectivas métricas permitieron establecer cuál es el modelo más adecuado para hacer la predicción, de esta forma es posible hacer un diagnóstico previo de la lesión del paciente sin siquiera estar este de cuerpo presente, también permite ayudar a personal de la salud que no tiene tanta experiencia en este tipo de lesiones a despejar dudas y tomar medidas. De esta forma se le da paso a diferentes posibilidades de aplicación del algoritmo desarrollado dentro del campo médico, como es el caso de integraciones futuras con aplicativos móviles o desarrollos web, esto puede facilitar el análisis de las lesiones de los pacientes de manera remota y de una forma ágil.Item Citobot: un enfoque de inteligencia artificial para la detección temprana del cáncer de cuello uterino(Pontificia Universidad Javeriana Cali, 2024) Rivero Urbano, David Steven; Vargas Cardona, Hernán DaríoHoy en día, el cáncer de cuello uterino sigue siendo una preocupación en términos de salud pública a nivel mundial debido a su alta incidencia y mortalidad, especialmente en países en desarrollo. En 2022, en Colombia se reportaron 30.997 casos prevalentes, lo que significó un incremento del 17% en la proporción de casos nuevos reportados. A pesar de los avances y la disponibilidad de pruebas de detección, estas cifras continúan generando inquietud, principalmente en áreas rurales, debido a la dificultad para obtener imágenes diagnósticas y la falta de expertos médicos capacitados para proporcionar una evaluación precisa en estos sitios. En el ámbito de la ingeniería, el uso de algoritmos de aprendizaje automático y profundo ha demostrado ser efectivo en aplicaciones de imágenes médicas, permitiendo identificar patrones y extraer características de distintas enfermedades, obteniendo un diagnóstico preciso en segundos. Además, la metodología de MLOps (DevOps para Machine Learning) se ha posicionado como una solución para llevar estos modelos a producción de manera efectiva, automatizando los flujos de trabajo y garantizando la escalabilidad y fiabilidad de los algoritmos. MLOps fusiona las prácticas de desarrollo de software (DevOps) con los procesos específicos de Machine Learning (ML), facilitando la implementación efectiva de modelos en entornos de producción y asegurando la integridad y confiabilidad de los algoritmos a lo largo del ciclo de vida del modelo. Bajo este contexto, el proyecto CITOBOT busca desarrollar un sistema portátil basado en inteligencia artificial para el tamizaje del cáncer de cuello uterino, implementando metodologías que permitan integrar adecuadamente un modelo predictivo de imágenes colposcópicas en una aplicación móvil que impulse el dispositivo CITOBOT. El objetivo es mejorar la detección temprana del cáncer de cuello uterino y garantizar un diagnóstico preciso y confiable de la enfermedad. Con esta iniciativa, se busca aliviar la carga de los centros médicos al proporcionar una herramienta de apoyo para el diagnóstico del cáncer de cuello uterino. Además, se pretende abordar las limitaciones en el acceso a servicios especializados en áreas rurales, al ofrecer una solución que pueda ser utilizada en dichas regiones.Item Clasificación basada en Machine Learning para la identificación de marcadores genéticos utilizando patrones estructurales asociados con cáncer de mama(Pontificia Universidad Javeriana Cali, 2025) González Martínez, Lina Yojana; Hurtado Siabato, Carlos Eduardo; Pérez Ruiz, Camilo Andrés; Tobar Tosse, Henry FabiánSegún el Observatorio Global del Cáncer de la Organización Mundial de la Salud, el cáncer de mama sigue siendo una de las principales causas de mortalidad a nivel mundial, presentando tasas de incidencia especialmente altas en algunas regiones de América Latina. En respuesta a esta situación, el presente estudio presenta un marco integrador fundamentado en aprendizaje automático para el análisis de datos genómicos de alta dimensión procedentes de pacientes latinoamericanos. En primer lugar, se implementó un modelo de clasificación capaz de identificar marcadores genéticos a partir de patrones estructurales y de contextos loci específicos, evaluando la probabilidad de generación de factores patogénicos. El mejor rendimiento se obtuvo con XGBoost con submuestreo, alcanzando un F1-score de 0.9625 y una exactitud de 0.9622. No obstante, el hecho de que una variante haya sido etiquetada como patogénica no siempre representa el desarrollo de la enfermedad en el paciente. Por esta razón, de manera complementaria, se realizó un análisis y modelamiento sobre un segundo dataset enfocado en el diagnóstico de pacientes con y sin cáncer de mama familiar, para el cual el mejor modelo obtenido fue XGBoost con sobremuestreo que logró un rendimiento de F1-score de 0.9969 y exactitud de 0.9969. Adicionalmente, se aplicaron enfoques de clustering y métodos avanzados de selección de características para descubrir asociaciones genómicas que enriquezcan el repertorio de atributos relevantes en el cáncer de mama. El análisis revela un panel de ARN no codificantes, incluyendo Y-RNA, snoRNA y componentes del spliceosoma, junto con genes que codifican proteínas determinantes como CDH4, SDK1, PTPRN2 y CSMD1. Estos hallazgos subrayan dos ejes centrales en la oncogénesis mamaria: la desregulación del procesamiento y traducción del ARN, y la alteración de la adhesión celular y las vías de señalización. La combinación de modelos supervisados y no supervisados no solo potencializó la identificación de patrones estructurales, sino que también facilitó el enriquecimiento de las variables genéticas que sustentan la progresión tumoral. Este enfoque integrador amplía el conocimiento molecular y sienta las bases para el desarrollo de herramientas de diagnóstico temprano, planificación terapéutica y monitorización clínica, mejorando, en última instancia, la calidad de vida de las pacientes afectadas.Item Clasificación de emociones complejas en audio de conversaciones de Call Center de la Universidad Javeriana Cali mediante modelos semi supervisados de Machine Learning(Pontificia Universidad Javariana Cali, 2024) Ospina Cuesta, Julián Andrés; Álvarez Vargas, Gloria Inés; Linares Ospina, Diego LuisEste proyecto tuvo como objetivo identificar las expresiones emocionales complejas predominantes en llamadas del centro de contacto, para ofrecer una herramienta de medición en la satisfacción de clientes o evaluación de desempeño en la relación empleado-cliente. La problemática abordada se centró en ¿Cómo podría desarrollarse un modelo basado en técnicas de machine learning para la clasificación automática de emociones complejas en grabaciones de llamadas de un centro de contacto universitario, con el propósito de evaluar la satisfacción del cliente? El objetivo principal del proyecto fue desarrollar un modelo semi supervisado de machine learning para la clasificación automática de emociones en grabaciones de llamadas del call center de la Universidad Javeriana Cali, utilizando características acústicas. El alcance se limitó al análisis y clasificación de las emociones complejas predominantes identificadas en estas grabaciones, basándose en definiciones de emociones ajustadas a los objetivos del negocio. Los resultados de este proyecto incluyen: un conjunto de audios procesados y etiquetados de forma semi supervisada en las 'No llamadas', mientras que las 'Llamadas' fueron de manera supervisada; un modelo de clasificación automática de emociones que fue entrenado y validado, logrando una precisión del 95% en 'No llamadas' y del 41% en 'Llamadas'; y, por último, un prototipo de software diseñado como interfaz para cargar audios y clasificar las emociones según los modelos generados.Item Clasificación de emociones en audios de call center utilizando ciencia de datos(Pontificia Universidad Javeriana Cali, 2025) Marulanda Almanza, Johan Sebastian; Álvarez Vargas, Gloria Inés; Linares Ospina, Diego LuisEste proyecto se desarrolló con el objetivo de clasificar emociones en llamadas de call center utilizando transcripciones de audio y técnicas de machine learning, tomando como caso de estudio el centro de contacto de una Universidad de Cali. La investigación se enmarca dentro de una iniciativa más amplia en la que se exploraron un enfoque de análisis de transcripciones textuales, el presente trabajo se centró exclusivamente en la información textual derivada de los audios, evaluando la efectividad de diferentes modelos de clasificación. El principal desafío fue desarrollar un clasificador capaz de identificar emociones de manera automatizada y eficiente a partir de datos textuales. Para ello, se realizó una limpieza y normalización de datos, seguida de un entrenamiento supervisado con modelos como Logistic Regression, Random Forest y Multi-Layer Perceptron (MLP). Se aplicó un ajuste de hiperparámetros utilizando Grid Search, optimizando el rendimiento de los modelos.Item Clasificador de sonidos que indiquen una alerta o amenaza para las personas con discapacidad auditiva(Pontificia Universidad Javeriana Cali, 2024) Villalobos Tenorio, Jeremías; Gil González, JuliánEste trabajo de grado se enfoca en el entrenamiento de modelos de aprendizaje automático para clasificar algunos sonidos que se encuentran en el conjunto de datos AudioSet de Google. Estos sonidos fueron seleccionados en función de la cantidad de muestras disponibles y su relevancia para indicar una alerta o amenaza. A través de este proyecto, se quiere documentar el proceso para llegar a entrenar un modelo que cumpla la tarea de clasificación de sonidos, y mostrar los obstáculos que se pueden presentar para lograrlo. También se busca dejar las puertas abiertas para un trabajo futuro donde se implemente un modelo de este tipo en dispositivos móviles con micrófono, y se logre ayudar a las personas con discapacidad auditiva a aprender a asociar lo que escuchan con su significado, o a que puedan identificar sonidos de su entorno físico que indiquen una alerta o amenaza para su integridad. Para llegar a los resultados del proyecto, fue necesario generar espectrogramas a partir de los sonidos descargados y entrenar varios modelos con ayuda de transfer learning. En los resultados se presenta una comparación entre los modelos entrenados, su evaluación con distintas métricas de desempeño, y su comparación con algunos modelos del estado del arte.Item Desarrollo de modelo de machine learning para la identificación de correlaciones entre genotipo y fenotipo de individuos con síndrome de Prader-Willi(Pontificia Universidad Javariana Cali, 2025) Romero Bernal, Daniel Felipe; Tafur Jiménez, Luis Alberto; Tobar Tosse, Henry FabiánEl presente proyecto aborda el Síndrome de Prader-Willi (SPW), un trastorno genético complejo asociado a alteraciones en la impronta genómica de la región cromosómica 15q11-q13, que se caracteriza por un amplio espectro de manifestaciones clínicas, incluida la obesidad severa. A pesar de los avances en diagnóstico genético, persisten limitaciones significativas en la comprensión de cómo las modificaciones genéticas y epigenéticas contribuyen a las características fenotípicas del SPW. El objetivo principal fue desarrollar un modelo de Machine Learning (ML) para identificar correlaciones entre genotipo y fenotipo, utilizando datos genéticos y epigenéticos. Para ello, se integraron diversas fuentes de datos públicos, creando un conjunto de datos consolidado que permitió representar mejor las manifestaciones clínicas asociadas al síndrome. Se construyeron y evaluaron tres modelos de ML, seleccionados por su capacidad para manejar relaciones complejas entre variables y garantizar interpretabilidad. Las métricas de evaluación, como precisión, sensibilidad y f1-score, fueron ajustadas mediante la optimización de parámetros y la mejora del procesamiento de datos. A pesar de las limitaciones inherentes al tamaño y calidad de la base de datos, los resultados del proyecto muestran que el enfoque propuesto es prometedor para inferir el fenotipo dado por cambios en los perfiles de metilación, a partir de las características genómicas en pacientes con SPW. Estos hallazgos podrían facilitar tanto el desarrollo de tratamientos personalizados como la identificación temprana del síndrome. En última instancia, la identificación precisa de correlaciones genotípicas y fenotípicas contribuye significativamente a una mejor comprensión de los mecanismos moleculares subyacentes del SPW y sus posibles implicaciones terapéuticas.Item Desarrollo de modelo para identificación de características positivas/negativas de producto en comentarios en plataforma e-commerce usando aprendizaje automático(Pontificia Universidad Javeriana Cali, 2025) Villa Ramos, Jhilbran; Ibarra Enríquez, Santiago; Álvarez Vargas, Gloria Inés; Linares Ospina, Diego LuisEste proyecto busca desarrollar una herramienta de análisis de sentimientos automatizada para evaluar comentarios en plataformas de comercio electrónico mediante técnicas de Machine Learning. El objetivo principal es identificar características positivas y negativas en las reseñas de los usuarios, permitiendo a las empresas mejorar su reputación, abordar rápidamente comentarios negativos, optimizar productos y servicios, y diseñar estrategias de marketing más efectivas. La metodología del proyecto se divide en dos etapas principales: preparación de datos e implementación del modelo. En la primera etapa, se realiza la adquisición de datos a partir de comentarios de usuarios, seguida de un proceso de limpieza y transformación del texto para eliminar ruido y normalizar los datos. Posteriormente, se aplican técnicas de incrustación de palabras como Word2Vec y GloVe, junto con métodos léxicos tradicionales (Bag-of-Words, TFIDF, One-Hot Encoding) para convertir el texto en representaciones vectoriales adecuadas para el análisis. En la fase de implementación, se entrenan y comparan distintos modelos de clasificación, utilizando los embeddings generados. Adicionalmente, se aplica modelado de temas (LDA) para identificar patrones en los comentarios. Finalmente, se generan visualizaciones interactivas que permiten una comprensión clara de los resultados.Item Desarrollo de un aplicativo móvil para la identificación de arritmias cardíacas mediante procesamiento digital de señales ECG y aprendizaje automático(Pontificia Universidad Javariana Cali, 2025) Muñoz de la Torre, Jereminth; Otero Argel, Karolina María; Vargas Cardona, Hernán DaríoLas enfermedades cardiovasculares (ECV) representan una preocupación global, siendo una de las principales causas de mortalidad según la Organización Mundial de la Salud (OMS). En Colombia, estas enfermedades ocupan un lugar importante en las estadísticas de mortalidad, destacándolas arritmias cardíacas como un factor crítico debido a su potencial para desencadenar muerte súbita cardíaca (MSC). El objetivo de esta propuesta es desarrollar un aplicativo móvil basado en procesamiento digital de señales ECG y aprendizaje automático para identificar arritmias cardíacas y alertar sobre la posibilidad de MSC en pacientes con antecedentes cardiovasculares o enfermedades crónicas. La metodología del estudio se estructura en varias etapas, incluyendo la selección de la base de datos ECG adecuada, el procesamiento de señales, la extracción de características, el entrenamiento de modelos de aprendizaje automático, la validación y evaluación de los modelos, la implementación del aplicativo móvil y la validación del mismo mediante simuladores de ECG. Los resultados obtenidos incluyen un modelo de aprendizaje automático con una precisión del 96 %, lo que demuestra su eficacia en la clasificación de arritmias cardíacas. Además, se logró integrar exitosamente el modelo en el aplicativo móvil denominado KIBO, el cual ofrece tres salidas principales: el ritmo cardíaco, la identificación de arritmias potencialmente peligrosas capaces de desencadenar muerte súbita cardíaca (MSC), y el vector de ECG asociado. Esto permite lograr el fin último de activar de manera oportuna una ruta de atención en emergencias, mejorando la respuesta ante posibles complicaciones relacionadas con MSC y contribuyendo a la prevención de eventos fatales.Item Desarrollo de un componente de Deep Learning para el procesamiento de datos medio ambientales para la plataforma URB@NECOLIFE(Pontificia Universidad Javeriana Cali, 2020) Chaparro Cuadros, Cristian Alejandro; Zúñiga Cañón, Claudia LilianaEl Grupo de Investigación COMBA I+D de la Universidad Santiago de Cali, junto con la Universidad de Vigo y el Centro Universitario de la Defensa de España (CUD), han desarrollado el macroproyecto llamado Urb@nEcoLife. El cual busca, a través de una red de sensores móviles, capturar datos relacionados con la contaminación del aire. En el siguiente trabajo se muestra la implementación de la metodología Cross-Industry Standard Process for Data Mining CRISDM, con el fin de resolver y predecir posibles problemas medio ambientales de la ciudad Cali – Colombia, usando como base un algoritmo de red neuronal recurrente para procesar las series de tiempo armadas de los datos de contaminación de los años 2010 – 2017. Dentro del proyecto se exploraron.Item Desarrollo de un modelo de aprendizaje automático para la asignación de códigos de producto por sociedades comisionistas de la bolsa mercantil de Colombia a partir de descripciones de productos en supermercados(Pontificia Universidad Javeriana Cali, 2024) Collantes Zuluaga, Santiago; García Cifuentes, Juan Pablo; Gil González, JuliánEste proyecto presenta el desarrollo de un modelo de aprendizaje automático para la asignación automática de códigos de productos en la Bolsa Mercantil de Colombia (BMC) a partir de descripciones proporcionadas por sus Sociedades Comisionistas (SC). Utilizando técnicas avanzadas de procesamiento de lenguaje natural (NLP) y aprendizaje profundo, se busca mejorar la precisión y eficiencia del proceso actual de asignación manual. Las técnicas implementadas incluyen word embeddings con Word2Vec, modelos preentrenados de spaCy, la combinación de métricas de similitud como Jaccard y coseno, y redes siamesas (SBERT) para la comparación semántica de oraciones. A lo largo del proyecto, se identificaron varias limitaciones en el corpus de datos, como la variabilidad y calidad de las descripciones, errores ortográficos y léxicos, y la falta de metadatos adicionales. Los resultados mostraron que los modelos preentrenados y las redes siamesas proporcionaron mejoras significativas en la precisión de la asignación en comparación con los modelos entrenados únicamente con nuestro corpus. La combinación de métricas de similitud también demostró ser efectiva para mejorar el alineamiento de descripciones. El estudio concluye que la integración de datos adicionales y el ajuste fino continuo de los modelos pueden llevar a mejoras adicionales en la precisión y eficiencia de este proyecto.