Maestría en Ciencia de Datos
Permanent URI for this collection
Browse
Browsing Maestría en Ciencia de Datos by Author "Álvarez Vargas, Gloria Inés"
Now showing 1 - 10 of 10
Results Per Page
Sort Options
Item Automatización de la detección y diagnóstico de leishmaniasis por medio de la identifi cación de parásitos en imágenes de placas de laboratorio(Pontificia Universidad Javeriana Cali, 2023) Cardozo Aricapa, Daniel Fernando; Álvarez Vargas, Gloria InésLa leishmaniasis es una enfermedad causada por más de 20 especies del género Leishmania un protozoo parasito. Esta enfermedad se transmite por la picadura de flebótomos hembra infectados, que necesitan ingerir sangre para producir huevos. A nivel mundial, se encuentra entre las diez enfermedades tropicales desatendidas con más de 12 millones de personas infectadas con 0,9 a 1,6 millones de nuevos casos al año y entre 20.000 a 30.000 defunciones. En la actualidad, las estrategias de prevención y control disponibles para el manejo de la leishmaniasis son limitadas, por lo cual se requiere de herramientas efectivas para el diagnóstico temprano y tratamiento adecuado. Es por esto por lo que nuestro objetivo es desarrollar un modelo automatizado capaz de realizar la identificación del parasito y diagnóstico de Leishmaniasis usando imágenes de placas de laboratorio en pacientes con sospecha clínica de la enfermedad. Para estos proponemos utilizar diferentes algoritmos de clasificación que nos permitan realizar la detección de parásitos de Leishmania por medio de la extracción de características, creación de imágenes integrales y clasificación. Como resultados esperados se espera contar con un modelo diagnostico adecuado basado en placas de laboratorio que permita realizar el diagnostico de forma oportuna y accesible capaz de funcionar de forma eficiente en cualquier área que lo requiera. Finalmente, esta tecnología será una herramienta fundamental para la salud publica en áreas endémicas en pro de disminuir la morbimortalidad de la enfermedad.Item Clasificación de emociones complejas en audio de conversaciones de Call Center de la Universidad Javeriana Cali mediante modelos semi supervisados de Machine Learning(Pontificia Universidad Javariana Cali, 2024) Ospina Cuesta, Julián Andrés; Álvarez Vargas, Gloria Inés; Linares Ospina, Diego LuisEste proyecto tuvo como objetivo identificar las expresiones emocionales complejas predominantes en llamadas del centro de contacto, para ofrecer una herramienta de medición en la satisfacción de clientes o evaluación de desempeño en la relación empleado-cliente. La problemática abordada se centró en ¿Cómo podría desarrollarse un modelo basado en técnicas de machine learning para la clasificación automática de emociones complejas en grabaciones de llamadas de un centro de contacto universitario, con el propósito de evaluar la satisfacción del cliente? El objetivo principal del proyecto fue desarrollar un modelo semi supervisado de machine learning para la clasificación automática de emociones en grabaciones de llamadas del call center de la Universidad Javeriana Cali, utilizando características acústicas. El alcance se limitó al análisis y clasificación de las emociones complejas predominantes identificadas en estas grabaciones, basándose en definiciones de emociones ajustadas a los objetivos del negocio. Los resultados de este proyecto incluyen: un conjunto de audios procesados y etiquetados de forma semi supervisada en las 'No llamadas', mientras que las 'Llamadas' fueron de manera supervisada; un modelo de clasificación automática de emociones que fue entrenado y validado, logrando una precisión del 95% en 'No llamadas' y del 41% en 'Llamadas'; y, por último, un prototipo de software diseñado como interfaz para cargar audios y clasificar las emociones según los modelos generados.Item Clasificación de pacientes con Leishmaniasis basado en mutaciones genéticas por polimorfismo de nucleótido único (SNP) usando técnicas de Machine Learning(Pontificia Universidad Javeriana de Cali, 2023) Gómez Vasco, Carlos Andrés; Álvarez Vargas, Gloria Inés; Linares Ospina, Diego LuisLa leishmaniasis es una enfermedad tropical transmitida mediante la picadura de insectos que son los vectores de la enfermedad. Se considera una endemia en más de 88 países de diferentes geografías. Las tasas reales de incidencia son sustancialmente altas y con una alta prevalencia en países de América Latina. Aunque existen diferentes tratamientos terapéuticos, son muy complicados para los pacientes y suelen ser bastante tóxicos para otros órganos del cuerpo, y, en general, tienen altos índices porcentuales de fallo, es decir, cumplido el tratamiento los pacientes no se recuperan. Actualmente no existe una herramienta clínica que le permita a un médico tratante determinar la probabilidad a priori de que un tratamiento sea efectivo. Por el contrario, de manera indiscriminada se aplica a los pacientes las terapias bajo la premisa del ensayo y error. En este proyecto aplicado, se realiza un estudio basado en mutaciones genéticas producidas por polimorfismo de nucleótido único (SNP) a un conjunto de setenta y dos (72) pacientes tratados con las técnicas terapéuticas existentes. A estos pacientes se les realizó una secuenciación genética consiguiendo 618,872 SNPs para cada uno y la información clínica del grupo étnico, así como la respuesta al tratamiento después de aplicado, etiquetado como cura o falla. Esta información es suficiente para generar un dataset que fue analizado mediante GWAS (Estudio de asociación de genoma completo) consiguiendo tres datasets denominados COMPLETO, AFRODESCENDIENTES y NO-AFRODESCENDIENTES con 41, 14 y 36 SNPs correspondientemente. Mediante técnicas de reducción de dimensionalidad, como el análisis de componentes principales (PCA), eliminación recursiva de características y regresión LASSO, se reduce el número de variables a aquellas mutaciones genéticas más relevantes para la respuesta inmune al tratamiento consiguiendo 69 subconjuntos de características. Mediante técnicas de aprendizaje automático se construyen 483 clasificadores basados en algoritmos de Regresión Lineal (RL), Stochastic Gradient Descent (SGD), Support Vector Machine (SVM), Decision Tree (DT), Random Forest (RF), Boosting (BT) y Gradient Boosting (GB) de los 69 subconjuntos, para clasificar con precisión las mutaciones genéticas relacionadas con la respuesta inmune al tratamiento terapéutico contra la leishmaniasis. Se utilizaron métricas de evaluación, como accuracy, precision, recall y F1 score para medir el rendimiento de los clasificadores. Estas métricas proporcionaron una visión detallada de la capacidad de los modelos para identificar correctamente las mutaciones relevantes. Después de la evaluación inicial de los 683 experimentos, se realizó la optimización de los hiperparámetros de los modelos mediante una búsqueda por cuadrícula explorando diferentes combinaciones y configuraciones, lo que permitió refinar los modelos y nuevamente estimar su desempeño permitiendo evaluar y comparar los resultados antes y después de la optimización, confirmando la mejora significativa en la capacidad de los clasificadores para identificar con precisión las mutaciones genéticas relacionadas con la respuesta inmune al tratamiento terapéutico contra la leishmaniasis. Al final, se consiguió una selección de 22 SNPs ubicados en genes con funciones biológicas altamente relacionadas con movimiento, transcripción, estructura y transporte celular, así como el transporte de metales, respuesta inmune y cicatrización. Evidenciando que las técnicas aplicadas son eficientes en la identificación de biomarcadores asociados con la respuesta al tratamiento contra la leishmaniasis.Item Cuantificación del parásito Leishmania en imágenes de microscopio mediante técnicas de aprendizaje automático(Pontificia Universidad Javeriana Cali, 2022) Díaz Cuesta, Yeffer Edilberto; Pinedo De la Hoz, David Enrique; Álvarez Vargas, Gloria InésLa Leishmaniasis, causada por el parásito protozoo Leishmania spp., es una de las siete enfermedades tropicales más importantes a nivel mundial, según la Organización Mundial de la Salud (OMS) [1]. Esta enfermedad, que puede ser fatal para los humanos, tiene una alta prevalencia en varios países, afectando especialmente a las poblaciones vulnerables. En la actualidad, los procesos de conteo manual del microorganismo son desgastantes, demorados y, en ocasiones, ineficaces debido al porcentaje de error humano. Además, estos procesos pueden afectar la salud de las personas que los realizan, debido a las largas horas que deben pasar frente a la luz directa del microscopio. En este orden de ideas, se desarrolla el presente trabajo de grado, adscrito al grupo de investigación DESTINO y al proyecto con código 2576 de la Universidad Pontificia Javeriana de Cali, titulado: "Aplicación de técnicas de aprendizaje automático a la predicción del desenlace terapéutico de la leishmaniasis cutánea". El objetivo principal de este trabajo fue crear un modelo de aprendizaje automático, basado en técnicas de ciencia de datos, que permite identificar y cuantificar la presencia de Leishmania spp. en imágenes de microscopio. Para lograr este objetivo, se consolidó una base de datos con imágenes que sirvieron para entrenar el modelo en la caracterización del parásito. Se procesaron los datos de las imágenes para obtener información relevante y se aplicaron distintas técnicas de aprendizaje automático para cuantificar la carga parasitaria. Finalmente, se evaluó y seleccionó el modelo que presentó el mejor rendimiento con relación al alcance inicialmente propuesto. Se espera que este proyecto impulse la aplicación de la herramienta en diferentes espacios del sector de la salud y áreas académicas, en particular, en laboratorios donde se quiera incrementar la eficiencia y rapidez en los diagnósticos de presencia del parásito protozoo Leishmania. De este modo, se buscó automatizar el proceso de conteo del parásito, utilizando únicamente como insumo la imagen capturada por un microscopio al observar los microorganismos presentes en los portaobjetos.Item “Diseminación selectiva de la información usando ciencia de datos: recomendación de libros y lecturas en las bibliotecas Comfama”(Pontificia Universidad Javariana Cali, 2024) Bedoya Henao, Edwin José; Álvarez Vargas, Gloria Inés; Linares Ospina, Diego LuisEste proyecto se enfoca en el desarrollo de un sistema de recomendación de libros para las Bibliotecas Comfama, con el objetivo de mejorar la experiencia de los usuarios al proporcionar sugerencias personalizadas basadas en sus preferencias de lectura y comportamiento histórico. La relevancia del proyecto radica en abordar el problema de la infoxicación, o sobrecarga de información, en un entorno donde la vasta cantidad de materiales disponibles dificulta la selección de lecturas adecuadas para cada usuario. El sistema de recomendación se construyó utilizando técnicas avanzadas de ciencia de datos, como modelos de agrupación (K-Means) y representaciones vectoriales de libros mediante Word2Vec, lo que permite identificar patrones de lectura y preferencias individuales. A partir de esta estructura, se generaron recomendaciones altamente precisas y personalizadas que optimizan el servicio de préstamo de las Bibliotecas Comfama, aumentando así la satisfacción de los usuarios. El sistema se fundamenta en una estructura de datos que integra tanto características demográficas como el historial de préstamos y consultas de cada usuario, lo que facilita la identificación de perfiles de lectores y la agrupación de usuarios con intereses similares. Como resultado, el proyecto ofrece un sistema innovador que promueve el uso más frecuente y eficiente de los servicios bibliotecarios, fortaleciendo el papel de las bibliotecas en la promoción de la cultura y el conocimiento. Este enfoque tiene aplicaciones potenciales más allá del ámbito bibliotecario, con posibilidades de implementación en sectores como el comercio electrónico o la selección de contenido digital, aprovechando las capacidades de la ciencia de datos para anticipar y satisfacer las preferencias individuales de los usuarios.Item Generación automática de resúmenes de documentos financieros usando técnicas basadas en grafos(Pontificia Universidad Javeriana Cali, 2024) Hernández Giraldo, Andrés Felipe; Rocha Fernández, Cristian David; Montes Estrada, Juan Carlos; Álvarez Vargas, Gloria Inés; Linares Ospina, Diego LuisLa generación automática de resúmenes es un área de creciente interés que busca facilitar la comprensión eficiente de grandes volúmenes de información textual. Este proyecto aborda el problema combinando técnicas extractivas y abstractivas mediante un enfoque mixto y el uso de algoritmos de grafos. El sistema automatizado desarrollado incluye la preparación y limpieza de textos financieros, vectorización con TF-IDF y modelos de embeddings como Cohere y Jina AI, cálculo de similitud coseno, creación de grafos, y selección de oraciones relevantes mediante el algoritmo MMR. El código fuente del proyecto, desarrollado en Python, está disponible en un repositorio con instrucciones de instalación y ejecución.Item Modelado para la recomendación personalizada de noticias basado en técnicas de aprendizaje automático(Pontificia Universidad Javariana Cali, 2024) Buesaco Vela, José Miguel; Lozano Hernández, Nydia Natalia; Bolaños Vidal, Jamith; Álvarez Vargas, Gloria Inés; Linares Ospina, Diego LuisLa digitalización ha generado que los usuarios se encuentren ante una sobreexposición de información, lo cual hace que tanto los usuarios como los medios de comunicación tradicionales y digitales se vean afectados. Para abarcar esta problemática, la ciencia de datos propone modelos de recomendación de noticias, los cuales tienen como objetivo analizar los gustos de los usuarios y, en función de estos generar filtros para proporcionarle al usuario una experiencia que ofrezca noticias de su interés. Con este proyecto buscamos desarrollar un modelo basado técnicas de aprendizaje automático para la recomendación personalizada de noticias. Para lograr el objetivo de este proyecto se realizan distintas fases como la preparación de los datos, modelado, entrenamiento, validación y finalmente se desarrolla un prototipo para la recomendación personalizada de noticias. Se aplican dos enfoques para las recomendaciones: el filtrado basado en contenido y el filtrado colaborativo, por la estructura de los datos utilizados, este último enfoque genera mejores recomendaciones. Los resultados muestran que el modelo denominado Descomposición en Valores Singulares (SVD) presenta el mejor desempeño en las predicciones determinado por la raíz del error cuadrático medio (RMSE) de 0,2461 y un F1-Score de 0,8118 en las listas personalizadas de recomendación de noticias.Item Modelo de aprendizaje automático aplicado a la asignación de recursos institucionales para el control y la seguridad de la infraestructura móvil, física y tecnológica del SITM MIO(Pontificia Universidad Javeriana Cali, 2024) Buendía Diago, Albeiro; Mejía Ríos, Karol Stefani; Morán Villarreal, Oscar; Álvarez Vargas, Gloria Inés; Arteaga Botero, Gustavo AdolfoEste proyecto se enfocó en abordar las deficiencias de seguridad en el sistema de transporte masivo SITM MIO de Santiago de Cali, que experimenta incidentes crecientes de inseguridad. La gestión reactiva y la falta de control han afectado la confianza de los aproximadamente 280 mil usuarios diarios. Se identificó la necesidad de utilizar herramientas tecnológicas avanzadas para mejorar la asignación de recursos de seguridad de manera proactiva. Se desarrolló e implementó un sistema basado en técnicas estadísticas y computacionales, utilizando modelos de aprendizaje automático como Random Forest Regression, Support Vector Regression y Multilayer Perceptron Regression. La herramienta analítica predictiva resultante integra datos históricos y modelos de aprendizaje autónomo, destacando la eficacia del modelo de Random Forest Regression. Este avance marca un hito en la gestión de recursos de seguridad del transporte masivo, demostrando el impacto positivo de la ciencia de datos en la mejora de servicios públicos esenciales y la seguridad ciudadana.Item Modelo predictivo para determinar el desenlace terapéutico del paciente con leishmaniasis a partir de imágenes de lesiones(Pontificia Universidad Javeriana Cali, 2024) Segura Dorado, Jhon Alexander; Álvarez Vargas, Gloria Inés; Gómez, María AdelaidaEl aprendizaje automático ha aportado avances al campo de la medicina, sin embargo, en muchos casos es difícil implementar esta tecnología debido a la baja cantidad de datos que pueden estar disponibles en los estudios médicos en relación con el número de características que se planean analizar. Este estudio exploro ocho modelos de aprendizaje automático para predecir el desenlace terapéutico de los pacientes con leishmaniasis cutánea a partir de las imágenes de las lesiones. Este nuevo enfoque permitirá proponer nuevos mecanismos en el manejo de esta enfermedad a partir de una herramienta para predecir el desenlace terapéutico en tiempo real, además de efectuar recomendaciones en el tratamiento de los pacientes. Finalmente, la contribución de este proyecto servirá de base para las futuras investigaciones que el Centro Internacional de Entrenamiento e Investigaciones Médicas pueda llevar a cabo para encontrar un tratamiento eficaz contra la leishmaniasis.Item Prototipo de herramienta para la mejora en los procesos de designación de PQRSD de la Alcaldía de Bucaramanga(Pontificia Universidad Javeriana Cali, 2023) Gómez Bueno, Wilfredo Ariel; Gómez Cárdenas, Edson Andrés; Linares Ospina, Diego Luis ; Álvarez Vargas, Gloria InésEste proyecto de grado surgió de la identificación de un problema clave en la gestión de las Peticiones, Quejas, Reclamos, Sugerencias y Denuncias (PQRSD) en la Alcaldía de Bucaramanga: cuando una PQRSD se asigna incorrectamente, se producen reprocesos que disminuyen el tiempo para su respuesta y generan incumplimientos. En el peor de los casos, una PQRSD puede incluso perderse administrativamente debido a la rotación del personal. Frente a este escenario, el objetivo principal de nuestro proyecto fue desarrollar una solución que pudiera impactar positivamente la asignación de las PQRSD en la Alcaldía. Para ello, utilizamos diversas técnicas de clasificación para analizar una base de datos de PQRSD compuesta por más de 590.592 registros con baja calidad de datos. El proyecto incluyó varias etapas, desde la extracción, exploración y limpieza de datos, hasta la creación y prueba de una arquitectura de clasificación mixta o híbrida basado en técnicas tradicionales. El modelo propuesto considera el desequilibrio presente en los registros entre las distintas dependencias de la Alcaldía y utiliza herramientas como GridSearchCV para seleccionar y optimizar los hiperparámetros de los clasificadores utilizados como Regresión Logística y ComplementNB en los cuatro (4) componentes de la arquitectura. Los resultados obtenidos, brinda un resultado de 65.1%, lo que sugiere que este enfoque puede ser eficaz para mejorar la gestión de las PQRSD en la Alcaldía de Bucaramanga, minimizando reprocesos, evitando incumplimientos y asegurando una gestión eficaz de las mismas, incluso en el contexto de la rotación del personal.