Repository logo
  • Communities & Collections
  • All of DSpace
  • English
  • Español
  • Log In
    New user? Click here to register.Have you forgotten your password?
  1. Home
  2. Browse by Subject

Browsing by Subject "Aprendizaje automático"

Now showing 1 - 20 of 59
Results Per Page
Sort Options
  • Loading...
    Thumbnail Image
    Item
    Análisis comparativo de la percepción mediática de la reforma a la salud en Colombia usando técnicas NLP
    (Pontificia Universidad Javeriana Cali, 2025) Hernández Moreno, Bryan Steven; Coronado Cobos, Samuel Andrés; González Ipuz, José Luis; Álvarez Bustos, Abel; Ramírez Ovalle, Carlos Ernesto
    Este estudio aplicó técnicas de ciencia de datos y procesamiento de lenguaje natural (NLP) para analizar la percepción mediática sobre la reforma a la salud en Colombia (2022-2024), abordando una brecha en la literatura al examinar diferencias regionales en la cobertura periodística. Partiendo del rol del periodismo en la formación de opinión pública especialmente en temas críticos como la salud, se recolectaron 1.401 noticias mediante web scraping de fuentes confiables (SCImago) en las regiones Andina, Caribe y Pacífica, siguiendo criterios de inclusión rigurosos (periodo 2022-2024, idioma español, relevancia temática). Los datos se preprocesaron con técnicas de NLP (tokenización, lematización, eliminación de stopwords y publicidad) y se depuraron mediante análisis estadístico (excluyendo 39 noticias atípicas por IQR). Para el análisis, se implementaron modelos de similitud (TF-IDF, Doc2Vec, MPNet) y clasificación de sentimientos (BETO, RoBERTa y ChatGPT-4o), este último como contraste. Los modelos fine tuned (BETO: 91.29% accuracy; RoBERTa: 89.18%) superaron significativamente a ChatGPT-4o (67.29%), demostrando la importancia del ajuste especializado para contextos periodísticos en español. El etiquetado manual (26.43% del corpus) permitió validar los resultados, destacando tendencias regionales: neutralidad en la cobertura Andina (asociada a enfoques institucionales), mayor positividad en el Caribe y predominio de narrativas negativas en el Pacífico (vinculadas a críticas locales). Los hallazgos confirman que: Las diferencias geopolíticas y socioculturales moldean narrativas mediáticas, pese a cierta homogeneidad discursiva intrarregional (validada por métricas de similitud). El fine-tuning de modelos de NLP es crucial para análisis de sentimientos en dominios especializados, siendo BETO óptimo para español. La metodología propuesta integrando web scraping, NLP y visualización interactiva (Power BI) ofrece un marco replicable para estudios de percepción mediática en políticas públicas.
  • Loading...
    Thumbnail Image
    Item
    Análisis de imágenes satelitales para la clasificación de ecosistemas en predios
    (Pontificia Universidad Javariana Cali, 2024) Quiroz Moscarella, Roberto Enrique; Santos Peñuela, Francisco José; Castaño Idárraga, Omar Andrés
    El proyecto aplicado se centra en la segmentación de imágenes satelitales de predios para identificar ecosistemas. Aborda la problemática del trabajo manual requerido para segmentar zonas en imágenes, especialmente en la elaboración de proyectos de bonos de carbono. Se desarrolló un algoritmo funcional que permita a los investigadores segmentar grandes extensiones de tierra de manera eficiente, reduciendo el tiempo necesario para esta tarea. Los resultados obtenidos permiten la automatización del proceso de segmentación, particularmente sobre zonas verdes y cuerpos de agua permitiendo la evaluación de su extensión. Las posibles aplicaciones de este proyecto abarcan la investigación ambiental, la planificación del uso del suelo y la gestión de recursos naturales.
  • Loading...
    Thumbnail Image
    Item
    Análisis de la deforestación en la Amazonía colombiana usando técnicas de aprendizaje automático
    (Pontificia Universidad Javeriana Cali, 2023) León Acosta, Paola Andrea; Otero Martínez, Guillermo Andrés
    Debido al alto impacto de la deforestación en el calentamiento global, el aumento de enfermedades zoonóticas y el riesgo de extinción de la biodiversidad, surge la necesidad de desarrollar nuevos enfoques para la medición y análisis de la deforestación que permitan a los gobiernos tener una mejor compresión de este fenómeno para centrar su atención y recursos a atender esta crisis ambiental en las zonas más vulnerables. Dada esta situación y considerando el amplio uso de los algoritmos de aprendizaje automático para analizar datos complejos como imágenes y textos, este proyecto tuvo como objetivo analizar el comportamiento de la deforestación en la Amazonía colombiana usando diferentes técnicas de aprendizaje automático con imágenes satelitales de Google earth engine, considerando estas metodologías como nuevas propuestas de medición en el análisis de la cobertura forestal. Posteriormente, se evaluaron estos modelos mediante métricas de evaluación, una vez seleccionado el modelo con mejor rendimiento, se identificaron las zonas con deforestación en las imágenes satelitales, y a partir de estos resultados se cuantificó y analizó el incremento de la perdida de bosques en un periodo determinado con el propósito de generar alertas de las zonas más vulnerables, y así brindar una herramienta que se pueda considerar como un insight para la formulación de planes de acción y políticas para la prevención y reforestación.
  • Loading...
    Thumbnail Image
    Item
    Análisis de sentimientos en llamadas en centros de atención al cliente
    (Pontificia Universidad Javeriana Cali, 2025) Andrea, Arias Gómez; Rincón Loaiza, Daniel; Rojas Tavera, Jhon Alexander; Torres Valencia, Cristian Alejandro
    En el contexto de los centros de contacto, la calidad de las interacciones entre agentes telefónicos y clientes es esencial para garantizar la satisfacción del cliente y promover el crecimiento empresarial. La ausencia de herramientas para identificar los factores que influyen en el rendimiento de los servicios puede impactar negativamente la reputación y eficiencia operativa. En este contexto, se desarrolló un proyecto de análisis de sentimientos aplicado a transcripciones de llamadas en español, específicamente en el call center de la Universidad Pontificia Javeriana de Cali. El objetivo principal fue analizar y clasificar las emociones expresadas en estas interacciones para identificar patrones emocionales, mejorar la comprensión de las necesidades de los usuarios y optimizar la experiencia del cliente en un entorno educativo. El proyecto integra técnicas avanzadas de aprendizaje automático y procesamiento de lenguaje natural (PLN), incluyendo reconocimiento automático del habla y diarización, para segmentar y analizar las conversaciones. El trabajo abarcó desde la construcción de un corpus representativo y el preprocesamiento avanzado de texto, hasta la configuración y adaptación de modelos de aprendizaje profundo. Además, se diseñó una interfaz con AppScript, que facilita la carga de datos y la visualización de resultados, asegurando una experiencia de usuario eficiente y accesible. La evaluación de los modelos de clasificación se realizó mediante métricas como precisión, recall y F1-score, dentro de un marco metodológico robusto que combina CRISP-DM y Scrum, garantizando un proceso estructurado y ágil. Este enfoque permite a las empresas del sector BPO en Colombia anticipar problemas, optimizar operaciones y mantener una reputación positiva en un mercado altamente competitivo.
  • Loading...
    Thumbnail Image
    Item
    Análisis predictivo de la salud mental en estudiantes y colaboradores de una universidad privada colombiana mediante técnicas de ciencia de datos
    (Pontificia Universidad Javeriana Cali, 2024) Valderrama Moreno, Nini Alejandra; González Gómez, Daniel Enrique
    La salud mental presenta un desafío a nivel mundial con repercusiones negativas en contextos sociales, institucionales, familiares, laborales, educativos, entre otros, este proyecto tuvo como objetivo principal comprender la salud mental de estudiantes y colaboradores de una universidad privada de Colombia, a través de la implementación de técnicas de modelamiento predictivo en Ciencia de Datos, para ello se empleó técnicas avanzadas de análisis de datos, aprendizaje automático y visualización interactiva. En una primera etapa, se realizó una exhaustiva exploración descriptiva de la base de datos, seguidamente, se aplicaron técnicas de reducción de dimensionalidad (PCA, t-SNE, UMAP) y métodos de agrupamiento (KMeans, clustering aglomerativo, GMM) para identificar patrones y posibles subgrupos latentes, aunque las métricas cuantitativas no evidenciaron clústers naturales bien definidos. En la segunda fase, se implementaron modelos de aprendizaje supervisado, incluyendo Regresión Lasso, Random Forest, XGBoost y LightGBM, para predecir variables clave como depresión, ansiedad, estrés, soledad, resiliencia, satisfacción con la vida y recursos psicosociales. Se emplearon técnicas de sobremuestreo (SMOTE) y validación cruzada para asegurar la robustez de los modelos y se analizaron las variables predictoras más relevantes asociadas a cada indicador. Finalmente, se desarrolló una herramienta de visualización interactiva desarrollada en PowerBi, que integra los resultados descriptivos, de clustering y de predicción, permitiendo a usuarios técnicos y no técnicos explorar dinámicamente la estructura y los determinantes del bienestar (Indicadores Positivos) y malestar psicológico (Indicadores Negativos) en la población de Colaboradores, estudiantes de Posgrado y estudiantes de Pregrado. Los hallazgos obtenidos aportan una visión integral y basada en evidencia sobre los factores asociados a la salud mental en cuanto bienestar y malestar en contextos universitarios, y constituyen una base sólida para el diseño de intervenciones focalizadas y futuras investigaciones en salud mental y determinantes sociales.
  • Loading...
    Thumbnail Image
    Item
    Aplicación de modelos de clusterización para analizar patrones comerciales en la Calle 5 de Cali: Impacto de equipamientos y estructura vial
    (Pontificia Universidad Javeriana Cali, 2025) Gutiérrez Ayala, Juan Fernando; López Velásquez, Juan Camilo; Arteaga Botero, Gustavo Adolfo
    Este proyecto realiza un análisis urbano del corredor de la Calle 5, entre la carrera 1 y la carrera 50 en Santiago de Cali, una zona con relevancia patrimonial y urbanística que atraviesa procesos de transformación física y social. El estudio parte del reconocimiento de la complejidad de las dinámicas urbanas y aplica algoritmos de Machine Learning no supervisados para identificar patrones en la consolidación de usos comerciales y vocaciones del territorio. El corredor de la Calle 5 actúa como eje articulador de distintos usos del suelo que han definido la vocación de barrios y sectores enteros de la ciudad. En este contexto, el objetivo del proyecto es integrar herramientas de análisis urbano y ciencia de datos para construir un modelo de agrupamiento que permita comprender mejor la configuración actual del corredor y apoyar la toma de decisiones. El trabajo se desarrolló en cuatro etapas: (1) revisión de literatura para identificar variables relevantes y modelos de agrupamiento aplicados a contextos urbanos; (2) consolidación de una base de datos armonizada a partir de fuentes públicas y mixtas; (3) aplicación y evaluación de distintos modelos de agrupamiento para seleccionar el más adecuado; y (4) interpretación de los patrones espaciales resultantes, con énfasis en los usos comerciales del corredor. Uno de los hallazgos clave es que la presencia de establecimientos comerciales no determina por sí sola la configuración de las vocaciones urbanas en el corredor, salvo en el caso de los asociados al sector salud. En cambio, los equipamientos urbanos, los elementos relacionados con la movilidad y, en menor medida, la accesibilidad y conectividad de las manzanas, fueron las variables más influyentes en la formación de patrones espaciales. Este proyecto reconoce que los procesos de transformación urbana responden a sistemas complejos con múltiples variables interrelacionadas. Por ello, promueve el uso de herramientas de ciencia de datos como insumo para entender y gestionar estos procesos de forma más eficiente. Se hace un llamado a la apropiación tecnológica en la función pública, resaltando el valor del análisis de datos en la planificación urbana y en la toma de decisiones informadas.
  • Loading...
    Thumbnail Image
    Item
    Application of data augmentation methods in transfer learning algorithms to identify amphibian species in bioacoustic signals
    (Pontificia Universidad Javeriana Cali, 2024) Melo Ordóñez, Adriana Lucía; Tobón Llano, Luis Eduardo
    El calentamiento global y sus efectos se han establecido como asuntos importantes en la actualidad. Las consecuencias y evidencias del cambio climático deberían representar la urgencia de medidas más estrictas para prevenir secuelas irreversibles. De esta manera, es crucial reunir evidencia que corrobore el grado de efecto del calentamiento global, y el Monitoreo Acústico Pasivo, PAM en inglés, es un método para cumplir este objetivo. PAM puede supervisar especies que se encuentran en riesgo de extinción y que también son especialmente sensibles a los cambios de temperatura como es el caso de los anuros. Consecuentemente, estas especies son fundamentales en determinar el impacto del calentamiento global y la escala de urgencia para abordarlo. El estudio y supervisión de señales, reunidos de la aplicación de PAM, puede implicar un desafío debido a la extensa cantidad de horas de datos que se necesitan analizar, lo que puede ser una tarea demandante y que consume mucho tiempo. Entonces, el uso de Machine Learning aparece como una herramienta efectiva para automatizar la identificación de señales bioacústicas y facilitar su estudio. Sin embargo, con el fin de alcanzar resultados excepcionales con algoritmos de Machine Learning se requieren una cantidad de datos considerable, la cual no siempre puede estar disponible. Con el objeto de afrontar la falta de datos y mejorar el desempeño de los algoritmos, técnicas como la aumentación de datos y el aprendizaje por transferencia han sido desarrolladas. Este trabajo de grado pretende probar la eficacia de estas dos técnicas para clasificar espectrogramas multi-etiqueta generados de llamados de especies de anuros. Los experimentos involucraron comparar el desempeño de tres arquitecturas de redes neuronales convolucionales (ResNet, VGG y EfficientNet) en dos bases de datos. Los experimentos concluyeron que EfficientNet obtuvo los resultados más significativos, consiguiendo en promedio un F1-score de 0.83 cuando se usó junto con la aumentación de datos y el aprendizaje por transferencia.
  • Loading...
    Thumbnail Image
    Item
    Citobot: un enfoque de inteligencia artificial para la detección temprana del cáncer de cuello uterino
    (Pontificia Universidad Javeriana Cali, 2024) Rivero Urbano, David Steven; Vargas Cardona, Hernán Darío
    Hoy en día, el cáncer de cuello uterino sigue siendo una preocupación en términos de salud pública a nivel mundial debido a su alta incidencia y mortalidad, especialmente en países en desarrollo. En 2022, en Colombia se reportaron 30.997 casos prevalentes, lo que significó un incremento del 17% en la proporción de casos nuevos reportados. A pesar de los avances y la disponibilidad de pruebas de detección, estas cifras continúan generando inquietud, principalmente en áreas rurales, debido a la dificultad para obtener imágenes diagnósticas y la falta de expertos médicos capacitados para proporcionar una evaluación precisa en estos sitios. En el ámbito de la ingeniería, el uso de algoritmos de aprendizaje automático y profundo ha demostrado ser efectivo en aplicaciones de imágenes médicas, permitiendo identificar patrones y extraer características de distintas enfermedades, obteniendo un diagnóstico preciso en segundos. Además, la metodología de MLOps (DevOps para Machine Learning) se ha posicionado como una solución para llevar estos modelos a producción de manera efectiva, automatizando los flujos de trabajo y garantizando la escalabilidad y fiabilidad de los algoritmos. MLOps fusiona las prácticas de desarrollo de software (DevOps) con los procesos específicos de Machine Learning (ML), facilitando la implementación efectiva de modelos en entornos de producción y asegurando la integridad y confiabilidad de los algoritmos a lo largo del ciclo de vida del modelo. Bajo este contexto, el proyecto CITOBOT busca desarrollar un sistema portátil basado en inteligencia artificial para el tamizaje del cáncer de cuello uterino, implementando metodologías que permitan integrar adecuadamente un modelo predictivo de imágenes colposcópicas en una aplicación móvil que impulse el dispositivo CITOBOT. El objetivo es mejorar la detección temprana del cáncer de cuello uterino y garantizar un diagnóstico preciso y confiable de la enfermedad. Con esta iniciativa, se busca aliviar la carga de los centros médicos al proporcionar una herramienta de apoyo para el diagnóstico del cáncer de cuello uterino. Además, se pretende abordar las limitaciones en el acceso a servicios especializados en áreas rurales, al ofrecer una solución que pueda ser utilizada en dichas regiones.
  • Loading...
    Thumbnail Image
    Item
    Clasificación basada en Machine Learning para la identificación de marcadores genéticos utilizando patrones estructurales asociados con cáncer de mama
    (Pontificia Universidad Javeriana Cali, 2025) González Martínez, Lina Yojana; Hurtado Siabato, Carlos Eduardo; Pérez Ruiz, Camilo Andrés; Tobar Tosse, Henry Fabián
    Según el Observatorio Global del Cáncer de la Organización Mundial de la Salud, el cáncer de mama sigue siendo una de las principales causas de mortalidad a nivel mundial, presentando tasas de incidencia especialmente altas en algunas regiones de América Latina. En respuesta a esta situación, el presente estudio presenta un marco integrador fundamentado en aprendizaje automático para el análisis de datos genómicos de alta dimensión procedentes de pacientes latinoamericanos. En primer lugar, se implementó un modelo de clasificación capaz de identificar marcadores genéticos a partir de patrones estructurales y de contextos loci específicos, evaluando la probabilidad de generación de factores patogénicos. El mejor rendimiento se obtuvo con XGBoost con submuestreo, alcanzando un F1-score de 0.9625 y una exactitud de 0.9622. No obstante, el hecho de que una variante haya sido etiquetada como patogénica no siempre representa el desarrollo de la enfermedad en el paciente. Por esta razón, de manera complementaria, se realizó un análisis y modelamiento sobre un segundo dataset enfocado en el diagnóstico de pacientes con y sin cáncer de mama familiar, para el cual el mejor modelo obtenido fue XGBoost con sobremuestreo que logró un rendimiento de F1-score de 0.9969 y exactitud de 0.9969. Adicionalmente, se aplicaron enfoques de clustering y métodos avanzados de selección de características para descubrir asociaciones genómicas que enriquezcan el repertorio de atributos relevantes en el cáncer de mama. El análisis revela un panel de ARN no codificantes, incluyendo Y-RNA, snoRNA y componentes del spliceosoma, junto con genes que codifican proteínas determinantes como CDH4, SDK1, PTPRN2 y CSMD1. Estos hallazgos subrayan dos ejes centrales en la oncogénesis mamaria: la desregulación del procesamiento y traducción del ARN, y la alteración de la adhesión celular y las vías de señalización. La combinación de modelos supervisados y no supervisados no solo potencializó la identificación de patrones estructurales, sino que también facilitó el enriquecimiento de las variables genéticas que sustentan la progresión tumoral. Este enfoque integrador amplía el conocimiento molecular y sienta las bases para el desarrollo de herramientas de diagnóstico temprano, planificación terapéutica y monitorización clínica, mejorando, en última instancia, la calidad de vida de las pacientes afectadas.
  • Loading...
    Thumbnail Image
    Item
    Clasificación de emociones complejas en audio de conversaciones de Call Center de la Universidad Javeriana Cali mediante modelos semi supervisados de Machine Learning
    (Pontificia Universidad Javariana Cali, 2024) Ospina Cuesta, Julián Andrés; Álvarez Vargas, Gloria Inés; Linares Ospina, Diego Luis
    Este proyecto tuvo como objetivo identificar las expresiones emocionales complejas predominantes en llamadas del centro de contacto, para ofrecer una herramienta de medición en la satisfacción de clientes o evaluación de desempeño en la relación empleado-cliente. La problemática abordada se centró en ¿Cómo podría desarrollarse un modelo basado en técnicas de machine learning para la clasificación automática de emociones complejas en grabaciones de llamadas de un centro de contacto universitario, con el propósito de evaluar la satisfacción del cliente? El objetivo principal del proyecto fue desarrollar un modelo semi supervisado de machine learning para la clasificación automática de emociones en grabaciones de llamadas del call center de la Universidad Javeriana Cali, utilizando características acústicas. El alcance se limitó al análisis y clasificación de las emociones complejas predominantes identificadas en estas grabaciones, basándose en definiciones de emociones ajustadas a los objetivos del negocio. Los resultados de este proyecto incluyen: un conjunto de audios procesados y etiquetados de forma semi supervisada en las 'No llamadas', mientras que las 'Llamadas' fueron de manera supervisada; un modelo de clasificación automática de emociones que fue entrenado y validado, logrando una precisión del 95% en 'No llamadas' y del 41% en 'Llamadas'; y, por último, un prototipo de software diseñado como interfaz para cargar audios y clasificar las emociones según los modelos generados.
  • Loading...
    Thumbnail Image
    Item
    Clasificación de emociones en audios de call center utilizando ciencia de datos
    (Pontificia Universidad Javeriana Cali, 2025) Marulanda Almanza, Johan Sebastian; Álvarez Vargas, Gloria Inés; Linares Ospina, Diego Luis
    Este proyecto se desarrolló con el objetivo de clasificar emociones en llamadas de call center utilizando transcripciones de audio y técnicas de machine learning, tomando como caso de estudio el centro de contacto de una Universidad de Cali. La investigación se enmarca dentro de una iniciativa más amplia en la que se exploraron un enfoque de análisis de transcripciones textuales, el presente trabajo se centró exclusivamente en la información textual derivada de los audios, evaluando la efectividad de diferentes modelos de clasificación. El principal desafío fue desarrollar un clasificador capaz de identificar emociones de manera automatizada y eficiente a partir de datos textuales. Para ello, se realizó una limpieza y normalización de datos, seguida de un entrenamiento supervisado con modelos como Logistic Regression, Random Forest y Multi-Layer Perceptron (MLP). Se aplicó un ajuste de hiperparámetros utilizando Grid Search, optimizando el rendimiento de los modelos.
  • Loading...
    Thumbnail Image
    Item
    Clasificación de pacientes con Leishmaniasis basado en mutaciones genéticas por polimorfismo de nucleótido único (SNP) usando técnicas de Machine Learning
    (Pontificia Universidad Javeriana de Cali, 2023) Gómez Vasco, Carlos Andrés; Álvarez Vargas, Gloria Inés; Linares Ospina, Diego Luis
    La leishmaniasis es una enfermedad tropical transmitida mediante la picadura de insectos que son los vectores de la enfermedad. Se considera una endemia en más de 88 países de diferentes geografías. Las tasas reales de incidencia son sustancialmente altas y con una alta prevalencia en países de América Latina. Aunque existen diferentes tratamientos terapéuticos, son muy complicados para los pacientes y suelen ser bastante tóxicos para otros órganos del cuerpo, y, en general, tienen altos índices porcentuales de fallo, es decir, cumplido el tratamiento los pacientes no se recuperan. Actualmente no existe una herramienta clínica que le permita a un médico tratante determinar la probabilidad a priori de que un tratamiento sea efectivo. Por el contrario, de manera indiscriminada se aplica a los pacientes las terapias bajo la premisa del ensayo y error. En este proyecto aplicado, se realiza un estudio basado en mutaciones genéticas producidas por polimorfismo de nucleótido único (SNP) a un conjunto de setenta y dos (72) pacientes tratados con las técnicas terapéuticas existentes. A estos pacientes se les realizó una secuenciación genética consiguiendo 618,872 SNPs para cada uno y la información clínica del grupo étnico, así como la respuesta al tratamiento después de aplicado, etiquetado como cura o falla. Esta información es suficiente para generar un dataset que fue analizado mediante GWAS (Estudio de asociación de genoma completo) consiguiendo tres datasets denominados COMPLETO, AFRODESCENDIENTES y NO-AFRODESCENDIENTES con 41, 14 y 36 SNPs correspondientemente. Mediante técnicas de reducción de dimensionalidad, como el análisis de componentes principales (PCA), eliminación recursiva de características y regresión LASSO, se reduce el número de variables a aquellas mutaciones genéticas más relevantes para la respuesta inmune al tratamiento consiguiendo 69 subconjuntos de características. Mediante técnicas de aprendizaje automático se construyen 483 clasificadores basados en algoritmos de Regresión Lineal (RL), Stochastic Gradient Descent (SGD), Support Vector Machine (SVM), Decision Tree (DT), Random Forest (RF), Boosting (BT) y Gradient Boosting (GB) de los 69 subconjuntos, para clasificar con precisión las mutaciones genéticas relacionadas con la respuesta inmune al tratamiento terapéutico contra la leishmaniasis. Se utilizaron métricas de evaluación, como accuracy, precision, recall y F1 score para medir el rendimiento de los clasificadores. Estas métricas proporcionaron una visión detallada de la capacidad de los modelos para identificar correctamente las mutaciones relevantes. Después de la evaluación inicial de los 683 experimentos, se realizó la optimización de los hiperparámetros de los modelos mediante una búsqueda por cuadrícula explorando diferentes combinaciones y configuraciones, lo que permitió refinar los modelos y nuevamente estimar su desempeño permitiendo evaluar y comparar los resultados antes y después de la optimización, confirmando la mejora significativa en la capacidad de los clasificadores para identificar con precisión las mutaciones genéticas relacionadas con la respuesta inmune al tratamiento terapéutico contra la leishmaniasis. Al final, se consiguió una selección de 22 SNPs ubicados en genes con funciones biológicas altamente relacionadas con movimiento, transcripción, estructura y transporte celular, así como el transporte de metales, respuesta inmune y cicatrización. Evidenciando que las técnicas aplicadas son eficientes en la identificación de biomarcadores asociados con la respuesta al tratamiento contra la leishmaniasis.
  • Loading...
    Thumbnail Image
    Item
    Clasificador de sonidos que indiquen una alerta o amenaza para las personas con discapacidad auditiva
    (Pontificia Universidad Javeriana Cali, 2024) Villalobos Tenorio, Jeremías; Gil González, Julián
    Este trabajo de grado se enfoca en el entrenamiento de modelos de aprendizaje automático para clasificar algunos sonidos que se encuentran en el conjunto de datos AudioSet de Google. Estos sonidos fueron seleccionados en función de la cantidad de muestras disponibles y su relevancia para indicar una alerta o amenaza. A través de este proyecto, se quiere documentar el proceso para llegar a entrenar un modelo que cumpla la tarea de clasificación de sonidos, y mostrar los obstáculos que se pueden presentar para lograrlo. También se busca dejar las puertas abiertas para un trabajo futuro donde se implemente un modelo de este tipo en dispositivos móviles con micrófono, y se logre ayudar a las personas con discapacidad auditiva a aprender a asociar lo que escuchan con su significado, o a que puedan identificar sonidos de su entorno físico que indiquen una alerta o amenaza para su integridad. Para llegar a los resultados del proyecto, fue necesario generar espectrogramas a partir de los sonidos descargados y entrenar varios modelos con ayuda de transfer learning. En los resultados se presenta una comparación entre los modelos entrenados, su evaluación con distintas métricas de desempeño, y su comparación con algunos modelos del estado del arte.
  • Loading...
    Thumbnail Image
    Item
    Construcción de un modelo que permita identificar fallas en generadores de centrales hidroeléctricas
    (Pontificia Universidad Javeriana Cali, 2023) Rodríguez Amaya, Adrián; Pérez Aponte, David Andrés; Pabón, María Constanza
    Las indisponibilidades no planeadas en la generación eléctrica representan multas para las empresas generadoras de energía, por parte del administrador del mercado mayorista; el modelo propuesto permitirá identificar, predecir fallas en generadoras de centrales hidroeléctricas, y ayudar a los ingenieros de operación a programar mantenimientos proactivos. En el presente trabajo se analizaron las variables involucradas en un conjunto de datos descargados del SCADA de la operación de las unidades de generación, seleccionando los atributos más relevantes para la construcción de un modelo que identificó posibles fallas en los generadores eléctricos de una central hidroeléctrica, este conocimiento se aplicó en el contexto local para beneficio de la industria con el fin de reducir el impacto económico causado por las fallas, mediante el uso de la ciencia de datos.
  • Loading...
    Thumbnail Image
    Item
    Contrastación de técnicas econométricas tradicionales y aprendizaje automático en la predicción de los precios de los apartamentos de Santiago de Cali en el 2019
    (Pontificia Universidad Javeriana Cali, 2023) Dow Valenzuela, Sebastián; Salazar Jaramillo, Fabián Andrés; Girón Cruz, Luis Eduardo
    En el presente trabajo se pretenden contrastar las predicciones de los precios obtenidos por técnicas tradicionales de econometría y técnicas computacionales basadas en el aprendizaje automático. A partir de datos de 5074 apartamentos en Cali en el 2019 con sus características obtenidos de las páginas de ventas de inmuebles y utilizando regresión múltiple, K-NN, regresión LASSO y bosques aleatorios, encontrando que, en general, las técnicas de Machine Learning arrojan predicciones más precisas que el método de pronóstico fundamentado en regresión múltiple pero no por un margen muy amplio
  • Loading...
    Thumbnail Image
    Item
    Cuantificación del parásito Leishmania en imágenes de microscopio mediante técnicas de aprendizaje automático
    (Pontificia Universidad Javeriana Cali, 2022) Díaz Cuesta, Yeffer Edilberto; Pinedo De la Hoz, David Enrique; Álvarez Vargas, Gloria Inés
    La Leishmaniasis, causada por el parásito protozoo Leishmania spp., es una de las siete enfermedades tropicales más importantes a nivel mundial, según la Organización Mundial de la Salud (OMS) [1]. Esta enfermedad, que puede ser fatal para los humanos, tiene una alta prevalencia en varios países, afectando especialmente a las poblaciones vulnerables. En la actualidad, los procesos de conteo manual del microorganismo son desgastantes, demorados y, en ocasiones, ineficaces debido al porcentaje de error humano. Además, estos procesos pueden afectar la salud de las personas que los realizan, debido a las largas horas que deben pasar frente a la luz directa del microscopio. En este orden de ideas, se desarrolla el presente trabajo de grado, adscrito al grupo de investigación DESTINO y al proyecto con código 2576 de la Universidad Pontificia Javeriana de Cali, titulado: "Aplicación de técnicas de aprendizaje automático a la predicción del desenlace terapéutico de la leishmaniasis cutánea". El objetivo principal de este trabajo fue crear un modelo de aprendizaje automático, basado en técnicas de ciencia de datos, que permite identificar y cuantificar la presencia de Leishmania spp. en imágenes de microscopio. Para lograr este objetivo, se consolidó una base de datos con imágenes que sirvieron para entrenar el modelo en la caracterización del parásito. Se procesaron los datos de las imágenes para obtener información relevante y se aplicaron distintas técnicas de aprendizaje automático para cuantificar la carga parasitaria. Finalmente, se evaluó y seleccionó el modelo que presentó el mejor rendimiento con relación al alcance inicialmente propuesto. Se espera que este proyecto impulse la aplicación de la herramienta en diferentes espacios del sector de la salud y áreas académicas, en particular, en laboratorios donde se quiera incrementar la eficiencia y rapidez en los diagnósticos de presencia del parásito protozoo Leishmania. De este modo, se buscó automatizar el proceso de conteo del parásito, utilizando únicamente como insumo la imagen capturada por un microscopio al observar los microorganismos presentes en los portaobjetos.
  • Loading...
    Thumbnail Image
    Item
    De-duplication for product master data records using machine learning techniques
    (Pontificia Universidad Javeriana Cali, 2021) Hallo Larrea, Julio Xavier; Álvarez Vargas, Gloria Inés
    Con la transformación digital de las organizaciones, específicamente en grandes empresas como plataformas de comercio electrónico y marketplaces, los datos de productos han crecido exponencialmente para alcanzar los objetivos y necesidades comerciales. Para respaldar esto, tanto los profesionales como los académicos han reconocido la importancia de los datos maestros como recurso fundamental de la organización, y a su vez han identificado que la administración de datos maestros es un proceso independiente de la aplicación que lo describe, posee y administra. Con el fin de medir si este recurso es "apto para el uso", se han desarrollado metodologías, técnicas y artefactos de calidad de datos, definiendo los cuatro KPI clave: "completitud, exactitud, unicidad y oportunidad". Actualmente, las plataformas de software MDM proporcionan medios para lograr la medición y gestión correctas de los KPI descritos anteriormente. Por lo tanto, en el proceso de gestión, la interacción humana siempre es necesaria, específicamente cuando los algoritmos de deduplicación actuales deben ajustarse en función de los datos etiquetados que muestran si dos o más entidades son o no duplicados. Esta investigación aborda este problema específico utilizando técnicas de aprendizaje automático, en las cuales diseñamos, construimos y probamos un modelo que de-duplica los registros de datos maestros de productos dentro de un corpus de datos de productos públicos. Como resultado de la investigación, se han propuesto cinco (5) modelos de de-duplicación. Los modelos utilizan dos (2) tipos diferentes en arquitecturas de redes neuronales, Perceptrón Multicapa y LSTM, con dos (2) técnicas de pre-procesamiento de datos diferentes. Luego, todos los modelos han sido entrenados y probados utilizando los registros de pares de datos maestros de producto del corpus de datos seleccionado como parte de los objetivos de la investigación. Para evaluar el desempeño de cada modelo se han propuesto KPI's cuantitativos como F1 Score, entre otros, y KPI's cualitativos para clasificar la eficiencia de cada uno. Asimismo, se ha propuesto un árbol de decisión para seleccionar el modelo más adecuado según los objetivos de negocio y los recursos disponibles. Por último, se presentan las conclusiones y posible ampliación de la propuesta de investigación.
  • Loading...
    Thumbnail Image
    Item
    Desarrollo de modelo de machine learning para la identificación de correlaciones entre genotipo y fenotipo de individuos con síndrome de Prader-Willi
    (Pontificia Universidad Javariana Cali, 2025) Romero Bernal, Daniel Felipe; Tafur Jiménez, Luis Alberto; Tobar Tosse, Henry Fabián
    El presente proyecto aborda el Síndrome de Prader-Willi (SPW), un trastorno genético complejo asociado a alteraciones en la impronta genómica de la región cromosómica 15q11-q13, que se caracteriza por un amplio espectro de manifestaciones clínicas, incluida la obesidad severa. A pesar de los avances en diagnóstico genético, persisten limitaciones significativas en la comprensión de cómo las modificaciones genéticas y epigenéticas contribuyen a las características fenotípicas del SPW. El objetivo principal fue desarrollar un modelo de Machine Learning (ML) para identificar correlaciones entre genotipo y fenotipo, utilizando datos genéticos y epigenéticos. Para ello, se integraron diversas fuentes de datos públicos, creando un conjunto de datos consolidado que permitió representar mejor las manifestaciones clínicas asociadas al síndrome. Se construyeron y evaluaron tres modelos de ML, seleccionados por su capacidad para manejar relaciones complejas entre variables y garantizar interpretabilidad. Las métricas de evaluación, como precisión, sensibilidad y f1-score, fueron ajustadas mediante la optimización de parámetros y la mejora del procesamiento de datos. A pesar de las limitaciones inherentes al tamaño y calidad de la base de datos, los resultados del proyecto muestran que el enfoque propuesto es prometedor para inferir el fenotipo dado por cambios en los perfiles de metilación, a partir de las características genómicas en pacientes con SPW. Estos hallazgos podrían facilitar tanto el desarrollo de tratamientos personalizados como la identificación temprana del síndrome. En última instancia, la identificación precisa de correlaciones genotípicas y fenotípicas contribuye significativamente a una mejor comprensión de los mecanismos moleculares subyacentes del SPW y sus posibles implicaciones terapéuticas.
  • Loading...
    Thumbnail Image
    Item
    Desarrollo de modelo para identificación de características positivas/negativas de producto en comentarios en plataforma e-commerce usando aprendizaje automático
    (Pontificia Universidad Javeriana Cali, 2025) Villa Ramos, Jhilbran; Ibarra Enríquez, Santiago; Álvarez Vargas, Gloria Inés; Linares Ospina, Diego Luis
    Este proyecto busca desarrollar una herramienta de análisis de sentimientos automatizada para evaluar comentarios en plataformas de comercio electrónico mediante técnicas de Machine Learning. El objetivo principal es identificar características positivas y negativas en las reseñas de los usuarios, permitiendo a las empresas mejorar su reputación, abordar rápidamente comentarios negativos, optimizar productos y servicios, y diseñar estrategias de marketing más efectivas. La metodología del proyecto se divide en dos etapas principales: preparación de datos e implementación del modelo. En la primera etapa, se realiza la adquisición de datos a partir de comentarios de usuarios, seguida de un proceso de limpieza y transformación del texto para eliminar ruido y normalizar los datos. Posteriormente, se aplican técnicas de incrustación de palabras como Word2Vec y GloVe, junto con métodos léxicos tradicionales (Bag-of-Words, TFIDF, One-Hot Encoding) para convertir el texto en representaciones vectoriales adecuadas para el análisis. En la fase de implementación, se entrenan y comparan distintos modelos de clasificación, utilizando los embeddings generados. Adicionalmente, se aplica modelado de temas (LDA) para identificar patrones en los comentarios. Finalmente, se generan visualizaciones interactivas que permiten una comprensión clara de los resultados.
  • Loading...
    Thumbnail Image
    Item
    Desarrollo de modelo para predicción de ventas B2B en empresa del sector agroindustrial
    (Pontificia Universidad Javeriana de Cali, 2023) Giacometto Cheij, Antonio; Fajardo Macías, Antonio José; Castaño Mejía, Wilmer; González Gómez, Daniel Enrique
    El trabajo presentado corresponde al desarrollo de un modelo de aprendizaje automático para predecir la probabilidad de conversión en venta de las cotizaciones recibidas en una empresa del sector agroindustrial colombiano. Los diferentes modelos probados, fueron entrenados utilizando un dataset consolidado con los datos históricos de ventas de la organización y algunas fuentes externas; La preparación de este dataset involucró diferentes etapas de limpieza, mejoramiento de datos y pre procesamiento, las cuales permitieron además de alimentar los modelos de predicción probados, desarrollar un modelo de agrupamiento que permitió identificar perfiles de clientes de acuerdo a algunas de sus principales características basados en la información de cotizaciones. Como complemento fue desarrollada una herramienta de visualización para el monitoreo y control de indicadores claves de desempeño dentro del área comercial.
  • «
  • 1 (current)
  • 2
  • 3
  • »
logo-javeriana

Pontificia Universidad Javeriana Cali

Calle 18 No 118-250 Cali, Colombia

Teléfono:(+57) 602-321-82-00/602-485-64-00 - Línea gratuita nacional 01-8000-180556

Contacto repositorio Vitela: vitela@javerianacali.edu.co

  • Cookie settings
  • Privacy policy
  • End User Agreement
  • Send Feedback