Maestría en Ciencia de Datos
Permanent URI for this collection
Browse
Browsing Maestría en Ciencia de Datos by Issue Date
Now showing 1 - 20 of 107
Results Per Page
Sort Options
Item Cuantificación del parásito Leishmania en imágenes de microscopio mediante técnicas de aprendizaje automático(Pontificia Universidad Javeriana Cali, 2022) Díaz Cuesta, Yeffer Edilberto; Pinedo De la Hoz, David Enrique; Álvarez Vargas, Gloria InésLa Leishmaniasis, causada por el parásito protozoo Leishmania spp., es una de las siete enfermedades tropicales más importantes a nivel mundial, según la Organización Mundial de la Salud (OMS) [1]. Esta enfermedad, que puede ser fatal para los humanos, tiene una alta prevalencia en varios países, afectando especialmente a las poblaciones vulnerables. En la actualidad, los procesos de conteo manual del microorganismo son desgastantes, demorados y, en ocasiones, ineficaces debido al porcentaje de error humano. Además, estos procesos pueden afectar la salud de las personas que los realizan, debido a las largas horas que deben pasar frente a la luz directa del microscopio. En este orden de ideas, se desarrolla el presente trabajo de grado, adscrito al grupo de investigación DESTINO y al proyecto con código 2576 de la Universidad Pontificia Javeriana de Cali, titulado: "Aplicación de técnicas de aprendizaje automático a la predicción del desenlace terapéutico de la leishmaniasis cutánea". El objetivo principal de este trabajo fue crear un modelo de aprendizaje automático, basado en técnicas de ciencia de datos, que permite identificar y cuantificar la presencia de Leishmania spp. en imágenes de microscopio. Para lograr este objetivo, se consolidó una base de datos con imágenes que sirvieron para entrenar el modelo en la caracterización del parásito. Se procesaron los datos de las imágenes para obtener información relevante y se aplicaron distintas técnicas de aprendizaje automático para cuantificar la carga parasitaria. Finalmente, se evaluó y seleccionó el modelo que presentó el mejor rendimiento con relación al alcance inicialmente propuesto. Se espera que este proyecto impulse la aplicación de la herramienta en diferentes espacios del sector de la salud y áreas académicas, en particular, en laboratorios donde se quiera incrementar la eficiencia y rapidez en los diagnósticos de presencia del parásito protozoo Leishmania. De este modo, se buscó automatizar el proceso de conteo del parásito, utilizando únicamente como insumo la imagen capturada por un microscopio al observar los microorganismos presentes en los portaobjetos.Item Modelo de scoring para la detección del lavado de activos(Pontificia Universidad Javeriana Cali, 2023) Camargo Martínez, Óscar Javier; García Arboleda, Isabel CristinaEl lavado de activos es una de las principales fuentes de ingresos de las bandas criminales, que utilizan, entre otras, para financiar los actos terroristas contra la sociedad, aprovecharse de diferentes formas de la población y legalizar dineros que provienen de fuentes ilícitas. En este sentido, las entidades bancarias juegan un papel muy importante para impedir que estos dineros entren al mercado legal; para esto, se han apoyado de diversas metodologías entre las que resalta el método de scoring, en el que se busca asignar una puntuación a cada cliente, con base en sus características, que permita ordenar el riesgo de estar frente a una operación sospechosa. Por consiguiente, este trabajo logró crear un modelo de scoring para la detección del lavado de activos que ayuda a detectar potenciales clientes y poder identificar prontamente operaciones de alerta en el sistema financiero. Se logró no solo generar dicho modelo, sino también definir las variables que tienen un desempeño aceptable dentro del mismo, sus respectivos pesos y los puntos de corte para la segmentación de los clientes. Finalmente, se espera que el modelo sea aplicado dentro de la entidad bancaria en la que desarrolla sus funciones el autor y que sirva como insumo para las investigaciones futuras; también, respecto a los posibles registros de operación sospechosa, se espera que el score funcione para desestimar en la menor medida posible.Item Modelo de aprendizaje automático para la predicción de la mortalidad asociada al bajo peso al nacer a término, en menores de un año en el valle del cauca(Pontificia Universidad Javeriana Cali, 2023) Torres Ricaurte, Carlos Andrés; Gutiérrez Rendón, Liz Mary; Ortega Lenis, DeliaLa detección del peso al nacer es un indicador importante del estado de salud del recién nacido; según la Organización Mundial de la Salud (OMS), el bajo peso al nacer, que se ha establecido como menor a 2.500 gramos, es un problema de salud pública a nivel mundial que debe atenderse para evitar consecuencias fatales como la muerte. Colombia no es ajena a esta problemática, la prevalencia del bajo peso al nacer en 2018 fue de 7.22 y en el 2020 aumentó a 9.20. Es por esto, que este proyecto desarrolló un modelo de aprendizaje automático para la predicción del riesgo de mortalidad asociada al bajo peso al nacer a término, en menores de un año en el Valle del Cauca, que, mediante el uso de las técnicas de predicción y clasificación, permitió analizar las dinámicas del comportamiento del bajo peso al nacer a término y el riesgo de la mortalidad infantil de esta manera generar acciones de carácter preventivo que procuren su reducción en el territorio.Item Análisis de la deforestación en la Amazonía colombiana usando técnicas de aprendizaje automático(Pontificia Universidad Javeriana Cali, 2023) León Acosta, Paola Andrea; Otero Martínez, Guillermo AndrésDebido al alto impacto de la deforestación en el calentamiento global, el aumento de enfermedades zoonóticas y el riesgo de extinción de la biodiversidad, surge la necesidad de desarrollar nuevos enfoques para la medición y análisis de la deforestación que permitan a los gobiernos tener una mejor compresión de este fenómeno para centrar su atención y recursos a atender esta crisis ambiental en las zonas más vulnerables. Dada esta situación y considerando el amplio uso de los algoritmos de aprendizaje automático para analizar datos complejos como imágenes y textos, este proyecto tuvo como objetivo analizar el comportamiento de la deforestación en la Amazonía colombiana usando diferentes técnicas de aprendizaje automático con imágenes satelitales de Google earth engine, considerando estas metodologías como nuevas propuestas de medición en el análisis de la cobertura forestal. Posteriormente, se evaluaron estos modelos mediante métricas de evaluación, una vez seleccionado el modelo con mejor rendimiento, se identificaron las zonas con deforestación en las imágenes satelitales, y a partir de estos resultados se cuantificó y analizó el incremento de la perdida de bosques en un periodo determinado con el propósito de generar alertas de las zonas más vulnerables, y así brindar una herramienta que se pueda considerar como un insight para la formulación de planes de acción y políticas para la prevención y reforestación.Item Modelo de clusterización de municipios en Colombia a partir de la integración, visualización y análisis de fuentes de datos(Pontificia Universidad Javeriana Cali, 2023) Henao Aguirre, Juan Sebastián; Ortega Lenis, DeliaEste proyecto aborda el problema de la falta integración entre distintas fuentes y tipos de datos, para caracterizar de forma eficiente los municipios en Colombia. Lo que incluye desarrollar un análisis de clusterización de los municipios a partir de las fuentes de información con modelos no supervisados. En este sentido, el objetivo principal de este proyecto es desarrollar un modelo de clusterización a partir de la integración y visualización de distintos tipos y fuentes de datos disponibles para la caracterización de los municipios en Colombia. Desarrollar este tipo de soluciones es un recurso valioso para distintos actores o grupos (como investigadores, funcionarios públicos, entidades territoriales, organizaciones internacionales, etc.) que constantemente demandan este tipo de información, y que no la obtienen y terminan, entre otras cosas, destinando más tiempo del deseable para buscar y consultar la información requerida. Afrontar un problema de este estilo, requirió del desarrollo e implementación de diferentes herramientas de la ciencia de datos como: creación e integración e fuentes de datos a través de un software de visualización como Power BI y entrenar diversos algoritmos para realizar un análisis de clústeresItem Clasificación de pacientes con Leishmaniasis basado en mutaciones genéticas por polimorfismo de nucleótido único (SNP) usando técnicas de Machine Learning(Pontificia Universidad Javeriana de Cali, 2023) Gómez Vasco, Carlos Andrés; Álvarez Vargas, Gloria Inés; Linares Ospina, Diego LuisLa leishmaniasis es una enfermedad tropical transmitida mediante la picadura de insectos que son los vectores de la enfermedad. Se considera una endemia en más de 88 países de diferentes geografías. Las tasas reales de incidencia son sustancialmente altas y con una alta prevalencia en países de América Latina. Aunque existen diferentes tratamientos terapéuticos, son muy complicados para los pacientes y suelen ser bastante tóxicos para otros órganos del cuerpo, y, en general, tienen altos índices porcentuales de fallo, es decir, cumplido el tratamiento los pacientes no se recuperan. Actualmente no existe una herramienta clínica que le permita a un médico tratante determinar la probabilidad a priori de que un tratamiento sea efectivo. Por el contrario, de manera indiscriminada se aplica a los pacientes las terapias bajo la premisa del ensayo y error. En este proyecto aplicado, se realiza un estudio basado en mutaciones genéticas producidas por polimorfismo de nucleótido único (SNP) a un conjunto de setenta y dos (72) pacientes tratados con las técnicas terapéuticas existentes. A estos pacientes se les realizó una secuenciación genética consiguiendo 618,872 SNPs para cada uno y la información clínica del grupo étnico, así como la respuesta al tratamiento después de aplicado, etiquetado como cura o falla. Esta información es suficiente para generar un dataset que fue analizado mediante GWAS (Estudio de asociación de genoma completo) consiguiendo tres datasets denominados COMPLETO, AFRODESCENDIENTES y NO-AFRODESCENDIENTES con 41, 14 y 36 SNPs correspondientemente. Mediante técnicas de reducción de dimensionalidad, como el análisis de componentes principales (PCA), eliminación recursiva de características y regresión LASSO, se reduce el número de variables a aquellas mutaciones genéticas más relevantes para la respuesta inmune al tratamiento consiguiendo 69 subconjuntos de características. Mediante técnicas de aprendizaje automático se construyen 483 clasificadores basados en algoritmos de Regresión Lineal (RL), Stochastic Gradient Descent (SGD), Support Vector Machine (SVM), Decision Tree (DT), Random Forest (RF), Boosting (BT) y Gradient Boosting (GB) de los 69 subconjuntos, para clasificar con precisión las mutaciones genéticas relacionadas con la respuesta inmune al tratamiento terapéutico contra la leishmaniasis. Se utilizaron métricas de evaluación, como accuracy, precision, recall y F1 score para medir el rendimiento de los clasificadores. Estas métricas proporcionaron una visión detallada de la capacidad de los modelos para identificar correctamente las mutaciones relevantes. Después de la evaluación inicial de los 683 experimentos, se realizó la optimización de los hiperparámetros de los modelos mediante una búsqueda por cuadrícula explorando diferentes combinaciones y configuraciones, lo que permitió refinar los modelos y nuevamente estimar su desempeño permitiendo evaluar y comparar los resultados antes y después de la optimización, confirmando la mejora significativa en la capacidad de los clasificadores para identificar con precisión las mutaciones genéticas relacionadas con la respuesta inmune al tratamiento terapéutico contra la leishmaniasis. Al final, se consiguió una selección de 22 SNPs ubicados en genes con funciones biológicas altamente relacionadas con movimiento, transcripción, estructura y transporte celular, así como el transporte de metales, respuesta inmune y cicatrización. Evidenciando que las técnicas aplicadas son eficientes en la identificación de biomarcadores asociados con la respuesta al tratamiento contra la leishmaniasis.Item Predicción del desenlace terapéutico para leishmaniasis cutánea combinando información metabolómica y SNPs(Pontificia Universidad Javeriana Cali, 2023) Mejía Patiño, Juan Pablo; Linares Ospina, Diego Luis ; Gómez, María AdelaidaLa Leishmaniasis cutánea es una enfermedad presente en múltiples regiones tropicales del mundo, afectando a diversos grupos poblaciones y territorios. América Latina es uno de estos territorios, con la presencia de 15 de sus variedades. Esta enfermedad parasitaria afecta a grupos poblacionales vulnerables que requieren de un tratamiento especializado. Sin embargo, este tratamiento no siempre es exitoso y sus efectos colaterales son, en algunos casos, severos. Teniendo en cuenta esto, es importante contar con herramientas que permitan determinar con un grado alto de confianza el desenlace terapéutico de estos pacientes. Con este objetivo, el presente proyecto busca brindar una predicción sobre el desenlace del tratamiento para la Leishmaniasis Cutánea con un alto grado de confianza, utilizando dos fuentes de datos. Una de información metabolómica y otra de mutaciones genéticas conocidas como “SINGLE NUCLEOTIDE POLYMORPHISMS (SNPs)”,junto con técnicas de aprendizaje automático clásicas. Con base en proyectos del grupo DESTINO como antecedentes, se realizaron 18 experimentos aplicando 3 técnicas de aprendizaje supervisado. De estos, 9 experimentos resultaron en 9 clasificadores base, 6 con cada uno de los conjuntos de datos ya mencionados, y adicionalmente 3 con un nuevo conjunto de datos, originado de la intersección de muestras entre las dos fuentes de datos. Posteriormente, se evalúa su desempeño con métricas como “Accuracy”, “Precision”, “Recall” y “F1 Score”. A partir de esto, se realiza un afinamiento de hiperparámetros de estos clasificadores, usando una técnica de grilla y de nuevo se analizan los resultados con las métricas antes mencionadas. También se experimenta con una técnica de ensamble en cascada, como segunda mecánica para realizar la predicción del tratamiento contra la leishmaniasis. Esto se realiza utilizando los 2 mejores clasificadores que resultan de la fase de afinamiento de modelos. Al finalizar, se obtuvo que un clasificador que mezcla como entradas 7 SNPs, por parte del conjunto de datos de mutaciones genéticas, y 3 metabolitos del conjunto de datos de información metabolómica, obtiene un desempeño superior a los clasificadores con conjuntos de datos separados. Así mismo, el método de ensamble resultó en clasificaciones con un alto nivel de confiabilidad. Esto evidencia, que, combinando fuentes de información diferente bajo dos mecánicas distintas, es posible obtener una herramienta clínica para predecir el desenlace del tratamiento contra la leishmaniasis cutánea.Item Desarrollo de modelo para predicción de ventas B2B en empresa del sector agroindustrial(Pontificia Universidad Javeriana de Cali, 2023) Giacometto Cheij, Antonio; Fajardo Macías, Antonio José; Castaño Mejía, Wilmer; González Gómez, Daniel EnriqueEl trabajo presentado corresponde al desarrollo de un modelo de aprendizaje automático para predecir la probabilidad de conversión en venta de las cotizaciones recibidas en una empresa del sector agroindustrial colombiano. Los diferentes modelos probados, fueron entrenados utilizando un dataset consolidado con los datos históricos de ventas de la organización y algunas fuentes externas; La preparación de este dataset involucró diferentes etapas de limpieza, mejoramiento de datos y pre procesamiento, las cuales permitieron además de alimentar los modelos de predicción probados, desarrollar un modelo de agrupamiento que permitió identificar perfiles de clientes de acuerdo a algunas de sus principales características basados en la información de cotizaciones. Como complemento fue desarrollada una herramienta de visualización para el monitoreo y control de indicadores claves de desempeño dentro del área comercial.Item Sistema empresarial para la gestión y análisis de datos de sostenibilidad en organizaciones Mineras(Pontificia Universidad Javeriana de Cali, 2023) Fernández Ebrath, Bryan Josser; Ramírez Mantilla, Jhon Enrique; Ortega Lucero, Andrés Felipe; Sierra Galvis, Martín Vladimir AlonsoEl monitoreo del flujo de datos generado por la comercialización diaria de oro y otros minerales por parte de los grupos mineros artesanales y de pequeña escala - MAPE, con énfasis en su conexión con el mercado formal, ha sido una prioridad clave para la Alianza por la Minería Responsable (AMR). No obstante, el manejo de grandes volúmenes de datos y su constante dinamismo ha dificultado el seguimiento en tiempo real, la toma oportuna de decisiones y la generación de observaciones que permitan la definición ágil de planes de acción. En consecuencia, el uso de técnicas de gestión efectiva de datos y la aplicación de inteligencia artificial para el análisis automatizado han despertado un gran interés en la AMR. Estas técnicas permiten identificar grupos mineros en situación de riesgo, asegurando su acceso a cadenas de comercialización con precios más competitivos y su vinculación efectiva al mercado. En una primera etapa, se llevó a cabo un análisis exploratorio de los datos disponibles para la AMR, con el objetivo de identificar las técnicas más apropiadas para la predicción y clasificación, así como definir un modelo de datos adecuado para su gestión. Posteriormente, se implementaron y validaron técnicas de inteligencia artificial, con el fin de seleccionar la que mejor se ajustara al modelo de datos proporcionado. Por último, se propuso el desarrollo de un prototipo de aplicación web, que brindara al equipo técnico de la AMR acceso en cualquier momento a los datos y la capacidad de gestionar los planes de acción de acuerdo con los indicadores establecidos. A pesar del volumen considerable de datos, las aplicaciones de la ciencia de datos en el sector minero aún están en discusión, existiendo un vacío evidente en términos de buenas prácticas y métodos de predicción, entre otros aspectos. Como resultado, este proyecto no solo generó aplicaciones prácticas para la AMR, sino que también sentó para la organización, las bases para futuras investigaciones y aplicaciones en el campo de la ciencia de datos.Item Aprendizaje automático para recomendar el reemplazo de medidores de agua de una red de distribución(Pontificia Universidad Javeriana Cali, 2023) Díaz Vesga, Roy Marnol; Trochez Zambrano, Jesús Alexander; Ramírez Buelvas, Sandra Milena; Troncoso Espinosa, Fredy HumbertoAprendizaje automático para recomendar el reemplazo de medidores de agua de una red de Las empresas de servicios sanitarios que suministran agua utilizan medidores especializados y enfrentan un porcentaje de agua no facturada, que es el agua que entra al sistema, pero no se cobra. Las pérdidas pueden ser técnicas (fugas y gastos internos), por micromedición (consumos gratuitos y problemas con los medidores) y por uso irregular (hurtos y conexiones ilegales). En el caso de las pérdidas por micromedición, los medidores descompuestos pueden generar sub-medición (lecturas inferiores al consumo real) o sobre-medición (lecturas superiores). Estos problemas impactan negativamente en las finanzas de la empresa y en la calidad del servicio, generando reclamaciones y afectando la satisfacción del cliente. Este trabajo de grado presenta un método sistemático para abordar el cambio o reemplazo de medidores mecánicos en una empresa de servicios sanitarios en Chile, enfocándose en el problema de pérdidas por micromedición, en particular en predecir problemas de sobre-medición y sub-medición. Se utiliza información de series de consumo mensual de agua y variables relacionadas con la ubicación y características de los medidores. La metodología combina la técnica de simbolización de series de tiempo (SAX), algoritmos de clasificación y análisis de variables geográficas para predecir el estado de los medidores. Se predicen los medidores con consumo normal, sub-medición y sobre-medición. El uso de la técnica de simbolización de series de tiempo (SAX) ayuda a reducir la complejidad de las series de consumo de agua y facilita su comprensión. Los modelos de clasificación evaluados, como KNN, Árbol de Decisión, Random Forest, AdaBoost y XGBoost, demostraron un buen desempeño al utilizar las variables extraídas de las series simbolizadas, la ubicación y algunas características de los medidores. Especialmente, los modelos XGBoost y Random Forest se destacaron por su alta precisión, con una tasa de acierto promedio del 94% y 93%, respectivamente. El modelo XGBoost se utilizó para predecir el estado de los medidores de agua en la región central de Chile. De acuerdo con las predicciones, se estima que aproximadamente el 77.60% de los medidores presentaría un consumo normal, mientras que el 11.35% mostraría sobre-medición y el 11.05% tendría sub-medición. Los resultados obtenidos demuestran la efectividad de las variables extraídas utilizando la técnica SAX en las series de consumos, así como la inclusión de la variable localidad y características de los medidores como inputs en los modelos de clasificación utilizados. Estos resultados destacan el potencial de este enfoque para la toma de decisiones en el ámbito de los servicios de agua, con el objetivo de lograr una gestión más eficiente y precisa de los recursos hídricos en el país.Item Prototipo de herramienta para la mejora en los procesos de designación de PQRSD de la Alcaldía de Bucaramanga(Pontificia Universidad Javeriana Cali, 2023) Gómez Bueno, Wilfredo Ariel; Gómez Cárdenas, Edson Andrés; Linares Ospina, Diego Luis ; Álvarez Vargas, Gloria InésEste proyecto de grado surgió de la identificación de un problema clave en la gestión de las Peticiones, Quejas, Reclamos, Sugerencias y Denuncias (PQRSD) en la Alcaldía de Bucaramanga: cuando una PQRSD se asigna incorrectamente, se producen reprocesos que disminuyen el tiempo para su respuesta y generan incumplimientos. En el peor de los casos, una PQRSD puede incluso perderse administrativamente debido a la rotación del personal. Frente a este escenario, el objetivo principal de nuestro proyecto fue desarrollar una solución que pudiera impactar positivamente la asignación de las PQRSD en la Alcaldía. Para ello, utilizamos diversas técnicas de clasificación para analizar una base de datos de PQRSD compuesta por más de 590.592 registros con baja calidad de datos. El proyecto incluyó varias etapas, desde la extracción, exploración y limpieza de datos, hasta la creación y prueba de una arquitectura de clasificación mixta o híbrida basado en técnicas tradicionales. El modelo propuesto considera el desequilibrio presente en los registros entre las distintas dependencias de la Alcaldía y utiliza herramientas como GridSearchCV para seleccionar y optimizar los hiperparámetros de los clasificadores utilizados como Regresión Logística y ComplementNB en los cuatro (4) componentes de la arquitectura. Los resultados obtenidos, brinda un resultado de 65.1%, lo que sugiere que este enfoque puede ser eficaz para mejorar la gestión de las PQRSD en la Alcaldía de Bucaramanga, minimizando reprocesos, evitando incumplimientos y asegurando una gestión eficaz de las mismas, incluso en el contexto de la rotación del personal.Item Automatización de la detección y diagnóstico de leishmaniasis por medio de la identifi cación de parásitos en imágenes de placas de laboratorio(Pontificia Universidad Javeriana Cali, 2023) Cardozo Aricapa, Daniel Fernando; Álvarez Vargas, Gloria InésLa leishmaniasis es una enfermedad causada por más de 20 especies del género Leishmania un protozoo parasito. Esta enfermedad se transmite por la picadura de flebótomos hembra infectados, que necesitan ingerir sangre para producir huevos. A nivel mundial, se encuentra entre las diez enfermedades tropicales desatendidas con más de 12 millones de personas infectadas con 0,9 a 1,6 millones de nuevos casos al año y entre 20.000 a 30.000 defunciones. En la actualidad, las estrategias de prevención y control disponibles para el manejo de la leishmaniasis son limitadas, por lo cual se requiere de herramientas efectivas para el diagnóstico temprano y tratamiento adecuado. Es por esto por lo que nuestro objetivo es desarrollar un modelo automatizado capaz de realizar la identificación del parasito y diagnóstico de Leishmaniasis usando imágenes de placas de laboratorio en pacientes con sospecha clínica de la enfermedad. Para estos proponemos utilizar diferentes algoritmos de clasificación que nos permitan realizar la detección de parásitos de Leishmania por medio de la extracción de características, creación de imágenes integrales y clasificación. Como resultados esperados se espera contar con un modelo diagnostico adecuado basado en placas de laboratorio que permita realizar el diagnostico de forma oportuna y accesible capaz de funcionar de forma eficiente en cualquier área que lo requiera. Finalmente, esta tecnología será una herramienta fundamental para la salud publica en áreas endémicas en pro de disminuir la morbimortalidad de la enfermedad.Item Generación de visuales y analíticas a partir de datos obtenidos por un RPA en empresa del sector educativo(Pontificia Universidad Javeriana Cali, 2023) Gaviria Moncayo, Jeison Esteban; Giraldo Mena, Luisa Fernanda; Martínez Arias, Juan CarlosPara una compañía cuyo foco es ofrecer educación virtual a bajo costo y de alta calidad, uno de sus mayores retos es lograr conocer el comportamiento de sus usuarios mediante visuales y analíticas que permitan tomar decisiones en pro de su crecimiento. Actualmente, el principal problema se basa en la obtención de los datos, ya que se realiza de manera manual y puede generar errores en la descarga. Además, requiere de recursos humanos dedicados a esta tarea, incrementando los gastos de la compañía a medida que el volumen de datos aumenta. Por este motivo se desarrolló un robot que permite automatizar la descarga de datos para su posterior análisis y visualización. Para ello, inicialmente se realizó una búsqueda de literatura acerca de trabajos relacionados que sirvieron de guía para el desarrollo del proyecto. Posteriormente, se definieron las herramientas a utilizar y su debida documentación. Después, se dio inicio al desarrollo del robot y se realizaron pruebas de funcionamiento con data real. Para finalizar, se desarrollaron visualizaciones y analíticas a partir de los datos obtenidos que permitieron cumplir con el objetivo del proyecto.Item Sistema empresarial inteligente para la clasificación de residuos(Pontificia Universidad Javeriana Cali, 2023) Cantor, Elkin Leonardo; Morales Cadavid, Santiago; Correa, Leidy Johana; Vargas Cardona, Hernán Darío; Torres Valencia, Cristian AlejandroExiste evidencia de que en Colombia se producen 24,8 millones de toneladas de residuos al año, de los cuales el 47% provienen de los hogares con una generación per cápita de 515 kilogramos y a su vez la tasa de reciclaje, que se refiere a la proporción de material reciclado sobre la generación total de residuos sólidos, es cercana al 12% en el año 2019, siendo esta una cifra muy baja comparada con la de otros países como Alemania donde llega al 68%. Por medio de este proyecto se buscó realizar un modelo de aprendizaje automático que a través del reconocimiento de imágenes permitiera en el ámbito empresarial realizar una correcta clasificación de residuos en las diferentes canecas del punto ecológico, así como la recolección de información que permita calcular diversos indicadores a nivel individual y de empresa, proporcionando información clave para el desarrollo de futuras campañas de impacto ambiental y buscando diversos mecanismos y estrategias que promuevan el uso de esta herramienta y nos convierta en un aliado estratégico del medio ambiente. Asimismo, por medio del desarrollo de este proyecto, se obtuvo un dataset que permitió crear algoritmos robustos que contribuyen al correcto entrenamiento del modelo de clasificación de residuos, este modelo se desarrolló en lenguaje Python, empleando algoritmos de Deep Learning, especialmente haciendo uso de redes neuronales convolucionales que permitieron la construcción de un prototipo o diseño (mockup) de una aplicación móvil donde a futuro se podrá desplegar el modelo realizado.Item Construcción de un modelo que permita identificar fallas en generadores de centrales hidroeléctricas(Pontificia Universidad Javeriana Cali, 2023) Rodríguez Amaya, Adrián; Pérez Aponte, David Andrés; Pabón, María ConstanzaLas indisponibilidades no planeadas en la generación eléctrica representan multas para las empresas generadoras de energía, por parte del administrador del mercado mayorista; el modelo propuesto permitirá identificar, predecir fallas en generadoras de centrales hidroeléctricas, y ayudar a los ingenieros de operación a programar mantenimientos proactivos. En el presente trabajo se analizaron las variables involucradas en un conjunto de datos descargados del SCADA de la operación de las unidades de generación, seleccionando los atributos más relevantes para la construcción de un modelo que identificó posibles fallas en los generadores eléctricos de una central hidroeléctrica, este conocimiento se aplicó en el contexto local para beneficio de la industria con el fin de reducir el impacto económico causado por las fallas, mediante el uso de la ciencia de datos.Item Análisis de sentimientos utilizando aprendizaje automático de menciones en twitter para la secretaría de movilidad de Bogotá(Pontificia Universidad Javeriana Cali, 2023) Quiñonez Romero, Luis Eduardo; Carbonell García, Luisa Fernanda; Peralta Alean, Andrés Gabriel; Pabón Burbano, María ConstanzaLa evolución de la sociedad moderna ha llevado a la instauración de urbes de gran densidad en donde difícilmente se logra mantener un balance entre las zonas de trabajo, estudio y las zonas residenciales, lo que genera desplazamientos considerables para la población media dentro de su ciclo de cotidianidad. La ciudad de Bogotá no es la excepción a estas condiciones, por lo que la Secretaría de Movilidad asume un reto en la implementación de medidas que agilicen el transporte de los ciudadanos. Un desafío subyacente en la implementación de estas medidas es la medición de su efectividad, donde la percepción de los usuarios juega un papel fundamental en la evolución de los planes de movilidad y la identificación de necesidades y ajustes de las iniciativas actuales. En ese sentido las redes sociales operan como compiladores masivos de percepciones sobre la gestión realizada, generando que la Secretaría enfoque esfuerzos de comunicación sobre la red social twitter, queriendo contar con un mecanismo automatizado que permita identificar las tendencias en cuanto a las percepciones de los usuarios. Para tal fin se pretende desarrollar un análisis de sentimientos con un modelo de clasificación de aprendizaje supervisado, el cual permita, mediante una aplicación en línea usando uno o varios modelos entrenados, identificar y clasificar conjuntos de tweets.Item Detección, georreferenciación y cuantificación de daños en pavimentos flexibles a partir de imágenes, utilizando aprendizaje profundo(Pontificia Universidad Javeriana Cali, 2023) Morales Acevedo, Manuel Alejandro; Gil González, Julián; Jiménez Sierra, David AlejandroLas técnicas a utilizar para llevar a cabo esta tarea, es el uso de aprendizaje profundo, Visión Artificial para detectar objetos en imágenes. El problema para abordar está orientado a la seguridad vial, teniendo en cuenta la gran cantidad de accidentes relacionados con el mal estado y deterioro de las vías, la finalidad es, que mediante el uso de aprendizaje profundo realizar un diagnóstico del estado de la malla vial, determinar sitios críticos y su respectiva ubicación, definir las áreas prioritarias, para ser utilizando en la determinación del monto de inversión para mantenimiento y rehabilitación de las vías.Item Uso de técnicas de machine learning para la predicción de las tasas de desempleo y ocupación en tres ciudades de Colombia: Cali, Medellín y Popayán(Pontificia Universidad Javeriana Cali, 2023) Cerón Ordoñez, Julieth Stefens; Trujillo, Emerson; Arango Londoño, David; Sierra, Lya PaolaEn los últimos dos años, la economía regional en Colombia ha sufrido choques económicos y sociales sin precedentes debido a la pandemia del Covid19 y el paro nacional. En consecuencia, las técnicas econométricas tradicionales de pronóstico del mercado laboral pueden resultar inadecuadas o insuficientes para capturar las nuevas condiciones y tendencias macroeconómicas. Este proyecto aplicado combina variables del mercado laboral, búsquedas en Google Trends y el Indicador Mensual de Actividad Económica (IMAE) como variable macroeconómica, para estimar un indicador del mercado laboral en tres ciudades en Colombia: Cali, Medellín y Popayán utilizando técnicas de Machine Learning. Con el uso de Máquinas de Soporte Vectorial para Regresión y Redes Neuronales se pronosticaron las tasas de desempleo y ocupación laboral para anticipar los datos oficiales proporcionados por el Departamento Administrativo Nacional de Estadística (DANE) en 1 mes. Los resultados de este estudio muestran que los errores de pronóstico de los modelos propuestos son bajos, que la previsión mejora con relación al modelo de referencia tradicional ARIMA y que las estimaciones se adaptan rápidamente a los cambios estructurales en el mercado laboral regional.Item Análisis de factores y alerta temprana del riesgo de violencia basada en género en Colombia(Pontificia Universidad Javeriana Cali, 2023) Barrera Barrera, David Samuel; Poveda Aguirre, Eliana Liney; Arango Londoño, DavidLa violencia física, psicológica, sexual y económica contra las mujeres hacen parte de las distintas formas de violencia basada en género (VBG). En consecuencia, con el presente proyecto se creó, tentativamente, un modelo de aprendizaje no supervisado que permitió identificar los determinantes que inciden en la VBG y, con ello, visibilizar el uso de herramientas de machine learning para la comprensión de este fenómeno a nivel nacional. Conocer dónde se concentra, por qué, y en qué casos se incrementa la violencia de pareja y sexual es relevante para la prevención y, en particular, para la planificación de los recursos y servicios institucionales implicados en la lucha contra la VBG, especialmente de intervención temprana.Item Prototipo para análisis y clasificación de incidentes en una entidad financiera utilizando NPL(Pontificia Universidad Javeriana Cali, 2023) Restrepo Cifuentes, Juan David; Velasco Gómez, Guiancarlo Javier; Mora Cardona, Mario JuliánEl área de auditoría interna de una entidad financiera se ha venido enfrentando a diversos desafíos a raíz de la falta de eficacia para llevar a cabo la clasificación de incidentes en los procesos sujetos a auditoría. Estas fallas han obstaculizado la toma de decisiones basadas en datos y ha llevado al incumplimiento de los acuerdos de nivel de servicio (ANS), resultando en el cierre de incidencias sin una solución adecuada. En el marco del trabajo de grado, se propuso desarrollar un prototipo para el análisis y clasificación de incidentes en una entidad financiera utilizando el Procesamiento de Lenguaje Natural (PLN). Para abordar esta problemática, se decidió crear una aplicación de Machine Learning que pudiera clasificar los incidentes de la mesa de servicio de acuerdo con su prioridad. Para lograr este objetivo, fue necesario llevar a cabo un proceso de limpieza de las descripciones de los incidentes, eliminando palabras irrelevantes que no aportaban al contexto y al significado de cada incidente. A continuación, se adaptaron y vectorizaron los datos textuales para que fueran fáciles de procesar por los modelos de clasificación. Posteriormente, se evaluaron las métricas de diferentes modelos y se seleccionaron los mejores, optimizando sus hiperparámetros y probando su capacidad de predicción utilizando registros de incidentes diferentes a los utilizados en el entrenamiento. Como resultado, se presentaron a la entidad financiera dos modelos con TF-IDF que habían sido optimizados y mostraban una precisión superior al 80%. Sin embargo, al probar los modelos con registros distintos a los utilizados en el entrenamiento, se observaron diferencias en la clasificación de hasta el 19%. Es importante destacar que esta discrepancia no implica que el modelo esté equivocado en la clasificación, sino que invita al personal del banco a validar los incidentes en los cuales difiere de la prioridad asignada manualmente por los colaboradores de la entidad financiera.