Maestría en Ciencia de Datos

Browse

Recent Submissions

Now showing 1 - 20 of 37
  • Item
    Técnicas de aprendizaje automático para identificar potenciales compradores de vivienda entre los beneficiarios del Sisben IV
    (Pontificia Universidad Javeriana Cali, 2024) Marulanda Walles, Ximena; Bedoya Saenz, John Jairo; Arteaga Botero, Gustavo Adolfo
    La problemática asociada al elevado porcentaje de hogares encuestados en el Sisbén IV de la ciudad Cali – Valle del Cauca que no cuenta con vivienda propia y que desconocen su potencialidad como posibles compradores, es razón por la cual el objetivo de la presente investigación es aplicar técnicas de aprendizaje automático para identificar potenciales compradores de vivienda entre los beneficiarios del Sisbén IV en Santiago de Cali. A partir de la información suministrada por el Departamento Administrativo de Planeación Distrital de la ciudad para el año 2022 se desarrolló un modelo de aprendizaje automático que permita analizar los datos recolectados, identificar patrones y tendencias, y predecir con precisión qué personas tienen mayor probabilidad de convertirse en compradores de vivienda. El conocimiento generado permite respaldar la toma de decisiones eficaces de los organismos privados y gubernamentales del sector vivienda en lo relacionado con el planteamiento de políticas públicas y programas en general en beneficio a la población de estudio.
  • Item
    Laguna
    (Pontificia Universidad Javeriana Cali, 2024) García Cifuentes, Santiago; Arango Londoño, David
    Los chatbot son un modelo de interacción persona-computadora, es decir, es un programa informático diseñado para simular una conversación con usuarios humanos y esto es lo que TuChat ofrece a sus clientes. Sin embargo, sus clientes necesitan utilizar la información que es recolectada por medio de los chatbots para perfeccionar la estrategia comercial. De esta manera, este proyecto propuesto explora con uno de los clientes de TuChat que se llama Las Ricuras de Sebastian y aprovechando la información obtenida a través de los chatbots, logra organizar el flujo de los datos de la organización donde realizando un análisis exploratorio, limpieza y consolidación de las bases de datos, se logra obtener información más precisa y coherente. La identificación de horarios de alta y baja demanda a lo largo del día se realiza para optimizar la oferta de productos y promociones. Además, se implementan modelos avanzados, incluyendo geocodificación para ubicar geográficamente a los clientes, análisis de sentimiento para evaluar la satisfacción del cliente y un modelo ARIMA para pronosticar las ventas futuras. La visualización y acceso a los datos se facilita mediante Google Cloud y Looker Studio, culminando en la presentación de un tablero de control integral. Esta herramienta proporciona a Las Ricuras de Sebastian una representación visual clara de diversos indicadores clave, incluyendo resultados generales, análisis temporal y georeferenciación, permitiendo la toma de decisiones informadas y la mejora continua de las operaciones comerciales.
  • Item
    Modelación del precio para la compra y venta de aceite de soya empleando metodologías de series de tiempo basadas en machine learning
    (Pontificia Universidad Javeriana Cali, 2024) Palacios Córdoba, Leonardo Andrés; Munevar Quiroga, Nidia Beatriz; González Gómez, Daniel Enrique
    El proyecto aplicado realizado es la modelación del precio para la compra y venta de aceite de soya empleando metodologías de series de tiempo basadas en técnicas clásicas y en modelos de machine learning que se plantea ante una necesidad de los actores que requieren mejorar sus decisiones y de esta forma su rentabilidad. Los precios de las materias primas afectan directamente al mercado y a los precios de los bienes producidos a partir de estas materias, es decir, los valores terminan impactando al comprador final, por lo que se requiere mejorar los métodos de pronósticos empleados incorporando herramientas de ciencia de datos y de esta manera integrar otros elementos del mercado que afectan los precios y su dinámica. El objetivo fue desarrollar un modelo de series de tiempo basado en técnicas de machine learning capaz de estimar y ajustar el precio del aceite de soya incorporando factores inflacionarios, políticos, de demanda, histórico de ventas y la cotización del precio del aceite de soya en el mercado de futuros. A partir de la construcción de modelos de ciencias de datos que permitan pronosticar el precio del aceite de soya bajo las restricciones del mercado de futuros, se evalúan los diferentes modelos construidos y selecciona el modelo que ofreció los mejores resultados, con el modelo seleccionado se visualizan los resultados obtenidos mediante una aplicación web que permite a los decisores actuar de manera eficiente y hacer seguimiento al comportamiento de los precios en tiempo real. Como resultado se obtuvo un modelo de pronóstico de precios de compra y venta de materia prima, el dataset resultante del preprocesamiento realizado para obtener el pronóstico, el documento resultante con la descripción de la metodología empleada y el dashboard que permite el monitoreo de precios y visualización del pronóstico de compra y venta de materias primas. Finalmente, la metodología empleada puede ser escalada a otros productos con el propósito de ser utilizada en el pronóstico de otras materias primas agrícolas. Tras la construcción y evaluación de varios modelos multivariados, el modelo Convolucional fue seleccionado por ofrecer los mejores resultados en términos de precisión, capturando eficazmente la dinámica del mercado. Los resultados obtenidos se visualizan a través de una aplicación web diseñada para facilitar a los decisores una actuación eficiente y un seguimiento en tiempo real del comportamiento de los precios. Como resultado final, se obtuvo un modelo robusto para el pronóstico de precios de compra y venta de aceite de soya, un dataset procesado para el ronóstico, una documentación detallada de la metodología utilizada y un dashboard para el monitoreo y visualización de precios. Esta metodología, tiene el potencial de ser aplicada a la predicción de precios de otras materias primas agrícolas, ampliando su utilidad en diversos sectores del mercado.
  • Item
    Predicción del desenlace terapéutico de leishmaniasis con base en fotografías de lesiones e información del transcriptoma
    (Pontificia Universidad Javeriana Cali, 2024) Acevedo, Karen Andrea; Arrieta Sánchez, Mario; Gómez Vallejo, Catalina; Linares, Diego; Gómez, María Adelaida
    Esta investigación adoptó un enfoque cuantitativo de carácter descriptivo experimental, en el cual se utilizó una metodología centrada en la recopilación y análisis de datos numéricos e imágenes para describir detalladamente las variables de interés. Este método se distingue por su énfasis en la medición objetiva de las variables mediante un diseño experimental a partir del conjunto de datos disponible. El proyecto se desarrolló utilizando fotografías de lesiones y datos de información transcriptómica de un grupo de pacientes que previamente habían sido tratados por el CIDEIM con el propósito de evaluar la eficacia del tratamiento para la leishmaniasis. Este enfoque incorporó herramientas de aprendizaje automático donde se requirió la construcción de bases de datos de alta calidad para llevar a cabo el procesamiento la aplicación de las técnicas y su evaluación. Después de la creación de los conjuntos de datos e imágenes, se aplicaron técnicas esenciales en la preparación de datos tanto para los transcriptomas como para las imágenes, con el objetivo de mejorar la calidad y simplificar el análisis. En el caso de los datos de transcriptomas, se comenzó aplicando técnicas de limpieza y reducción de dimensionalidad, como ANOVA, PCA y RFE, que permitieron segmentar y extraer los genes más significativos para cumplir con los objetivos establecidos. Posteriormente, se implementaron modelos de aprendizaje supervisado, tales como SVM, Árboles de Decisión, K vecinos y Bosques Aleatorios. Estos modelos fueron evaluados mediante un conjunto de entrenamiento aplicando validación cruzada, con el propósito de analizar tanto los modelos base como aquellos que resultaron de la estimación de los mejores hiperparámetros, buscando alcanzar un rendimiento óptimo. La evaluación del desempeño de estos modelos se llevó a cabo a través del conjunto de prueba, verificando los resultados frente a pruebas de laboratorio de referencia. Se analizaron diversas métricas, como sensibilidad y especificidad, con el objetivo de evaluar la coherencia entre los métodos, y se evidenció un rendimiento generalmente satisfactorio. No obstante, al emplear los genes seleccionados mediante el método de ANOVA, se destacó una consistencia notable tanto en los modelos base como en los estimados. En este escenario, se logró un promedio de exactitud del 0. 80 y un F1 score de aproximadamente 0.73 para los modelos base. Tras la estimación de los mejores hiperparámetros, se observó un incremento de alrededor del 0.05 en exactitud y un aumento de 0.07 en el F1 score. El conjunto de imágenes, por su parte, fue sometido a técnicas como las redes neuronales, para analizar las características particulares, como texturas, formas, bordes y coloración. Esto posibilitó la detección y clasificación automática de los individuos entre cura o falla (no cura). Para abordar esto, se creó un modelo utilizando un conjunto de entrenamiento aplicando validación cruzada, donde se planteó una red neuronal base a la cual se le realizó una estimación de hiperparámetros para obtener el mejor rendimiento. Posterior se utilizaron las arquitecturas VGG16 y VGG19 junto con la transferencia de aprendizaje de los hiperparámetros definidos de la red base. La evaluación del desempeño de estos modelos se llevó a cabo a través de conjuntos de prueba obteniendo con estas dos arquitecturas VGG16 y VGG19 los resultados óptimos. Un a exactitud promedio de 0. 92 y una función de pedida promedio de 0.17. A partir de los resultados obtenidos, fue posible reconocer y extraer características significativas tanto de los genes como de las imágenes, las cuales sirvieron como indicadores morfológicos de la presencia de leishmaniasis cutánea en el individuo. En última instancia, se realizó la interpretación de los resultados obtenidos para evaluar la viabilidad del proyecto, identificando limitaciones y desafíos, así como posibles cambios y mejoras para futuras investigaciones.
  • Item
    Modelo predictivo para determinar el desenlace terapéutico del paciente con leishmaniasis a partir de imágenes de lesiones
    (Pontificia Universidad Javeriana Cali, 2024) Segura Dorado, Jhon Alexander; Alvarez Vargas, Gloria Inés; Gómez, María Adelaida
    El aprendizaje automático ha aportado avances al campo de la medicina, sin embargo, en muchos casos es difícil implementar esta tecnología debido a la baja cantidad de datos que pueden estar disponibles en los estudios médicos en relación con el número de características que se planean analizar. Este estudio exploro ocho modelos de aprendizaje automático para predecir el desenlace terapéutico de los pacientes con leishmaniasis cutánea a partir de las imágenes de las lesiones. Este nuevo enfoque permitirá proponer nuevos mecanismos en el manejo de esta enfermedad a partir de una herramienta para predecir el desenlace terapéutico en tiempo real, además de efectuar recomendaciones en el tratamiento de los pacientes. Finalmente, la contribución de este proyecto servirá de base para las futuras investigaciones que el Centro Internacional de Entrenamiento e Investigaciones Médicas pueda llevar a cabo para encontrar un tratamiento eficaz contra la leishmaniasis.
  • Item
    Predicción de la ocurrencia de bajo rendimiento académico final de estudiantes de un curso universitario usando técnicas de machine learning
    (Pontificia Universidad Javeriana Cali, 2024) Reinoso Castillo, Jaime Alberto; González, Daniel
    El rendimiento académico como una medida de las capacidades de un alumno que expresa lo que éste ha aprendido a lo largo del proceso formativo [1], y que generalmente es representado a través de las calificaciones que este obtiene. El presente trabajo propone la creación y aplicación de un modelo predictivo basado en machine learning que permita estimar al inicio del semestre qué estudiantes de un curso tendrán un bajo rendimiento académico, a partir de la información histórica de los estudiantes que tomaron previamente dicho curso. Esta información puede ser muy útil para los docentes, permitiéndoles ajustar adecuadamente sus prácticas didácticas para que estas se alineen a las particularidades de cada curso. Además, el rendimiento académico es reconocido como una de las principales causas de deserción universitaria, particularmente durante los primeros semestres. Esto implica que el desarrollo de este modelo predictivo podría ayudar a influir positivamente en reducir la deserción universitaria, reduciendo las consecuencias en muchos de los actores del sistema, pues los estudiantes pierden tiempo y recursos valiosos, las familias reducen la posibilidad de enviar otros miembros a la universidad, la universidad pierde importantes recursos futuros por el fenómeno de la silla vacía, situación que a su vez eleva los costos universitarios y por tanto vuelve a la universidad menos accesible, y finalmente la sociedad pierde la posibilidad de tener un miembro profesional productivo.
  • Item
    Análisis de polaridad de tweets sobre contexto político colombiano usando técnicas de aprendizaje no supervisado
    (Pontificia Universidad Javeriana Cali, 2024) Pizarro Rivera, Francisco; Pabón, María Constanza
    El análisis de polaridad u orientación semántica es una de las ramas del Natural Language Processing que ha tenido más crecimiento en el última década, con amplias aplicaciones a nivel académico y comercial. En este proyecto de grado se realizó una exploración sobre la aplicación de modelos de Machine Learning de carácter Auto Supervisado y No Supervisado para realizar el análisis de polaridad en tweets escritos por los usuarios de la red social X específicamente escritos sobre el contexto político colombiano. Se exploró el uso de un enfoque con modelos híbridos, en los cuales se hace un preproceso de pseudo etiquetado por medio de un modelo basado en lexicones (modelo VADER) para luego entrenar modelos supervisados como SVM, Logistic Regression y Multinomial Naive Bayes. El segundo enfoque constó de usar el modelo No Supervisado de K-Means, obteniendo un performance superior en la ejecución del modelo hibrido. Este trabajo tiene también por output la exportación a modo de prototipo del modelo con mejor performance y su vectorizador entrenado con el vocabulario de los 4.830 tweets recolectados de manera manual para ser desplegado en posibles ambientes de producción para el desarrollo de herramientas de análisis de orientación semántica aplicada a textos de redes sociales, pero en específico a tweets relacionados con el contexto político colombiano.
  • Item
    Sistema de detección de cáncer de piel con aprendizaje de máquina para dispositivo de bajo consumo
    (Pontificia Universidad Javeriana Cali, 2024) Niño Rondón, Carlos Vicente; Forero Vargas, Manuel Guillermo; Castro Casadiego, Sergio Alexander
    El cáncer de piel, que representa aproximadamente el 10% de los casos de cáncer a nivel mundial, se enfrenta a desafíos significativos en términos de diagnóstico preciso. Los expertos en la materia han señalado que tres de cada cuatro herramientas de diagnóstico asistido para el cáncer de piel clasifican incorrectamente alrededor del 30% de los casos de melanoma. Estas herramientas, caracterizadas por su alto costo computacional, inciden directamente en los gastos de implementación, afectando así el acceso a los servicios de salud. En el presente trabajo se presentan un sistema de diagnóstico de cáncer de piel diseñado específicamente para dispositivos de bajo consumo. Se inicia con el análisis del conjunto de datos HAM10000, seguido por el desarrollo de un modelo de aprendizaje profundo destinado a la clasificación de esta enfermedad. Posteriormente, se planteó la creación de una herramienta de diagnóstico asistido, adaptada para su uso en dispositivos de bajo consumo. La evaluación de su rendimiento a nivel hardware y software completa el proceso.
  • Item
    Modelo de aprendizaje automático aplicado a la asignación de recursos institucionales para el control y la seguridad de la infraestructura móvil, física y tecnológica del SITM MIO
    (Pontificia Universidad Javeriana Cali, 2024) Buendía Diago, Albeiro; Mejía, Karol Stefani; Morán Villarreal, Oscar; Álvarez Vargas, Gloria Inés; Arteaga Botero, Gustavo Adolfo
    Este proyecto se enfocó en abordar las deficiencias de seguridad en el sistema de transporte masivo SITM MIO de Santiago de Cali, que experimenta incidentes crecientes de inseguridad. La gestión reactiva y la falta de control han afectado la confianza de los aproximadamente 280 mil usuarios diarios. Se identificó la necesidad de utilizar herramientas tecnológicas avanzadas para mejorar la asignación de recursos de seguridad de manera proactiva. Se desarrolló e implementó un sistema basado en técnicas estadísticas y computacionales, utilizando modelos de aprendizaje automático como Random Forest Regression, Support Vector Regression y Multilayer Perceptron Regression. La herramienta analítica predictiva resultante integra datos históricos y modelos de aprendizaje autónomo, destacando la eficacia del modelo de Random Forest Regression. Este avance marca un hito en la gestión de recursos de seguridad del transporte masivo, demostrando el impacto positivo de la ciencia de datos en la mejora de servicios públicos esenciales y la seguridad ciudadana.
  • Item
    Prototipo de herramienta para la mejora en los procesos de designación de PQRSD de la Alcaldía de Bucaramanga
    (Pontificia Universidad Javeriana Cali, 2023) Gómez Bueno, Wilfredo Ariel; Gómez Cárdenas, Edson Andrés; Linares, Diego Luis; Álvarez Vargas, Gloria Inés
    Este proyecto de grado surgió de la identificación de un problema clave en la gestión de las Peticiones, Quejas, Reclamos, Sugerencias y Denuncias (PQRSD) en la Alcaldía de Bucaramanga: cuando una PQRSD se asigna incorrectamente, se producen reprocesos que disminuyen el tiempo para su respuesta y generan incumplimientos. En el peor de los casos, una PQRSD puede incluso perderse administrativamente debido a la rotación del personal. Frente a este escenario, el objetivo principal de nuestro proyecto fue desarrollar una solución que pudiera impactar positivamente la asignación de las PQRSD en la Alcaldía. Para ello, utilizamos diversas técnicas de clasificación para analizar una base de datos de PQRSD compuesta por más de 590.592 registros con baja calidad de datos. El proyecto incluyó varias etapas, desde la extracción, exploración y limpieza de datos, hasta la creación y prueba de una arquitectura de clasificación mixta o híbrida basado en técnicas tradicionales. El modelo propuesto considera el desequilibrio presente en los registros entre las distintas dependencias de la Alcaldía y utiliza herramientas como GridSearchCV para seleccionar y optimizar los hiperparámetros de los clasificadores utilizados como Regresión Logística y ComplementNB en los cuatro (4) componentes de la arquitectura. Los resultados obtenidos, brinda un resultado de 65.1%, lo que sugiere que este enfoque puede ser eficaz para mejorar la gestión de las PQRSD en la Alcaldía de Bucaramanga, minimizando reprocesos, evitando incumplimientos y asegurando una gestión eficaz de las mismas, incluso en el contexto de la rotación del personal.
  • Item
    Aprendizaje automático para recomendar el reemplazo de medidores de agua de una red de distribución
    (Pontificia Universidad Javeriana Cali, 2023) Diaz Vesga, Roy Marnol; Trochez Zambrano, Jesús Alexander; Ramírez Buelvas, Sandra Milena; Troncoso Espinosa, Fredy Humberto
    Aprendizaje automático para recomendar el reemplazo de medidores de agua de una red de Las empresas de servicios sanitarios que suministran agua utilizan medidores especializados y enfrentan un porcentaje de agua no facturada, que es el agua que entra al sistema, pero no se cobra. Las pérdidas pueden ser técnicas (fugas y gastos internos), por micromedición (consumos gratuitos y problemas con los medidores) y por uso irregular (hurtos y conexiones ilegales). En el caso de las pérdidas por micromedición, los medidores descompuestos pueden generar sub-medición (lecturas inferiores al consumo real) o sobre-medición (lecturas superiores). Estos problemas impactan negativamente en las finanzas de la empresa y en la calidad del servicio, generando reclamaciones y afectando la satisfacción del cliente. Este trabajo de grado presenta un método sistemático para abordar el cambio o reemplazo de medidores mecánicos en una empresa de servicios sanitarios en Chile, enfocándose en el problema de pérdidas por micromedición, en particular en predecir problemas de sobre-medición y sub-medición. Se utiliza información de series de consumo mensual de agua y variables relacionadas con la ubicación y características de los medidores. La metodología combina la técnica de simbolización de series de tiempo (SAX), algoritmos de clasificación y análisis de variables geográficas para predecir el estado de los medidores. Se predicen los medidores con consumo normal, sub-medición y sobre-medición. El uso de la técnica de simbolización de series de tiempo (SAX) ayuda a reducir la complejidad de las series de consumo de agua y facilita su comprensión. Los modelos de clasificación evaluados, como KNN, Árbol de Decisión, Random Forest, AdaBoost y XGBoost, demostraron un buen desempeño al utilizar las variables extraídas de las series simbolizadas, la ubicación y algunas características de los medidores. Especialmente, los modelos XGBoost y Random Forest se destacaron por su alta precisión, con una tasa de acierto promedio del 94% y 93%, respectivamente. El modelo XGBoost se utilizó para predecir el estado de los medidores de agua en la región central de Chile. De acuerdo con las predicciones, se estima que aproximadamente el 77.60% de los medidores presentaría un consumo normal, mientras que el 11.35% mostraría sobre-medición y el 11.05% tendría sub-medición. Los resultados obtenidos demuestran la efectividad de las variables extraídas utilizando la técnica SAX en las series de consumos, así como la inclusión de la variable localidad y características de los medidores como inputs en los modelos de clasificación utilizados. Estos resultados destacan el potencial de este enfoque para la toma de decisiones en el ámbito de los servicios de agua, con el objetivo de lograr una gestión más eficiente y precisa de los recursos hídricos en el país.
  • Item
    Análisis de la deforestación en la Amazonía colombiana usando técnicas de aprendizaje automático
    (Pontificia Universidad Javeriana Cali, 2023) León Acosta, Paola Andrea; Otero Martínez, Guillermo Andrés
    Debido al alto impacto de la deforestación en el calentamiento global, el aumento de enfermedades zoonóticas y el riesgo de extinción de la biodiversidad, surge la necesidad de desarrollar nuevos enfoques para la medición y análisis de la deforestación que permitan a los gobiernos tener una mejor compresión de este fenómeno para centrar su atención y recursos a atender esta crisis ambiental en las zonas más vulnerables. Dada esta situación y considerando el amplio uso de los algoritmos de aprendizaje automático para analizar datos complejos como imágenes y textos, este proyecto tuvo como objetivo analizar el comportamiento de la deforestación en la Amazonía colombiana usando diferentes técnicas de aprendizaje automático con imágenes satelitales de Google earth engine, considerando estas metodologías como nuevas propuestas de medición en el análisis de la cobertura forestal. Posteriormente, se evaluaron estos modelos mediante métricas de evaluación, una vez seleccionado el modelo con mejor rendimiento, se identificaron las zonas con deforestación en las imágenes satelitales, y a partir de estos resultados se cuantificó y analizó el incremento de la perdida de bosques en un periodo determinado con el propósito de generar alertas de las zonas más vulnerables, y así brindar una herramienta que se pueda considerar como un insight para la formulación de planes de acción y políticas para la prevención y reforestación.
  • Item
    Modelo de scoring para la detección del lavado de activos
    (Pontificia Universidad Javeriana Cali, 2023) Camargo Martínez, Oscar Javier; García Arboleda, Isabel Cristina
    El lavado de activos es una de las principales fuentes de ingresos de las bandas criminales, que utilizan, entre otras, para financiar los actos terroristas contra la sociedad, aprovecharse de diferentes formas de la población y legalizar dineros que provienen de fuentes ilícitas. En este sentido, las entidades bancarias juegan un papel muy importante para impedir que estos dineros entren al mercado legal; para esto, se han apoyado de diversas metodologías entre las que resalta el método de scoring, en el que se busca asignar una puntuación a cada cliente, con base en sus características, que permita ordenar el riesgo de estar frente a una operación sospechosa. Por consiguiente, este trabajo logró crear un modelo de scoring para la detección del lavado de activos que ayuda a detectar potenciales clientes y poder identificar prontamente operaciones de alerta en el sistema financiero. Se logró no solo generar dicho modelo, sino también definir las variables que tienen un desempeño aceptable dentro del mismo, sus respectivos pesos y los puntos de corte para la segmentación de los clientes. Finalmente, se espera que el modelo sea aplicado dentro de la entidad bancaria en la que desarrolla sus funciones el autor y que sirva como insumo para las investigaciones futuras; también, respecto a los posibles registros de operación sospechosa, se espera que el score funcione para desestimar en la menor medida posible.
  • Item
    Sistema de alertas tempranas para la prevención de la deserción universitaria con el uso de técnicas de machine learning
    (Pontificia Universidad Javeriana Cali, 2023) Ramírez Avendaño, Oscar Andrés; Peñaloza Pérez, Marco Javier; Velandia Feria, Miguel Ernesto; Arango Londoño, David
    La deserción escolar universitaria es un problema global que tiene un impacto negativo en el progreso social y científico de un país o región. Las Instituciones de Educación Superior (IES) tienen la responsabilidad de prevenir e intervenir en esta problemática. En este sentido, este estudio presenta un marco conceptual de la deserción universitaria, basado en investigaciones que abordan tanto enfoques cualitativos como cuantitativos en el uso de la ciencia de datos. A continuación, se realiza un análisis exploratorio descriptivo de los datos de deserción correspondientes a los periodos de 2019A-2022B. Este análisis se enfoca en comprender y examinar el fenómeno de la deserción en la Facultad de Ciencias Básicas e Ingenierías de la Corporación Universitaria del Caribe (Cecar). Finalmente, se entrenaron varios modelos de machine learning, como la regresión logística, las máquinas de soporte vectorial, los bosques aleatorios de decisión y las redes neuronales simples. Estos modelos permiten predecir y emitir alertas sobre los riesgos de deserción en los programas de ingeniería de sistemas e industrial. Este logro se lleva a cabo mediante el desarrollo y despliegue de un modelo a través de una API y una interfaz gráfica que integra el análisis exploratorio y el modelo predictivo. De esta manera, utilizando los datos de entrada, el sistema puede predecir la probabilidad de deserción para nuevos estudiantes, configurando un sistema de alertas tempranas. Este sistema de alertas se convierte en un apoyo crucial para la toma de decisiones, ya que contribuye a la comprensión y mitigación de la deserción universitaria, así como a la promoción de políticas institucionales que buscan la permanencia de los estudiantes.
  • Item
    Detección, georreferenciación y cuantificación de daños en pavimentos flexibles a partir de imágenes, utilizando aprendizaje profundo
    (Pontificia Universidad Javeriana Cali, 2023) Morales Acevedo, Manuel Alejandro; Gil González, Julián; Jiménez Sierra, David Alejandro
    Las técnicas a utilizar para llevar a cabo esta tarea, es el uso de aprendizaje profundo, Visión Artificial para detectar objetos en imágenes. El problema para abordar está orientado a la seguridad vial, teniendo en cuenta la gran cantidad de accidentes relacionados con el mal estado y deterioro de las vías, la finalidad es, que mediante el uso de aprendizaje profundo realizar un diagnóstico del estado de la malla vial, determinar sitios críticos y su respectiva ubicación, definir las áreas prioritarias, para ser utilizando en la determinación del monto de inversión para mantenimiento y rehabilitación de las vías.
  • Item
    Modelo estadístico para posible punto de atención en una entidad financiera
    (Pontificia Universidad Javeriana Cali, 2023) Galindres Bernal, Mabel Carolina; Fernández Bolaños, María Camila; Osorio Sierra, Santiago; Arango Londoño, David
    Para el desarrollo del presente trabajo, se realizó un estudio basado en los datos recolectados de las transacciones efectuadas por clientes empresariales y corporativos durante el primer semestre de 2022 en una entidad financiera de la ciudad de Santiago de Cali. El objetivo de este estudio fue desarrollar un modelo estadístico mediante la generación de indicadores, con el fin de identificar posibles zonas óptimas para abrir un punto de servicio adicional al existente (Oficina de Atención Empresarial), utilizando algún punto de atención asignados para atender a personas naturales. En este sentido, se llevó a cabo un proceso inicial de comprensión y análisis de los datos, seguido de un estudio exploratorio espacial de los datos. Posteriormente, se definier on cinco variables de estudio, a partir de las cuales se generaron imágenes de densidad y raster. Estas imágenes permitieron obtener cuatro indicadores que delimitarían las zonas óptimas. Finalmente, con base al análisis y comparativo de los gráficos de los indicadores, se seleccionó la ubicación del punto de servicio para clientes empresariales mediante la metodología de Análisis de Componentes Principales, generada en el indicador 4. El análisis previo determinó que la Oficina de San Nicolás Cali, situad a en la Cl. 20 #5 49, COMUNA 3, Cali, Valle del Cauca, sería la zona elegida para establecer el posible punto de atención.
  • Item
    Análisis de sentimientos utilizando aprendizaje automático de menciones en twitter para la secretaría de movilidad de Bogotá
    (Pontificia Universidad Javeriana Cali, 2023) Quiñonez Romero, Luis Eduardo; Carbonell García, Luisa Fernanda; Peralta Alean, Andrés Gabriel; Pabón Burbano, María Constanza
    La evolución de la sociedad moderna ha llevado a la instauración de urbes de gran densidad en donde difícilmente se logra mantener un balance entre las zonas de trabajo, estudio y las zonas residenciales, lo que genera desplazamientos considerables para la población media dentro de su ciclo de cotidianidad. La ciudad de Bogotá no es la excepción a estas condiciones, por lo que la Secretaría de Movilidad asume un reto en la implementación de medidas que agilicen el transporte de los ciudadanos. Un desafío subyacente en la implementación de estas medidas es la medición de su efectividad, donde la percepción de los usuarios juega un papel fundamental en la evolución de los planes de movilidad y la identificación de necesidades y ajustes de las iniciativas actuales. En ese sentido las redes sociales operan como compiladores masivos de percepciones sobre la gestión realizada, generando que la Secretaría enfoque esfuerzos de comunicación sobre la red social twitter, queriendo contar con un mecanismo automatizado que permita identificar las tendencias en cuanto a las percepciones de los usuarios. Para tal fin se pretende desarrollar un análisis de sentimientos con un modelo de clasificación de aprendizaje supervisado, el cual permita, mediante una aplicación en línea usando uno o varios modelos entrenados, identificar y clasificar conjuntos de tweets.
  • Item
    Uso de técnicas de machine learning para la predicción de las tasas de desempleo y ocupación en tres ciudades de Colombia: Cali, Medellín y Popayán
    (Pontificia Universidad Javeriana Cali, 2023) Cerón Ordoñez, Julieth Stefens; Trujillo, Emerson; Arango Londoño, David; Sierra, Lya Paola
    En los últimos dos años, la economía regional en Colombia ha sufrido choques económicos y sociales sin precedentes debido a la pandemia del Covid19 y el paro nacional. En consecuencia, las técnicas econométricas tradicionales de pronóstico del mercado laboral pueden resultar inadecuadas o insuficientes para capturar las nuevas condiciones y tendencias macroeconómicas. Este proyecto aplicado combina variables del mercado laboral, búsquedas en Google Trends y el Indicador Mensual de Actividad Económica (IMAE) como variable macroeconómica, para estimar un indicador del mercado laboral en tres ciudades en Colombia: Cali, Medellín y Popayán utilizando técnicas de Machine Learning. Con el uso de Máquinas de Soporte Vectorial para Regresión y Redes Neuronales se pronosticaron las tasas de desempleo y ocupación laboral para anticipar los datos oficiales proporcionados por el Departamento Administrativo Nacional de Estadística (DANE) en 1 mes. Los resultados de este estudio muestran que los errores de pronóstico de los modelos propuestos son bajos, que la previsión mejora con relación al modelo de referencia tradicional ARIMA y que las estimaciones se adaptan rápidamente a los cambios estructurales en el mercado laboral regional.
  • Item
    Implementación de un modelo de riesgo de crédito para el otorgamiento y la renovación ágil de microcréditos para mipymes aplicando técnicas de machine learning
    (Pontificia Universidad Javeriana Cali, 2023) Díaz Arboleda, Julian Ernesto; Gonzalez Rivera, Jorge; Rodríguez Vivas, Miguel Eduardo; Girón Cruz, Luis Eduardo
    El riesgo de crédito para las micro, pequeñas y medianas empresas (MiPymes) en Colombia representa un desafío significativo para las entidades financieras y las propias empresas, ya que un mal manejo de la concesión de créditos puede generar incumplimientos y pérdidas económicas considerables. En su mayoría, las instituciones financiadoras recurren a modelos de evaluación de riesgo basados en métodos tradicionales basados en la consulta en centrales de riesgo, en donde en gran proporción las MiPymes pueden no estar registradas o peor aún, estar mal calificadas por incumplimientos pasados o falta de historial crediticio, generándose así una autoexclusión de las MiPymes en el sistema financiero. La Fundación Santo Domingo (FSD) y su Dirección de Financiamiento y Desarrollo Empresarial, ofrecen servicios financieros y no financieros para apoyar el desarrollo empresarial y la creación de empleo en Colombia. Su objetivo principal es fomentar la inclusión financiera y el acceso al crédito para MiPymes en el país. Como alternativa a los modelos tradicionales de valoración del riesgo de crédito hoy en día son cada vez más utilizados aquellos que incorporan el procesamiento de los datos con técnicas de Machine Learning (ML), bajo este contexto, en el presente proyecto se presenta la implementación de un modelo de riesgo de crédito basado en técnicas de ML para la FSD, que le permita la concesión y renovación de microcréditos a MiPymes del departamento de Atlántico y Bolivar. Para lograr este objetivo, el proyecto incorpora la revisión del estado del arte relacionado con el problema, la caracterización y análisis de los datos históricos de préstamos, la limpieza y preparación de los datos, la selección de características relevantes, la reducción de la dimensionalidad y la implementación del algoritmo de ML para crear el modelo predictivo. Se espera que la implementación de este modelo permita a la FDS tomar decisiones de préstamo más precisas y efectivas, lo que a su vez puede aumentar la tasa de aprobación de préstamos y reducirá la tasa de incumplimiento de pagos.
  • Item
    Modelo de clusterización de municipios en Colombia a partir de la integración, visualización y análisis de fuentes de datos
    (Pontificia Universidad Javeriana Cali, 2023) Henao Aguirre, Juan Sebastián; Ortega Lenis, Delia
    Este proyecto aborda el problema de la falta integración entre distintas fuentes y tipos de datos, para caracterizar de forma eficiente los municipios en Colombia. Lo que incluye desarrollar un análisis de clusterización de los municipios a partir de las fuentes de información con modelos no supervisados. En este sentido, el objetivo principal de este proyecto es desarrollar un modelo de clusterización a partir de la integración y visualización de distintos tipos y fuentes de datos disponibles para la caracterización de los municipios en Colombia. Desarrollar este tipo de soluciones es un recurso valioso para distintos actores o grupos (como investigadores, funcionarios públicos, entidades territoriales, organizaciones internacionales, etc.) que constantemente demandan este tipo de información, y que no la obtienen y terminan, entre otras cosas, destinando más tiempo del deseable para buscar y consultar la información requerida. Afrontar un problema de este estilo, requirió del desarrollo e implementación de diferentes herramientas de la ciencia de datos como: creación e integración e fuentes de datos a través de un software de visualización como Power BI y entrenar diversos algoritmos para realizar un análisis de clústeres