Maestría en Ciencia de Datos
Permanent URI for this collection
Browse
Browsing Maestría en Ciencia de Datos by Author "Arango Londoño, David"
Now showing 1 - 20 of 20
Results Per Page
Sort Options
Item Análisis de factores y alerta temprana del riesgo de violencia basada en género en Colombia(Pontificia Universidad Javeriana Cali, 2023) Barrera Barrera, David Samuel; Poveda Aguirre, Eliana Liney; Arango Londoño, DavidLa violencia física, psicológica, sexual y económica contra las mujeres hacen parte de las distintas formas de violencia basada en género (VBG). En consecuencia, con el presente proyecto se creó, tentativamente, un modelo de aprendizaje no supervisado que permitió identificar los determinantes que inciden en la VBG y, con ello, visibilizar el uso de herramientas de machine learning para la comprensión de este fenómeno a nivel nacional. Conocer dónde se concentra, por qué, y en qué casos se incrementa la violencia de pareja y sexual es relevante para la prevención y, en particular, para la planificación de los recursos y servicios institucionales implicados en la lucha contra la VBG, especialmente de intervención temprana.Item Análisis descriptivo y predictivo para la vigilancia de los casos de dengue grave en la ciudad de Cali(Pontificia Universidad Javeriana de Cali, 2023) Mena Ríos, Andrés Mauricio; Hurtado Murillo, Faber Esteban; Sánchez Andrade, Jefferson; Arango Londoño, DavidEste proyecto de ciencia de datos desarrolla un modelo predictivo que permite estimar la cantidad de casos de dengue grave que ocurren en un determinado momento en la ciudad de Cali. Para eso, se realiza un análisis de la dinámica de la enfermedad, considerando aspectos como la temporalidad, la incidencia geográfica y algunas variables sociodemográficas; además, se construyen modelos predictivos basados en cuatro algoritmos de Machine Learning, el uso de fuentes de datos informales, y la incorporación de una variable novedosa como predictor. La primera parte del proyecto se enfoca en análisis descriptivos del dengue grave en Cali, a partir del procesamiento de los registros históricos oficiales, con el propósito de comprender patrones y tendencias de la enfermedad e identificar factores relacionados con su incidencia. La segunda sección del proyecto gira alrededor de la determinación del mejor modelo para predecir la cantidad de casos de dengue en Cali, haciendo uso de una variedad de recursos de la ciencia de datos para la construcción, evaluación y análisis de los candidatos.Item Aplicación de ciencia de datos para proyección de saldos de productos de captaciones en entidad bancaria(Pontificia Universidad Javeriana de Cali, 2023) León Gil, Carlos Alberto; Pinzón Cortés, Mauricio; Arango Londoño, DavidLos datos son el insumo principal de un proyecto de ciencia de datos y a su vez hoy día son el activo más importante que se tiene en cualquier sector. Los resultados de la aplicación de técnicas de ciencia de datos para obtener valor y conocimiento, permiten la mejora continua en el proceso de toma de decisiones generando valor a nivel del negocio. Actualmente en el entorno financiero, se hace necesario hacer uso de la información para la toma de decisiones de una manera más eficiente y oportuna, no solo por buenas prácticas o temas de moda sino por supervivencia. En este sentido tener la mayor cantidad de información para la toma de decisiones hace que los modelos predictivos tengan bastante relevancia. Actualmente no se tiene definido un modelo de predicción de saldos de productos de captaciones para cuentas de ahorros y cuentas corrientes, el cual se hace necesario para poder generar estrategias en pro del mantenimiento o aumento de los saldos, con el fin de garantizar que exista el capital para realizar colocaciones y aumentar la utilidad neta del negocio.Item Aplicaciones de machine learning para la predicción de rendimientos y gestión de un portafolio de activos financieros en la BVC(Pontificia Universidad Javeriana Cali, 2023) Gómez Bravo, Juan Pablo; Suárez Mensa, Lizeth Fernanda; Quiñones Losada, Katherin Juliana; Arango Londoño, DavidLa teoría de portafolio se desarrolla en un ambiente de incertidumbre, es decir los inversionistas no conocen con certeza el resultado que puede obtenerse al realizar una inversión diversificada, por ende, este trabajo busca gestionar el riesgo de pérdida, mitigando la posibilidad de obtener rendimientos inferiores a los esperados, por lo anterior se realizó la estimación de volatilidad de cada uno de los activos que componen COLCAP, cotizados en la Bolsa de Valores de Colombia (BVC), mediante varias metodologías tradicionales y de Machine Learning buscando el mejor desempeño de dicha estimación, una vez obtenidos los resultados más eficientes por cada activo, se realizan múltiples comparaciones para determinar las covarianzas de los portafolios factibles. Para dar solución a la problemática, se hizo uso de un área fundamental del Machine Learning (Aprendizaje Automático) como lo es la predicción de series temporales, ya que contiene componentes de volatilidad, tendencia, etc. intrínsecas a su comportamiento. Una serie de observaciones tomadas cronológicamente en el tiempo se conoce como Serie de Tiempo. Se trabajarán con series de tiempo financieras a partir de las acciones más importantes de la BVC, con el objetivo de optimizar portafolios de inversión, que puedan resultar como solución a grandes inconvenientes que involucran cuantificar, medir e inclusive controlar el riesgo ante la exposición de inversión. Una vez obtenidos los resultados de pronóstico, mediante el Modelo de Markowitz, (independientemente de los activos seleccionados), se obtiene la distribución ideal de la inversión o distribución eficiente bajo mínimo riesgo de pérdida. Adicionalmente el inversionista cuenta con la posibilidad de calcular una frontera eficiente, fruto de asignar rendimientos mayores que el rendimiento obtenido para el portafolio de mínimo riesgo, así como la información de su Rendimiento, Varianza y VaR del portafolio. Finalmente, mediante Power BI, el inversionista podrá contar con el comportamiento de las tendencias de volatilidad de los activos de renta variable analizados en este trabajo, la posibilidad de elegir hasta un máximo de 5 activos de su interés y obtener la distribución eficiente de su inversión, así como la información referente a su portafolio mencionada previamente.Item Construcción de un modelo para predecir ventas de unidades nuevas de vivienda en Cali por medio de técnicas de aprendizaje estadístico(Pontificia Universidad Javeriana Cali, 2024) Mora García, Jorge Hernán; Conde Chavarro, Leidy Lorena; Arango Londoño, DavidEl proyecto tiene como objetivo mejorar la precisión en la predicción de las transacciones de vivienda nueva en el futuro. Actualmente, la determinación de estas transacciones se basa en encuestas y sondeos de percepción de mercado, lo que limita la captura de información completa y actualizada sobre la situación real del mercado y la conducta de los posibles compradores. El proyecto consiste en la construcción de un modelo que utilice información secundaria para predecir las ventas de unidades nuevas de vivienda en el área del Distrito de Cali. Esta información secundaria incluye análisis de tendencias en Google Trends y variables macroeconómicas relevantes, como la inflación, el desempleo, las tasas de interés e indicadores agregados de percepción del consumidor y de desempeño de la economía. El enfoque se basa en técnicas de modelación estadística y métodos de aprendizaje automático supervisados, considerando que todos los datos son series temporales. El modelo realizado proporcionó un método eficaz para obtener predicciones tanto en el volumen como en la tendencia de venta de nuevas unidades de vivienda, respaldando así la toma de decisiones de política. Al utilizar técnicas de aprendizaje estadístico, se logró una mejor comprensión de los factores que influyen en las ventas de viviendas nuevas y, por lo tanto, se mejoró la capacidad de predecir las transacciones futuras. La modelación elaborada permite una planificación más eficiente de los recursos y una mejor comprensión de las dinámicas del mercado de viviendas nuevas en Cali. El proyecto propuso un modelo predictivo con técnicas de aprendizaje estadístico y datos secundarios que predice las ventas de unidades de viviendas nuevas en Cali, proporcionando así información más actualizada y precisa para respaldar la toma de decisiones en el sector de la construcción y servicios públicos, mejorando así la planificación y la comprensión del mercado.Item Estimación del precio de renta en predios rurales mediante modelación espacial en Colombia.(Pontificia Universidad Javariana Cali, 2024) Salgado Ramírez, Carlos Andrés; Arango Londoño, David; Bohórquez, Martha PatriciaLa Sociedad de Activos Especiales (SAE), que administra predios en extinción de dominio, actualmente está en el proceso de otorgar sus predios a diversas instituciones y comunidades para contribuir tanto a la soberanía alimentaria, como a otros sectores sociales del país. Para lograr esto, se deben establecer precios de renta justos y transparentes. Los métodos existentes para estimar la renta en predios rurales no han sido implementados hasta ahora en el país. Este proyecto desarrolla un modelo basado en técnicas de aprendizaje supervisado usando machine learning para estimar la renta de predios rurales en Colombia. El modelo incorpora la dependencia espacial, lo que permite una comprensión más profunda de las variaciones en los precios de renta. Este proyecto representa una oportunidad de innovación para la estimación de la renta en predios rurales y contribuye significativamente a la seguridad y soberanía alimentaria del país.Item Evaluación del efecto de la pandemia sobre la deforestación en Colombia por medio de imágenes de satélite y usando los datos de Terra-i(Pontificia Universidad Javeriana Cali, 2024) Anduquia Ramos, Manuel Andrés; Garcés Sevillano, Jesús Alberto; Arango Londoño, DavidEl objetivo de este proyecto fue evaluar el impacto que la pandemia del COVID-19 tuvo en los niveles de deforestación en Colombia. Se emplearon técnicas de ciencia de datos, que incluyeron modelos estadísticos mixtos y aprendizaje supervisado de máquinas, para analizar grandes volúmenes de datos provenientes de imágenes satelitales de la plataforma Terra-i, la cual monitorea la deforestación. Además, se utilizaron modelos estadísticos para comprender las relaciones y los factores que contribuyeron a la deforestación en áreas específicas identificadas. Estos modelos permitieron identificar patrones y tendencias, incluyendo factores específicos que pudieron haber influido durante la pandemia, buscando contribuir a la toma de decisiones informadas y a la formulación de estrategias más efectivas para la conservación y el manejo forestal en Colombia.Item Laguna(Pontificia Universidad Javeriana Cali, 2024) García Cifuentes, Santiago; Arango Londoño, DavidLos chatbot son un modelo de interacción persona-computadora, es decir, es un programa informático diseñado para simular una conversación con usuarios humanos y esto es lo que TuChat ofrece a sus clientes. Sin embargo, sus clientes necesitan utilizar la información que es recolectada por medio de los chatbots para perfeccionar la estrategia comercial. De esta manera, este proyecto propuesto explora con uno de los clientes de TuChat que se llama Las Ricuras de Sebastian y aprovechando la información obtenida a través de los chatbots, logra organizar el flujo de los datos de la organización donde realizando un análisis exploratorio, limpieza y consolidación de las bases de datos, se logra obtener información más precisa y coherente. La identificación de horarios de alta y baja demanda a lo largo del día se realiza para optimizar la oferta de productos y promociones. Además, se implementan modelos avanzados, incluyendo geocodificación para ubicar geográficamente a los clientes, análisis de sentimiento para evaluar la satisfacción del cliente y un modelo ARIMA para pronosticar las ventas futuras. La visualización y acceso a los datos se facilita mediante Google Cloud y Looker Studio, culminando en la presentación de un tablero de control integral. Esta herramienta proporciona a Las Ricuras de Sebastian una representación visual clara de diversos indicadores clave, incluyendo resultados generales, análisis temporal y georeferenciación, permitiendo la toma de decisiones informadas y la mejora continua de las operaciones comerciales.Item Modelo analítico para la predicción de default en el servicio de crédito en una caja de compensación familiar en Antioquia(Pontificia Universidad Javeriana Cali, 2023) Cruz Valencia, Hermilso; Morales Firaya, Michael Steven; Tunjuelo Martínez, Hernán Alberto; Arango Londoño, DavidEl presente trabajo aplica para la caja de compensación familiar COMFENALCO ANTIOQUIA. Actualmente la empresa se encuentra en un proceso de transformación y ha firmado un contrato con una empresa para actualizar el software administrativo de crédito. Dentro del alcance de este proyecto no se encuentra contratado el motor de decisión. Actualmente se utiliza un modelo Scoring de crédito de elaboración propia en Excel. Este fue construido con macros avanzados y en su interior contiene un algoritmo de modelo Logit y las reglas de negocio del reglamento de crédito. Con ello se calcula la probabilidad de incumplimiento y el cumplimiento de los indicadores de riesgo para tomar la decisión de aprobar, aplazar o negar la solicitud de crédito. Con el objetivo de actualizar el modelo Logit e integrarlo en el nuevo software y con base a una data histórica de créditos, se propuso un modelo base de regresión logística que permita predecir el riesgo de default en función de las covariables que se consideren importantes de acuerdo a un proceso adecuado. Además, se compara el rendimiento estadístico con modelos más avanzados como XGBoost, Árbol de decisión, Bosque Aleatorio.Item Modelo de analítica de datos para apoyar la cobertura del aseguramiento en salud en el departamento de Cundinamarca(Pontificia Universidad Javeriana Cali, 2023) Dorado Daza, Derian Jesús; Arango Londoño, DavidEste trabajo aborda una problemática que con frecuencia se presenta en el procedimiento de Seguimiento a la Base de Datos del Aseguramiento en salud en el Departamento de Cundinamarca, que trata con la identificación de relaciones que no son evidentes por métodos tradicionales de análisis, entre distintas variables que caracterizan a los afiliados a los regímenes Subsidiado y Contributivo con el propósito de mejorar la toma de decisiones frente a la cobertura del aseguramiento y acceso a los servicios de salud. Plantea el diseño e implementación de un modelo de analítica de datos para mejorar la comprensión de estas relaciones recurriendo a conceptos y técnicas propias de la Ciencia de Datos.Item Modelo de predicción de precipitación acumulada para un departamento de Colombia por medio de la implementación de redes neuronales recurrentes (LSTM) e integración de datos satelitales(Pontificia Universidad Javariana Cali, 2024) Gómez Sepúlveda, Jorge Iván; Lafaurie Suárez, Jonathan Andrés; María Camila, Mendoza García; Arango Londoño, DavidEste proyecto se enfoca en la predicción de la precipitación acumulada en el departamento del Valle del Cauca en Colombia, catalogada como una región que está altamente influenciada por factores climáticos variables dada su geografía y la ocurrencia de fenómenos temporales como “La Niña” o “El Niño”, los cuales generan cambios en los niveles de precipitación y afectan significativamente diversos sectores como la agricultura, la ganadería, el transporte y la economía en general. Dado esto, se desarrolla un modelo predictivo que hace uso de redes neuronales recurrentes (LSTM), a partir de información de precipitación observada (medidas terrestres) y satelital. Este enfoque, permite superar los limitantes de otros métodos convencionales de series de tiempo y, de esta forma, mejorar la precisión y el rendimiento de los modelos actuales. Los objetivos específicos en este proyecto incluyen factores como la selección del departamento más idóneo para la investigación, el análisis temporal y espacial de la base de datos empleada para el estudio, la instauración y evaluación del modelo LSTM y la comparación con otros modelos tradicionales de series de tiempo. Todo esto, está encaminado para el desarrollo de un modelo de predicción que logre estimaciones de la precipitación semanal acumulada. El proyecto, tiene como valor agregado la integración de información satelital por medio del procesamiento de imágenes satelitales y su potencial, radica en su aplicación en futuras investigaciones que puedan convertirla en un recurso valioso para diferentes agentes y autoridades relacionadas con el clima y la meteorología. Además, se aspira a que pueda escalarse hacia otras regiones del país, contribuyendo al manejo adecuado de recursos y la planificación meteorológicaItem Modelo de predicción de precipitación acumulada para un departamento de Colombia por medio de la implementación de redes neuronales recurrentes (LSTM) e integración de datos satelitales.(Pontificia Universidad Javariana Cali, 2024) Mendoza García, María Camila; Lafaurie Suárez, Jonathan Andrés; Gómez Sepúlveda, Jorge Iván; Arango Londoño, DavidEste proyecto se enfoca en la predicción de la precipitación acumulada en el departamento del Valle del Cauca en Colombia, catalogada como una región que está altamente influenciada por factores climáticos variables dada su geografía y la ocurrencia de fenómenos temporales como “La Niña” o “El Niño”, los cuales generan cambios en los niveles de precipitación y afectan significativamente diversos sectores como la agricultura, la ganadería, el transporte y la economía en general. Dado esto, se desarrolla un modelo predictivo que hace uso de redes neuronales recurrentes (LSTM), a partir de información de precipitación observada (medidas terrestres) y satelital. Este enfoque, permite superar los limitantes de otros métodos convencionales de series de tiempo y, de esta forma, mejorar la precisión y el rendimiento de los modelos actuales. Los objetivos específicos en este proyecto incluyen factores como la selección del departamento más idóneo para la investigación, el análisis temporal y espacial de la base de datos empleada para el estudio, la instauración y evaluación del modelo LSTM y la comparación con otros modelos tradicionales de series de tiempo. Todo esto, está encaminado para el desarrollo de un modelo de predicción que logre estimaciones de la precipitación semanal acumulada. El proyecto, tiene como valor agregado la integración de información satelital por medio del procesamiento de imágenes satelitales y su potencial, radica en su aplicación en futuras investigaciones que puedan convertirla en un recurso valioso para diferentes agentes y autoridades relacionadas con el clima y la meteorología. Además, se aspira a que pueda escalarse hacia otras regiones del país, contribuyendo al manejo adecuado de recursos y la planificación meteorológica.Item Modelo estadístico para posible punto de atención en una entidad financiera(Pontificia Universidad Javeriana Cali, 2023) Galindres Bernal, Mabel Carolina; Fernández Bolaños, María Camila; Osorio Sierra, Santiago; Arango Londoño, DavidPara el desarrollo del presente trabajo, se realizó un estudio basado en los datos recolectados de las transacciones efectuadas por clientes empresariales y corporativos durante el primer semestre de 2022 en una entidad financiera de la ciudad de Santiago de Cali. El objetivo de este estudio fue desarrollar un modelo estadístico mediante la generación de indicadores, con el fin de identificar posibles zonas óptimas para abrir un punto de servicio adicional al existente (Oficina de Atención Empresarial), utilizando algún punto de atención asignados para atender a personas naturales. En este sentido, se llevó a cabo un proceso inicial de comprensión y análisis de los datos, seguido de un estudio exploratorio espacial de los datos. Posteriormente, se definier on cinco variables de estudio, a partir de las cuales se generaron imágenes de densidad y raster. Estas imágenes permitieron obtener cuatro indicadores que delimitarían las zonas óptimas. Finalmente, con base al análisis y comparativo de los gráficos de los indicadores, se seleccionó la ubicación del punto de servicio para clientes empresariales mediante la metodología de Análisis de Componentes Principales, generada en el indicador 4. El análisis previo determinó que la Oficina de San Nicolás Cali, situad a en la Cl. 20 #5 49, COMUNA 3, Cali, Valle del Cauca, sería la zona elegida para establecer el posible punto de atención.Item Modelo predictivo para la identificación de la enfermedad producida por la plaga Heilipus Lauri en el cultivo de aguacate Hass en Colombia, por medio del procesamiento y clasificación de imágenes con aplicación de técnicas de Machine Learning(Pontificia Universidad Javeriana Cali, 2024) Carvajal Jaramillo, Karen Andrea; Castro Collazos, Mauricio; Riveros Pulgarín, Ramón Siddartha; Arango Londoño, DavidLas enfermedades causadas por el insecto-plaga Heilipus Lauri son una de las principales causantes de los daños en los cultivos de aguacate Hass, adicionalmente reducen la calidad de los cultivos al generar problemas fitosanitarios que dificultan alcanzar el potencial exportador de este producto. Por lo cual, el presente proyecto plantea entrenar y evaluar un algoritmo de clasificación de imágenes con el uso de técnicas de aprendizaje automático, con el uso de un banco de imágenes recolectadas por Agrosavia, para la construcción de una herramienta que pueda ser usada por los pequeños y medianos productores de este fruto, que sirva para el control y monitoreo del daño causado por estas plagas. Además, se espera que este proyecto sirva como marco de referencia para futuras investigaciones en el sector agropecuario y académico en el ámbito de procesamiento y clasificación de imágenes.Item Predicción de tasa de interés y su relación con los indicadores económicos mediante Ciencia de Datos(Pontificia Universidad Javariana Cali, 2024) Meza Pastrana, Sebastián Javier; Arango Londoño, DavidEl presente proyecto aborda la predicción de la Tasa de Intervención de Política Monetaria en Colombia, una variable crucial para la estabilidad macroeconómica y la toma de decisiones en política económica. Dada la relevancia de esta tasa para regular la liquidez, influir en las decisiones de inversión y financiamiento, y estabilizar los precios, se exploraron enfoques avanzados de predicción mediante modelos de Machine Learning, contrastándolos con un modelo econométrico tradicional de regresión lineal múltiple. La problemática identificada radica en las limitaciones de los enfoques econométricos lineales para capturar relaciones no lineales y manejar conjuntos de datos de alta dimensionalidad. Con base en esta problemática, el proyecto tuvo como objetivos principales identificar las variables macroeconómicas más relevantes, evaluar la precisión de diferentes algoritmos de Machine Learning (Ridge, Lasso, Random Forest, XGBoost y SVR) y comparar su desempeño con el modelo econométrico. Los resultados evidenciaron que los modelos de Machine Learning, en particular XGBoost y Random Forest, lograron un mejor desempeño predictivo con errores promedio más bajos (MSE de 0.11 y 0.16, respectivamente) y mayor capacidad explicativa (R² superior a 0.97 en prueba). Por otro lado, el modelo econométrico, aunque respaldado por fundamentos teóricos sólidos, se quedó corto en precisión y capacidad para capturar patrones complejos, presentando autocorrelación y heterocedasticidad en los residuos. Además, se implementaron herramientas como SHAP para mejorar la interpretabilidad de los modelos avanzados, identificando las variables macroeconómicas más influyentes en las predicciones. Este análisis integral no solo subraya la relevancia de la tasa de política monetaria para la estabilidad económica, sino que también demuestra la importancia de integrar métodos avanzados para lograr predicciones precisas y proporcionar herramientas útiles para la toma de decisiones en entornos de alta incertidumbre. Las aplicaciones de este trabajo incluyen el fortalecimiento de la planificación financiera y el diseño de políticas públicas más informadas, así como la mejora en la gestión de riesgos económicos en sectores como el financiero y el empresarial. Los hallazgos refuerzan la necesidad de métodos modernos en el análisis de variables clave para enfrentar los retos dinámicos de las economías modernasItem Pronóstico de disponibilidad de los recursos de generación de la central TermoGuajira a partir de modelos de aprendizaje automático(Pontificia Universidad Javeriana Cali, 2024) Martínez Miranda, Keyner; Arango Londoño, DavidEl Centro Nacional de Despacho (CND) ha identi ficado restricciones eléctricas en la subárea GCM del sistema eléctrico colombiano, lo cual ha llevado a declarar un estado de emergencia desde abril de 2022. En el estado actual del sistema eléctrico, la disponibilidad de los recursos de generación internos en esta subárea es crucial para garantizar la seguridad y confiabilidad del sistema eléctrico, ya que su ausencia puede desencadenar eventos no deseados y afectar a los usuarios finales. Por lo tanto, el objetivo de este proyecto es desarrollar un modelo a través de técnicas de aprendizaje automático, con el fin de implementar medidas preventivas y estrategias de contingencia que minimicen el riesgo de indisponibilidades no programadas y aseguren el suministro eléctrico confiable. El proyecto seguirá pasos metodológicos, como el análisis exploratorio de datos, el desarrollo del modelo de machine learning y la validación de las predicciones generadasItem Reconstrucción de series climáticas por medio de la combinación de datos de estaciones climáticas en tierra e imágenes satelitales dentro del territorio colombiano aplicando métodos estadísticos y de aprendizaje automático(Pontificia Universidad Javeriana Cali, 2024) Castro Suárez, Raúl Fernando; Ochoa Sánchez, Edwin Alexander; Villalba Acevedo, Juan Carlos; Arango Londoño, DavidEl proyecto tiene como objetivo principal aplicar técnicas de ciencia de datos y aprendizaje automático para la reconstrucción de series climáticas en Colombia, enfocándose en la precipitación como la variable a analizar. La problemática abordada se relaciona con la falta de datos completos y la presencia de valores faltantes en las series climáticas, lo cual dificulta su análisis y modelado. La zona de estudio del proyecto corresponde al departamento del Valle del Cauca, donde se cuenta con datos provenientes de 58 estaciones meteorológicas y datos satelitales para los mismos puntos. Las etapas abordadas son la comprensión de los datos y el estado del arte, la comprensión de los datos que incluye la recopilación de estos y el análisis exploratorio de los datos, la selección de modelos y evaluación de los resultados de estos.Item Sistema de alertas tempranas para la prevención de la deserción universitaria con el uso de técnicas de machine learning(Pontificia Universidad Javeriana Cali, 2023) Ramírez Avendaño, Oscar Andrés; Peñaloza Pérez, Marco Javier; Velandia Feria, Miguel Ernesto; Arango Londoño, DavidLa deserción escolar universitaria es un problema global que tiene un impacto negativo en el progreso social y científico de un país o región. Las Instituciones de Educación Superior (IES) tienen la responsabilidad de prevenir e intervenir en esta problemática. En este sentido, este estudio presenta un marco conceptual de la deserción universitaria, basado en investigaciones que abordan tanto enfoques cualitativos como cuantitativos en el uso de la ciencia de datos. A continuación, se realiza un análisis exploratorio descriptivo de los datos de deserción correspondientes a los periodos de 2019A-2022B. Este análisis se enfoca en comprender y examinar el fenómeno de la deserción en la Facultad de Ciencias Básicas e Ingenierías de la Corporación Universitaria del Caribe (Cecar). Finalmente, se entrenaron varios modelos de machine learning, como la regresión logística, las máquinas de soporte vectorial, los bosques aleatorios de decisión y las redes neuronales simples. Estos modelos permiten predecir y emitir alertas sobre los riesgos de deserción en los programas de ingeniería de sistemas e industrial. Este logro se lleva a cabo mediante el desarrollo y despliegue de un modelo a través de una API y una interfaz gráfica que integra el análisis exploratorio y el modelo predictivo. De esta manera, utilizando los datos de entrada, el sistema puede predecir la probabilidad de deserción para nuevos estudiantes, configurando un sistema de alertas tempranas. Este sistema de alertas se convierte en un apoyo crucial para la toma de decisiones, ya que contribuye a la comprensión y mitigación de la deserción universitaria, así como a la promoción de políticas institucionales que buscan la permanencia de los estudiantes.Item Sistema de análisis y predicción del crimen “precrimen”(Pontificia Universidad Javeriana Cali, 2024) Medina Salcedo, Daniel Lorenzo; Arango Londoño, DavidEl proyecto presenta una solución innovadora para abordar la criminalidad. Utilizando técnicas avanzadas de ciencia de datos, se procesan datos espaciales y hechos delictivos, buscando mejorar la seguridad ciudadana mediante la predicción de la cantidad de eventos delictivos y la implementación de estrategias preventivas. El objetivo principal del proyecto es construir una herramienta tecnológica que permita predecir la posible comisión de delitos. Los objetivos específicos incluyen la identificación, clasificación y visualización de datos conectando fuentes abiertas y oficiales que disponen de información sobre delitos, la construcción de un modelo predictivo y la apropiación de conocimientos prácticos en gestión de datos, clasificación, visualización y modelos de predicciónItem Uso de técnicas de machine learning para la predicción de las tasas de desempleo y ocupación en tres ciudades de Colombia: Cali, Medellín y Popayán(Pontificia Universidad Javeriana Cali, 2023) Cerón Ordoñez, Julieth Stefens; Trujillo, Emerson; Arango Londoño, David; Sierra, Lya PaolaEn los últimos dos años, la economía regional en Colombia ha sufrido choques económicos y sociales sin precedentes debido a la pandemia del Covid19 y el paro nacional. En consecuencia, las técnicas econométricas tradicionales de pronóstico del mercado laboral pueden resultar inadecuadas o insuficientes para capturar las nuevas condiciones y tendencias macroeconómicas. Este proyecto aplicado combina variables del mercado laboral, búsquedas en Google Trends y el Indicador Mensual de Actividad Económica (IMAE) como variable macroeconómica, para estimar un indicador del mercado laboral en tres ciudades en Colombia: Cali, Medellín y Popayán utilizando técnicas de Machine Learning. Con el uso de Máquinas de Soporte Vectorial para Regresión y Redes Neuronales se pronosticaron las tasas de desempleo y ocupación laboral para anticipar los datos oficiales proporcionados por el Departamento Administrativo Nacional de Estadística (DANE) en 1 mes. Los resultados de este estudio muestran que los errores de pronóstico de los modelos propuestos son bajos, que la previsión mejora con relación al modelo de referencia tradicional ARIMA y que las estimaciones se adaptan rápidamente a los cambios estructurales en el mercado laboral regional.