Maestría en Ciencia de Datos
Permanent URI for this collection
Browse
Browsing Maestría en Ciencia de Datos by Issue Date
Now showing 1 - 20 of 142
Results Per Page
Sort Options
Item Cuantificación del parásito Leishmania en imágenes de microscopio mediante técnicas de aprendizaje automático(Pontificia Universidad Javeriana Cali, 2022) Díaz Cuesta, Yeffer Edilberto; Pinedo De la Hoz, David Enrique; Álvarez Vargas, Gloria InésLa Leishmaniasis, causada por el parásito protozoo Leishmania spp., es una de las siete enfermedades tropicales más importantes a nivel mundial, según la Organización Mundial de la Salud (OMS) [1]. Esta enfermedad, que puede ser fatal para los humanos, tiene una alta prevalencia en varios países, afectando especialmente a las poblaciones vulnerables. En la actualidad, los procesos de conteo manual del microorganismo son desgastantes, demorados y, en ocasiones, ineficaces debido al porcentaje de error humano. Además, estos procesos pueden afectar la salud de las personas que los realizan, debido a las largas horas que deben pasar frente a la luz directa del microscopio. En este orden de ideas, se desarrolla el presente trabajo de grado, adscrito al grupo de investigación DESTINO y al proyecto con código 2576 de la Universidad Pontificia Javeriana de Cali, titulado: "Aplicación de técnicas de aprendizaje automático a la predicción del desenlace terapéutico de la leishmaniasis cutánea". El objetivo principal de este trabajo fue crear un modelo de aprendizaje automático, basado en técnicas de ciencia de datos, que permite identificar y cuantificar la presencia de Leishmania spp. en imágenes de microscopio. Para lograr este objetivo, se consolidó una base de datos con imágenes que sirvieron para entrenar el modelo en la caracterización del parásito. Se procesaron los datos de las imágenes para obtener información relevante y se aplicaron distintas técnicas de aprendizaje automático para cuantificar la carga parasitaria. Finalmente, se evaluó y seleccionó el modelo que presentó el mejor rendimiento con relación al alcance inicialmente propuesto. Se espera que este proyecto impulse la aplicación de la herramienta en diferentes espacios del sector de la salud y áreas académicas, en particular, en laboratorios donde se quiera incrementar la eficiencia y rapidez en los diagnósticos de presencia del parásito protozoo Leishmania. De este modo, se buscó automatizar el proceso de conteo del parásito, utilizando únicamente como insumo la imagen capturada por un microscopio al observar los microorganismos presentes en los portaobjetos.Item Análisis de factores y alerta temprana del riesgo de violencia basada en género en Colombia(Pontificia Universidad Javeriana Cali, 2023) Barrera Barrera, David Samuel; Poveda Aguirre, Eliana Liney; Arango Londoño, DavidLa violencia física, psicológica, sexual y económica contra las mujeres hacen parte de las distintas formas de violencia basada en género (VBG). En consecuencia, con el presente proyecto se creó, tentativamente, un modelo de aprendizaje no supervisado que permitió identificar los determinantes que inciden en la VBG y, con ello, visibilizar el uso de herramientas de machine learning para la comprensión de este fenómeno a nivel nacional. Conocer dónde se concentra, por qué, y en qué casos se incrementa la violencia de pareja y sexual es relevante para la prevención y, en particular, para la planificación de los recursos y servicios institucionales implicados en la lucha contra la VBG, especialmente de intervención temprana.Item Implementación de un modelo de riesgo de crédito para el otorgamiento y la renovación ágil de microcréditos para mipymes aplicando técnicas de machine learning(Pontificia Universidad Javeriana Cali, 2023) Díaz Arboleda, Julian Ernesto; González Rivera, Jorge; Rodríguez Vivas, Miguel Eduardo; Girón Cruz, Luis EduardoEl riesgo de crédito para las micro, pequeñas y medianas empresas (MiPymes) en Colombia representa un desafío significativo para las entidades financieras y las propias empresas, ya que un mal manejo de la concesión de créditos puede generar incumplimientos y pérdidas económicas considerables. En su mayoría, las instituciones financiadoras recurren a modelos de evaluación de riesgo basados en métodos tradicionales basados en la consulta en centrales de riesgo, en donde en gran proporción las MiPymes pueden no estar registradas o peor aún, estar mal calificadas por incumplimientos pasados o falta de historial crediticio, generándose así una autoexclusión de las MiPymes en el sistema financiero. La Fundación Santo Domingo (FSD) y su Dirección de Financiamiento y Desarrollo Empresarial, ofrecen servicios financieros y no financieros para apoyar el desarrollo empresarial y la creación de empleo en Colombia. Su objetivo principal es fomentar la inclusión financiera y el acceso al crédito para MiPymes en el país. Como alternativa a los modelos tradicionales de valoración del riesgo de crédito hoy en día son cada vez más utilizados aquellos que incorporan el procesamiento de los datos con técnicas de Machine Learning (ML), bajo este contexto, en el presente proyecto se presenta la implementación de un modelo de riesgo de crédito basado en técnicas de ML para la FSD, que le permita la concesión y renovación de microcréditos a MiPymes del departamento de Atlántico y Bolivar. Para lograr este objetivo, el proyecto incorpora la revisión del estado del arte relacionado con el problema, la caracterización y análisis de los datos históricos de préstamos, la limpieza y preparación de los datos, la selección de características relevantes, la reducción de la dimensionalidad y la implementación del algoritmo de ML para crear el modelo predictivo. Se espera que la implementación de este modelo permita a la FDS tomar decisiones de préstamo más precisas y efectivas, lo que a su vez puede aumentar la tasa de aprobación de préstamos y reducirá la tasa de incumplimiento de pagos.Item Sistema empresarial para la gestión y análisis de datos de sostenibilidad en organizaciones Mineras(Pontificia Universidad Javeriana de Cali, 2023) Fernández Ebrath, Bryan Josser; Ramírez Mantilla, Jhon Enrique; Ortega Lucero, Andrés Felipe; Sierra Galvis, Martín Vladimir AlonsoEl monitoreo del flujo de datos generado por la comercialización diaria de oro y otros minerales por parte de los grupos mineros artesanales y de pequeña escala - MAPE, con énfasis en su conexión con el mercado formal, ha sido una prioridad clave para la Alianza por la Minería Responsable (AMR). No obstante, el manejo de grandes volúmenes de datos y su constante dinamismo ha dificultado el seguimiento en tiempo real, la toma oportuna de decisiones y la generación de observaciones que permitan la definición ágil de planes de acción. En consecuencia, el uso de técnicas de gestión efectiva de datos y la aplicación de inteligencia artificial para el análisis automatizado han despertado un gran interés en la AMR. Estas técnicas permiten identificar grupos mineros en situación de riesgo, asegurando su acceso a cadenas de comercialización con precios más competitivos y su vinculación efectiva al mercado. En una primera etapa, se llevó a cabo un análisis exploratorio de los datos disponibles para la AMR, con el objetivo de identificar las técnicas más apropiadas para la predicción y clasificación, así como definir un modelo de datos adecuado para su gestión. Posteriormente, se implementaron y validaron técnicas de inteligencia artificial, con el fin de seleccionar la que mejor se ajustara al modelo de datos proporcionado. Por último, se propuso el desarrollo de un prototipo de aplicación web, que brindara al equipo técnico de la AMR acceso en cualquier momento a los datos y la capacidad de gestionar los planes de acción de acuerdo con los indicadores establecidos. A pesar del volumen considerable de datos, las aplicaciones de la ciencia de datos en el sector minero aún están en discusión, existiendo un vacío evidente en términos de buenas prácticas y métodos de predicción, entre otros aspectos. Como resultado, este proyecto no solo generó aplicaciones prácticas para la AMR, sino que también sentó para la organización, las bases para futuras investigaciones y aplicaciones en el campo de la ciencia de datos.Item Clasificación de pacientes con Leishmaniasis basado en mutaciones genéticas por polimorfismo de nucleótido único (SNP) usando técnicas de Machine Learning(Pontificia Universidad Javeriana de Cali, 2023) Gómez Vasco, Carlos Andrés; Álvarez Vargas, Gloria Inés; Linares Ospina, Diego LuisLa leishmaniasis es una enfermedad tropical transmitida mediante la picadura de insectos que son los vectores de la enfermedad. Se considera una endemia en más de 88 países de diferentes geografías. Las tasas reales de incidencia son sustancialmente altas y con una alta prevalencia en países de América Latina. Aunque existen diferentes tratamientos terapéuticos, son muy complicados para los pacientes y suelen ser bastante tóxicos para otros órganos del cuerpo, y, en general, tienen altos índices porcentuales de fallo, es decir, cumplido el tratamiento los pacientes no se recuperan. Actualmente no existe una herramienta clínica que le permita a un médico tratante determinar la probabilidad a priori de que un tratamiento sea efectivo. Por el contrario, de manera indiscriminada se aplica a los pacientes las terapias bajo la premisa del ensayo y error. En este proyecto aplicado, se realiza un estudio basado en mutaciones genéticas producidas por polimorfismo de nucleótido único (SNP) a un conjunto de setenta y dos (72) pacientes tratados con las técnicas terapéuticas existentes. A estos pacientes se les realizó una secuenciación genética consiguiendo 618,872 SNPs para cada uno y la información clínica del grupo étnico, así como la respuesta al tratamiento después de aplicado, etiquetado como cura o falla. Esta información es suficiente para generar un dataset que fue analizado mediante GWAS (Estudio de asociación de genoma completo) consiguiendo tres datasets denominados COMPLETO, AFRODESCENDIENTES y NO-AFRODESCENDIENTES con 41, 14 y 36 SNPs correspondientemente. Mediante técnicas de reducción de dimensionalidad, como el análisis de componentes principales (PCA), eliminación recursiva de características y regresión LASSO, se reduce el número de variables a aquellas mutaciones genéticas más relevantes para la respuesta inmune al tratamiento consiguiendo 69 subconjuntos de características. Mediante técnicas de aprendizaje automático se construyen 483 clasificadores basados en algoritmos de Regresión Lineal (RL), Stochastic Gradient Descent (SGD), Support Vector Machine (SVM), Decision Tree (DT), Random Forest (RF), Boosting (BT) y Gradient Boosting (GB) de los 69 subconjuntos, para clasificar con precisión las mutaciones genéticas relacionadas con la respuesta inmune al tratamiento terapéutico contra la leishmaniasis. Se utilizaron métricas de evaluación, como accuracy, precision, recall y F1 score para medir el rendimiento de los clasificadores. Estas métricas proporcionaron una visión detallada de la capacidad de los modelos para identificar correctamente las mutaciones relevantes. Después de la evaluación inicial de los 683 experimentos, se realizó la optimización de los hiperparámetros de los modelos mediante una búsqueda por cuadrícula explorando diferentes combinaciones y configuraciones, lo que permitió refinar los modelos y nuevamente estimar su desempeño permitiendo evaluar y comparar los resultados antes y después de la optimización, confirmando la mejora significativa en la capacidad de los clasificadores para identificar con precisión las mutaciones genéticas relacionadas con la respuesta inmune al tratamiento terapéutico contra la leishmaniasis. Al final, se consiguió una selección de 22 SNPs ubicados en genes con funciones biológicas altamente relacionadas con movimiento, transcripción, estructura y transporte celular, así como el transporte de metales, respuesta inmune y cicatrización. Evidenciando que las técnicas aplicadas son eficientes en la identificación de biomarcadores asociados con la respuesta al tratamiento contra la leishmaniasis.Item Sistema de alertas tempranas para la prevención de la deserción universitaria con el uso de técnicas de machine learning(Pontificia Universidad Javeriana Cali, 2023) Ramírez Avendaño, Oscar Andrés; Peñaloza Pérez, Marco Javier; Velandia Feria, Miguel Ernesto; Arango Londoño, DavidLa deserción escolar universitaria es un problema global que tiene un impacto negativo en el progreso social y científico de un país o región. Las Instituciones de Educación Superior (IES) tienen la responsabilidad de prevenir e intervenir en esta problemática. En este sentido, este estudio presenta un marco conceptual de la deserción universitaria, basado en investigaciones que abordan tanto enfoques cualitativos como cuantitativos en el uso de la ciencia de datos. A continuación, se realiza un análisis exploratorio descriptivo de los datos de deserción correspondientes a los periodos de 2019A-2022B. Este análisis se enfoca en comprender y examinar el fenómeno de la deserción en la Facultad de Ciencias Básicas e Ingenierías de la Corporación Universitaria del Caribe (Cecar). Finalmente, se entrenaron varios modelos de machine learning, como la regresión logística, las máquinas de soporte vectorial, los bosques aleatorios de decisión y las redes neuronales simples. Estos modelos permiten predecir y emitir alertas sobre los riesgos de deserción en los programas de ingeniería de sistemas e industrial. Este logro se lleva a cabo mediante el desarrollo y despliegue de un modelo a través de una API y una interfaz gráfica que integra el análisis exploratorio y el modelo predictivo. De esta manera, utilizando los datos de entrada, el sistema puede predecir la probabilidad de deserción para nuevos estudiantes, configurando un sistema de alertas tempranas. Este sistema de alertas se convierte en un apoyo crucial para la toma de decisiones, ya que contribuye a la comprensión y mitigación de la deserción universitaria, así como a la promoción de políticas institucionales que buscan la permanencia de los estudiantes.Item Predicción del desenlace terapéutico para leishmaniasis cutánea combinando información metabolómica y SNPs(Pontificia Universidad Javeriana Cali, 2023) Mejía Patiño, Juan Pablo; Linares Ospina, Diego Luis ; Gómez, María AdelaidaLa Leishmaniasis cutánea es una enfermedad presente en múltiples regiones tropicales del mundo, afectando a diversos grupos poblaciones y territorios. América Latina es uno de estos territorios, con la presencia de 15 de sus variedades. Esta enfermedad parasitaria afecta a grupos poblacionales vulnerables que requieren de un tratamiento especializado. Sin embargo, este tratamiento no siempre es exitoso y sus efectos colaterales son, en algunos casos, severos. Teniendo en cuenta esto, es importante contar con herramientas que permitan determinar con un grado alto de confianza el desenlace terapéutico de estos pacientes. Con este objetivo, el presente proyecto busca brindar una predicción sobre el desenlace del tratamiento para la Leishmaniasis Cutánea con un alto grado de confianza, utilizando dos fuentes de datos. Una de información metabolómica y otra de mutaciones genéticas conocidas como “SINGLE NUCLEOTIDE POLYMORPHISMS (SNPs)”,junto con técnicas de aprendizaje automático clásicas. Con base en proyectos del grupo DESTINO como antecedentes, se realizaron 18 experimentos aplicando 3 técnicas de aprendizaje supervisado. De estos, 9 experimentos resultaron en 9 clasificadores base, 6 con cada uno de los conjuntos de datos ya mencionados, y adicionalmente 3 con un nuevo conjunto de datos, originado de la intersección de muestras entre las dos fuentes de datos. Posteriormente, se evalúa su desempeño con métricas como “Accuracy”, “Precision”, “Recall” y “F1 Score”. A partir de esto, se realiza un afinamiento de hiperparámetros de estos clasificadores, usando una técnica de grilla y de nuevo se analizan los resultados con las métricas antes mencionadas. También se experimenta con una técnica de ensamble en cascada, como segunda mecánica para realizar la predicción del tratamiento contra la leishmaniasis. Esto se realiza utilizando los 2 mejores clasificadores que resultan de la fase de afinamiento de modelos. Al finalizar, se obtuvo que un clasificador que mezcla como entradas 7 SNPs, por parte del conjunto de datos de mutaciones genéticas, y 3 metabolitos del conjunto de datos de información metabolómica, obtiene un desempeño superior a los clasificadores con conjuntos de datos separados. Así mismo, el método de ensamble resultó en clasificaciones con un alto nivel de confiabilidad. Esto evidencia, que, combinando fuentes de información diferente bajo dos mecánicas distintas, es posible obtener una herramienta clínica para predecir el desenlace del tratamiento contra la leishmaniasis cutánea.Item Construcción de un modelo que permita identificar fallas en generadores de centrales hidroeléctricas(Pontificia Universidad Javeriana Cali, 2023) Rodríguez Amaya, Adrián; Pérez Aponte, David Andrés; Pabón, María ConstanzaLas indisponibilidades no planeadas en la generación eléctrica representan multas para las empresas generadoras de energía, por parte del administrador del mercado mayorista; el modelo propuesto permitirá identificar, predecir fallas en generadoras de centrales hidroeléctricas, y ayudar a los ingenieros de operación a programar mantenimientos proactivos. En el presente trabajo se analizaron las variables involucradas en un conjunto de datos descargados del SCADA de la operación de las unidades de generación, seleccionando los atributos más relevantes para la construcción de un modelo que identificó posibles fallas en los generadores eléctricos de una central hidroeléctrica, este conocimiento se aplicó en el contexto local para beneficio de la industria con el fin de reducir el impacto económico causado por las fallas, mediante el uso de la ciencia de datos.Item Análisis descriptivo y predictivo para la vigilancia de los casos de dengue grave en la ciudad de Cali(Pontificia Universidad Javeriana de Cali, 2023) Mena Ríos, Andrés Mauricio; Hurtado Murillo, Faber Esteban; Sánchez Andrade, Jefferson; Arango Londoño, DavidEste proyecto de ciencia de datos desarrolla un modelo predictivo que permite estimar la cantidad de casos de dengue grave que ocurren en un determinado momento en la ciudad de Cali. Para eso, se realiza un análisis de la dinámica de la enfermedad, considerando aspectos como la temporalidad, la incidencia geográfica y algunas variables sociodemográficas; además, se construyen modelos predictivos basados en cuatro algoritmos de Machine Learning, el uso de fuentes de datos informales, y la incorporación de una variable novedosa como predictor. La primera parte del proyecto se enfoca en análisis descriptivos del dengue grave en Cali, a partir del procesamiento de los registros históricos oficiales, con el propósito de comprender patrones y tendencias de la enfermedad e identificar factores relacionados con su incidencia. La segunda sección del proyecto gira alrededor de la determinación del mejor modelo para predecir la cantidad de casos de dengue en Cali, haciendo uso de una variedad de recursos de la ciencia de datos para la construcción, evaluación y análisis de los candidatos.Item Uso de técnicas de machine learning para la predicción de las tasas de desempleo y ocupación en tres ciudades de Colombia: Cali, Medellín y Popayán(Pontificia Universidad Javeriana Cali, 2023) Cerón Ordóñez, Julieth Stefens; Trujillo, Emerson; Arango Londoño, David; Sierra Suárez, Lya PaolaEn los últimos dos años, la economía regional en Colombia ha sufrido choques económicos y sociales sin precedentes debido a la pandemia del Covid19 y el paro nacional. En consecuencia, las técnicas econométricas tradicionales de pronóstico del mercado laboral pueden resultar inadecuadas o insuficientes para capturar las nuevas condiciones y tendencias macroeconómicas. Este proyecto aplicado combina variables del mercado laboral, búsquedas en Google Trends y el Indicador Mensual de Actividad Económica (IMAE) como variable macroeconómica, para estimar un indicador del mercado laboral en tres ciudades en Colombia: Cali, Medellín y Popayán utilizando técnicas de Machine Learning. Con el uso de Máquinas de Soporte Vectorial para Regresión y Redes Neuronales se pronosticaron las tasas de desempleo y ocupación laboral para anticipar los datos oficiales proporcionados por el Departamento Administrativo Nacional de Estadística (DANE) en 1 mes. Los resultados de este estudio muestran que los errores de pronóstico de los modelos propuestos son bajos, que la previsión mejora con relación al modelo de referencia tradicional ARIMA y que las estimaciones se adaptan rápidamente a los cambios estructurales en el mercado laboral regional.Item Aprendizaje automático aplicado al diagnóstico de la ocurrencia de la leishmaniasis a través de imágenes de lesiones cutáneas(Pontificia Universidad Javeriana Cali, 2023) Castro Duarte, Camilo; Linares Ospina, Diego Luis; Gómez, María AdelaidaEste proyecto buscó aplicar técnicas de aprendizaje automático específicamente Redes Neuronales Convolucionales, para predecir si una lesión de tipo cutánea corresponde o no a la enfermedad de la Leishmaniasis, evaluación que no resulta tan simple mediante observación debido a la similitud con otros tipos de lesiones, para ello, se entrenaron modelos predictivos mediante una base de datos con 885 imágenes de lesiones cutáneas (407 correspondientes a Leishmaniasis y 478 correspondientes a otras lesiones cutáneas), las imágenes de Leishmaniasis fueron suministradas por el CIDEIM (Centro Internacional de Entrenamiento e Investigaciones Médicas). Durante el desarrollo del proyecto se trabajaron diferentes etapas como es el caso de la limpieza y adecuación de la base de datos de imágenes, selección y entrenamiento de los modelos, contraste de resultados y la identificación del modelo más adecuado. Los resultados arrojados por los diferentes experimentos y sus respectivas métricas permitieron establecer cuál es el modelo más adecuado para hacer la predicción, de esta forma es posible hacer un diagnóstico previo de la lesión del paciente sin siquiera estar este de cuerpo presente, también permite ayudar a personal de la salud que no tiene tanta experiencia en este tipo de lesiones a despejar dudas y tomar medidas. De esta forma se le da paso a diferentes posibilidades de aplicación del algoritmo desarrollado dentro del campo médico, como es el caso de integraciones futuras con aplicativos móviles o desarrollos web, esto puede facilitar el análisis de las lesiones de los pacientes de manera remota y de una forma ágil.Item Automatización de la detección y diagnóstico de leishmaniasis por medio de la identifi cación de parásitos en imágenes de placas de laboratorio(Pontificia Universidad Javeriana Cali, 2023) Cardozo Aricapa, Daniel Fernando; Álvarez Vargas, Gloria InésLa leishmaniasis es una enfermedad causada por más de 20 especies del género Leishmania un protozoo parasito. Esta enfermedad se transmite por la picadura de flebótomos hembra infectados, que necesitan ingerir sangre para producir huevos. A nivel mundial, se encuentra entre las diez enfermedades tropicales desatendidas con más de 12 millones de personas infectadas con 0,9 a 1,6 millones de nuevos casos al año y entre 20.000 a 30.000 defunciones. En la actualidad, las estrategias de prevención y control disponibles para el manejo de la leishmaniasis son limitadas, por lo cual se requiere de herramientas efectivas para el diagnóstico temprano y tratamiento adecuado. Es por esto por lo que nuestro objetivo es desarrollar un modelo automatizado capaz de realizar la identificación del parasito y diagnóstico de Leishmaniasis usando imágenes de placas de laboratorio en pacientes con sospecha clínica de la enfermedad. Para estos proponemos utilizar diferentes algoritmos de clasificación que nos permitan realizar la detección de parásitos de Leishmania por medio de la extracción de características, creación de imágenes integrales y clasificación. Como resultados esperados se espera contar con un modelo diagnostico adecuado basado en placas de laboratorio que permita realizar el diagnostico de forma oportuna y accesible capaz de funcionar de forma eficiente en cualquier área que lo requiera. Finalmente, esta tecnología será una herramienta fundamental para la salud publica en áreas endémicas en pro de disminuir la morbimortalidad de la enfermedad.Item Sistema empresarial inteligente para la clasificación de residuos(Pontificia Universidad Javeriana Cali, 2023) Cantor, Elkin Leonardo; Morales Cadavid, Santiago; Correa, Leidy Johana; Vargas Cardona, Hernán Darío; Torres Valencia, Cristian AlejandroExiste evidencia de que en Colombia se producen 24,8 millones de toneladas de residuos al año, de los cuales el 47% provienen de los hogares con una generación per cápita de 515 kilogramos y a su vez la tasa de reciclaje, que se refiere a la proporción de material reciclado sobre la generación total de residuos sólidos, es cercana al 12% en el año 2019, siendo esta una cifra muy baja comparada con la de otros países como Alemania donde llega al 68%. Por medio de este proyecto se buscó realizar un modelo de aprendizaje automático que a través del reconocimiento de imágenes permitiera en el ámbito empresarial realizar una correcta clasificación de residuos en las diferentes canecas del punto ecológico, así como la recolección de información que permita calcular diversos indicadores a nivel individual y de empresa, proporcionando información clave para el desarrollo de futuras campañas de impacto ambiental y buscando diversos mecanismos y estrategias que promuevan el uso de esta herramienta y nos convierta en un aliado estratégico del medio ambiente. Asimismo, por medio del desarrollo de este proyecto, se obtuvo un dataset que permitió crear algoritmos robustos que contribuyen al correcto entrenamiento del modelo de clasificación de residuos, este modelo se desarrolló en lenguaje Python, empleando algoritmos de Deep Learning, especialmente haciendo uso de redes neuronales convolucionales que permitieron la construcción de un prototipo o diseño (mockup) de una aplicación móvil donde a futuro se podrá desplegar el modelo realizado.Item Modelo de analítica de datos para apoyar la cobertura del aseguramiento en salud en el departamento de Cundinamarca(Pontificia Universidad Javeriana Cali, 2023) Dorado Daza, Derian Jesús; Arango Londoño, DavidEste trabajo aborda una problemática que con frecuencia se presenta en el procedimiento de Seguimiento a la Base de Datos del Aseguramiento en salud en el Departamento de Cundinamarca, que trata con la identificación de relaciones que no son evidentes por métodos tradicionales de análisis, entre distintas variables que caracterizan a los afiliados a los regímenes Subsidiado y Contributivo con el propósito de mejorar la toma de decisiones frente a la cobertura del aseguramiento y acceso a los servicios de salud. Plantea el diseño e implementación de un modelo de analítica de datos para mejorar la comprensión de estas relaciones recurriendo a conceptos y técnicas propias de la Ciencia de Datos.Item Análisis de sentimientos utilizando aprendizaje automático de menciones en twitter para la secretaría de movilidad de Bogotá(Pontificia Universidad Javeriana Cali, 2023) Quiñonez Romero, Luis Eduardo; Carbonell García, Luisa Fernanda; Peralta Alean, Andrés Gabriel; Pabón Burbano, María ConstanzaLa evolución de la sociedad moderna ha llevado a la instauración de urbes de gran densidad en donde difícilmente se logra mantener un balance entre las zonas de trabajo, estudio y las zonas residenciales, lo que genera desplazamientos considerables para la población media dentro de su ciclo de cotidianidad. La ciudad de Bogotá no es la excepción a estas condiciones, por lo que la Secretaría de Movilidad asume un reto en la implementación de medidas que agilicen el transporte de los ciudadanos. Un desafío subyacente en la implementación de estas medidas es la medición de su efectividad, donde la percepción de los usuarios juega un papel fundamental en la evolución de los planes de movilidad y la identificación de necesidades y ajustes de las iniciativas actuales. En ese sentido las redes sociales operan como compiladores masivos de percepciones sobre la gestión realizada, generando que la Secretaría enfoque esfuerzos de comunicación sobre la red social twitter, queriendo contar con un mecanismo automatizado que permita identificar las tendencias en cuanto a las percepciones de los usuarios. Para tal fin se pretende desarrollar un análisis de sentimientos con un modelo de clasificación de aprendizaje supervisado, el cual permita, mediante una aplicación en línea usando uno o varios modelos entrenados, identificar y clasificar conjuntos de tweets.Item Generación de visuales y analíticas a partir de datos obtenidos por un RPA en empresa del sector educativo(Pontificia Universidad Javeriana Cali, 2023) Gaviria Moncayo, Jeison Esteban; Giraldo Mena, Luisa Fernanda; Martínez Arias, Juan CarlosPara una compañía cuyo foco es ofrecer educación virtual a bajo costo y de alta calidad, uno de sus mayores retos es lograr conocer el comportamiento de sus usuarios mediante visuales y analíticas que permitan tomar decisiones en pro de su crecimiento. Actualmente, el principal problema se basa en la obtención de los datos, ya que se realiza de manera manual y puede generar errores en la descarga. Además, requiere de recursos humanos dedicados a esta tarea, incrementando los gastos de la compañía a medida que el volumen de datos aumenta. Por este motivo se desarrolló un robot que permite automatizar la descarga de datos para su posterior análisis y visualización. Para ello, inicialmente se realizó una búsqueda de literatura acerca de trabajos relacionados que sirvieron de guía para el desarrollo del proyecto. Posteriormente, se definieron las herramientas a utilizar y su debida documentación. Después, se dio inicio al desarrollo del robot y se realizaron pruebas de funcionamiento con data real. Para finalizar, se desarrollaron visualizaciones y analíticas a partir de los datos obtenidos que permitieron cumplir con el objetivo del proyecto.Item Análisis de la deforestación en la Amazonía colombiana usando técnicas de aprendizaje automático(Pontificia Universidad Javeriana Cali, 2023) León Acosta, Paola Andrea; Otero Martínez, Guillermo AndrésDebido al alto impacto de la deforestación en el calentamiento global, el aumento de enfermedades zoonóticas y el riesgo de extinción de la biodiversidad, surge la necesidad de desarrollar nuevos enfoques para la medición y análisis de la deforestación que permitan a los gobiernos tener una mejor compresión de este fenómeno para centrar su atención y recursos a atender esta crisis ambiental en las zonas más vulnerables. Dada esta situación y considerando el amplio uso de los algoritmos de aprendizaje automático para analizar datos complejos como imágenes y textos, este proyecto tuvo como objetivo analizar el comportamiento de la deforestación en la Amazonía colombiana usando diferentes técnicas de aprendizaje automático con imágenes satelitales de Google earth engine, considerando estas metodologías como nuevas propuestas de medición en el análisis de la cobertura forestal. Posteriormente, se evaluaron estos modelos mediante métricas de evaluación, una vez seleccionado el modelo con mejor rendimiento, se identificaron las zonas con deforestación en las imágenes satelitales, y a partir de estos resultados se cuantificó y analizó el incremento de la perdida de bosques en un periodo determinado con el propósito de generar alertas de las zonas más vulnerables, y así brindar una herramienta que se pueda considerar como un insight para la formulación de planes de acción y políticas para la prevención y reforestación.Item Aplicación de ciencia de datos para proyección de saldos de productos de captaciones en entidad bancaria(Pontificia Universidad Javeriana de Cali, 2023) León Gil, Carlos Alberto; Pinzón Cortés, Mauricio; Arango Londoño, DavidLos datos son el insumo principal de un proyecto de ciencia de datos y a su vez hoy día son el activo más importante que se tiene en cualquier sector. Los resultados de la aplicación de técnicas de ciencia de datos para obtener valor y conocimiento, permiten la mejora continua en el proceso de toma de decisiones generando valor a nivel del negocio. Actualmente en el entorno financiero, se hace necesario hacer uso de la información para la toma de decisiones de una manera más eficiente y oportuna, no solo por buenas prácticas o temas de moda sino por supervivencia. En este sentido tener la mayor cantidad de información para la toma de decisiones hace que los modelos predictivos tengan bastante relevancia. Actualmente no se tiene definido un modelo de predicción de saldos de productos de captaciones para cuentas de ahorros y cuentas corrientes, el cual se hace necesario para poder generar estrategias en pro del mantenimiento o aumento de los saldos, con el fin de garantizar que exista el capital para realizar colocaciones y aumentar la utilidad neta del negocio.Item Desarrollo de modelo para predicción de ventas B2B en empresa del sector agroindustrial(Pontificia Universidad Javeriana de Cali, 2023) Giacometto Cheij, Antonio; Fajardo Macías, Antonio José; Castaño Mejía, Wilmer; González Gómez, Daniel EnriqueEl trabajo presentado corresponde al desarrollo de un modelo de aprendizaje automático para predecir la probabilidad de conversión en venta de las cotizaciones recibidas en una empresa del sector agroindustrial colombiano. Los diferentes modelos probados, fueron entrenados utilizando un dataset consolidado con los datos históricos de ventas de la organización y algunas fuentes externas; La preparación de este dataset involucró diferentes etapas de limpieza, mejoramiento de datos y pre procesamiento, las cuales permitieron además de alimentar los modelos de predicción probados, desarrollar un modelo de agrupamiento que permitió identificar perfiles de clientes de acuerdo a algunas de sus principales características basados en la información de cotizaciones. Como complemento fue desarrollada una herramienta de visualización para el monitoreo y control de indicadores claves de desempeño dentro del área comercial.Item Detección, georreferenciación y cuantificación de daños en pavimentos flexibles a partir de imágenes, utilizando aprendizaje profundo(Pontificia Universidad Javeriana Cali, 2023) Morales Acevedo, Manuel Alejandro; Gil González, Julián; Jiménez Sierra, David AlejandroLas técnicas a utilizar para llevar a cabo esta tarea, es el uso de aprendizaje profundo, Visión Artificial para detectar objetos en imágenes. El problema para abordar está orientado a la seguridad vial, teniendo en cuenta la gran cantidad de accidentes relacionados con el mal estado y deterioro de las vías, la finalidad es, que mediante el uso de aprendizaje profundo realizar un diagnóstico del estado de la malla vial, determinar sitios críticos y su respectiva ubicación, definir las áreas prioritarias, para ser utilizando en la determinación del monto de inversión para mantenimiento y rehabilitación de las vías.