Browsing by Subject "Clustering"
Now showing 1 - 5 of 5
Results Per Page
Sort Options
Item Análisis de clusterización de clientes alertados por posibles operaciones sospechosas en bancolombia(Pontificia Universidad Javeriana Cali, 2024) Ospina Martínez, Ximena; Mariaca Rueda, Cristian David; Cano Cadavid, Andrés FelipeEn la Vicepresidencia de Cumplimiento en Bancolombia cada mes se generan alertas de clientes con posibles operaciones sospechosas, identificadas a partir de modelos analíticos detectivos. El crecimiento del negocio y aumento de la cobertura de tipologías ha derivado en un aumento de alertas, saturando la capacidad de análisis del área de Investigación, lo que impide generar una respuesta oportuna para mitigar el riesgo de Lavado de Activos y Financiación del Terrorismo (LAFT). Por el aumento de alertas, se han implementado algunos métodos de agrupación que emplean procedimientos intuitivos y requieren aproximadamente tres días hábiles para su ejecución. Para el área de Investigación es útil este proyecto, ya que se centra en buscar la mejora de los procesos de evaluación impactando dos aspectos relevantes a la hora de identificar riesgos LAFT: capacidad y tiempo oportuno de evaluación de las alertas. El objetivo principal del trabajo es implementar modelos de clusterización a partir de técnicas de aprendizaje de máquina para agrupar a los clientes alertados según características de riesgo LAFT que estos representan para el Banco. Además, se busca identificar las variables más relevantes e influyentes en el riesgo LAFT de un cliente alertado. Se espera obtener un modelo de agrupamiento para clientes con posibles operaciones sospechosas en Bancolombia, tener claras las variables, características y patrones que tienen los clientes alertados por operaciones sospechosas, para ser tenidas en cuenta en los monitoreos del Banco, y de esta forma, aportar a que el indicador de oportunidad en el tiempo de respuesta de las alertas sea optimo.Item Desarrollo de un modelo de aprendizaje automático no supervisado para seleccionar noticias relevantes(Pontificia Universidad Javeriana Cali, 2024) Hernández Saavedra, Juan Camilo; Linares Ospina, Diego Luis; Álvarez Vargas, Gloria InésLa forma en que las personas se informan ha evolucionado constantemente con la proliferación de la tecnología. La mayoría de todos los medios de comunicación han abandonado parcialmente sus formatos físicos para adaptarse al mundo digital, más precisamente al entorno web. Este cambio ha llevado a un gran aumento en el número de lectores, generando beneficios tanto a los noticieros como a los lectores. Uno de los tantos beneficios que podemos encontrar es la facilidad y la rapidez con la que la información es llevada a los lectores, permitiéndoles acceder a las noticias en el lugar y momento que quieran con solo hacer un par de clics. Aunque inicialmente los beneficios eran evidentes, con el tiempo surgieron desafíos que han afectado a los medios de comunicación que publican noticias en formato web. Entre los problemas más comunes podemos encontrar la combinación de noticias irrelevantes con noticias relevantes para el lector, lo cual puede influir en el pensamiento e interés que ellos reciben durante sucesos importantes, teniendo en cuenta que las noticias, al tener una gran influencia en la percepción y toma de decisiones en la población, son una parte fundamental de la sociedad. En este trabajo se presentó una solución haciendo uso de modelos de aprendizaje automático no supervisado, representación de textos haciendo uso de técnicas del procesamiento del lenguaje natural, junto con una estrategia que consiste en obtener noticias de varios portales web de noticias. Si una noticia aparece dentro de varios portales, es considerada relevante. Esto se logra gracias a los modelos de representación de textos que permiten extraer el sentido y contexto de un titular, para posteriormente ser agrupados haciendo uso de modelos de clustering. Por último, estos modelos de clustering son ajustados haciendo uso de búsqueda de hiperparámetros, permitiendo obtener su mayor precisión posible. Finalmente, se logró construir dos modelos de clustering que, haciendo uso de modelos, representación de texto, técnicas de procesamiento del lenguaje natural y búsqueda de hiperparámetros para ajustar al máximo su precisión, son capaces de discernir qué noticias son relevantes de un grupo de noticias. Para demostrar el funcionamiento, se diseñó un pequeño prototipo de portal web de noticias, que contiene estos modelos de clustering en funcionamiento.Item Detección de anomalías en datos meteorológicos mediante métodos de análisis avanzados(Pontificia Universidad Javariana Cali, 2025) Mena Ramírez, Yamuna Devi; Buss Molina, Antal AlexanderDada la creciente incidencia de fenómenos climáticos, como ciclones, sequías e intensas lluvias, anticipar y estudiar los cambios en las condiciones atmosféricas se ha convertido en una prioridad para países como Colombia, que cuentan con amplias áreas costeras. Estos eventos representan no solo un riesgo significativo para el medio ambiente y la seguridad, sino que también exigen un entendimiento profundo de las dinámicas atmosféricas. Las series de tiempo meteorológicas son herramientas clave en este contexto, ya que permiten el monitoreo continuo de variables climáticas, como la temperatura, la presión, la humedad y la precipitación, facilitando la identificación y estudio de patrones y anomalías que podrían anticipar eventos climáticos. En este contexto, se abordaron las limitaciones actuales en la detección de anomalías en los datos meteorológicos de la Dirección General Marítima en Colombia, siguiendo la metodología CRoss Industry Standard Process for Data Mining (CRISP-DM). Se propuso un enfoque híbrido que combina un algoritmo estadístico diseñado para la detección de anomalías naturalmente imposibles relacionadas con sensores, con un método más robusto que permite detectar días completos como eventos anómalos, en el que se seleccionaron las series multivariadas mediante un análisis de correlación, donde se identificaron las variables que presentaban mayor interdependencia. Luego, se aplicó el clustering utilizando los algoritmos K-means y DBSCAN, con enfoques tanto locales como globales. Los mejores resultados de evaluación se obtuvieron con el enfoque global aplicado a la serie multivariada que incluye temperatura del aire y humedad relativa, mostrando un puntaje de silueta de 0.67 y un índice de Davies Bouldin 0.54 para DBSCAN.Item Modelo de analítica de datos para apoyar la cobertura del aseguramiento en salud en el departamento de Cundinamarca(Pontificia Universidad Javeriana Cali, 2023) Dorado Daza, Derian Jesús; Arango Londoño, DavidEste trabajo aborda una problemática que con frecuencia se presenta en el procedimiento de Seguimiento a la Base de Datos del Aseguramiento en salud en el Departamento de Cundinamarca, que trata con la identificación de relaciones que no son evidentes por métodos tradicionales de análisis, entre distintas variables que caracterizan a los afiliados a los regímenes Subsidiado y Contributivo con el propósito de mejorar la toma de decisiones frente a la cobertura del aseguramiento y acceso a los servicios de salud. Plantea el diseño e implementación de un modelo de analítica de datos para mejorar la comprensión de estas relaciones recurriendo a conceptos y técnicas propias de la Ciencia de Datos.Item Técnicas de clustering aplicadas en un conjunto metabolitos perteneciente a pacientes de Leishmaniasis cutánea para predecir la efectividad del tratamiento glucantime a través de modelos de aprendizaje automático clásicos(Pontificia Universidad Javeriana Cali, 2023) Luna Mejía, Juan Pablo; Sadeghian Perskie, Naim Samuel; Linares Ospina, Diego Luis ; Álvarez Vargas, Gloria InésLos medicamentos usados para el tratamiento de la leishmaniasis pueden ser tóxicos y detrimentales para la salud. Peor aún, estos tratamientos no prometen curar al paciente en todos los casos. Para evitar recetar estos tratamientos a pacientes a quienes no van a recibir beneficios, se han hecho varios estudios [4][7] para tratar de predecir, por medio de muestras de metabolitos en la sangre, en qué pacientes el tratamiento será efectivo. En este proyecto se hizo una continuación de estos estudios, basados en los mismos datos usados. Estos datos observaron 535 atributos/metabolitos para solo 36 pacientes. El grueso de este proyecto estaba en reducir la dimensionalidad del conjunto de datos (2 a 5 metabolitos) y poder llegar a resultados cercanos o mejores a los ya existentes. Se entrenaron 4 diferentes modelos de clustering para encontrar posibles grupos y de cada uno escoger un representante. Para cada modelo se buscaron los parámetros los cuales llegaban a clusters con un mejor grado de separación. En la fase de escoger los representantes de cada cluster se usaron diferentes métricas como: cercanía al centro del cluster, o probabilidad de ser miembro del cluster, para decidir cuáles podrían ser los mejores representantes. Después de tener los representantes de cada grupo, se pasó a la fase de predicción, donde se observó qué tan buena era la predicción con este pequeño conjunto de atributos. Finalmente se llegó a un modelo con 3 metabolitos y un puntaje f1 de 0.82 el cual fue muy prometedor para una forma de reducción de la dimensionalidad tan particular y descriptiva como lo es ella selección por representantes de un agrupamiento.