Browsing by Subject "XGBoost"
Now showing 1 - 2 of 2
Results Per Page
Sort Options
Item Desarrollo de un modelo predictivo de abandono y segmentación de clientes para COLOMBIA INTERNET ISP: análisis del churn rate(Pontificia Universidad Javeriana Cali, 2025) Jimeno Grisales, Evelyn; Garrido García, Oscar Mauricio; García Lemus, Deybison Antonio; Mosquera Valencia, Diego FernandoEl presente proyecto se centra en el desarrollo de un modelo predictivo orientado a la estimación del churn-rate en COLOMBIA INTERNET ISP, empresa de servicios de Internet con operaciones en los departamentos del Valle del Cauca y Tolima. La empresa registra una tasa de abandono promedio del 2.1% mensual. A través del uso de técnicas de análisis de datos y algoritmos de aprendizaje automático, se busca identificar patrones de comportamiento asociados a la pérdida de clientes y construir un modelo capaz de predecir dicho fenómeno con base en variables demográficas, comerciales y de uso del servicio. La metodología aplicada sigue el enfoque CRISP-DM, e incluye etapas de comprensión del negocio, recolección y preparación de datos, modelado, evaluación e implementación. Se implementaron técnicas de imputación, transformación y depuración de datos, así como análisis univariado y de correlación para seleccionar variables relevantes. Posteriormente, se entrenaron y evaluaron distintos modelos de clasificación, tales como regresión logística, árboles de decisión, random forest y XGBoost, utilizando métricas de desempeño como sensibilidad, precisión, F1-score y área bajo la curva ROC (AUC) para seleccionar el modelo con mejor rendimiento. Finalmente, se realizó una segmentación de clientes utilizando técnicas de clustering, con el propósito de identificar perfiles con distintos niveles de riesgo de abandono. Este proyecto constituye una aplicación integral de la ciencia de datos al análisis del churn en el sector de telecomunicaciones, desde la preparación y exploración de datos hasta la evaluación comparativa de modelos predictivos y la segmentación de usuarios con base en su comportamiento.Item Identificación de niveles de riesgos en salud para la gestión de afiliados mediante aprendizaje automático(Pontificia Universidad Javeriana Cali, 2025) Avila Reina, Adriana Janeth; Aguilar Ramírez, David Orlando; Vargas Cardona, Hernán DaríoEl proyecto aplicado tuvo como objetivo desarrollar un modelo automatizado para la identificación de niveles de riesgo en salud de afiliados de la empresa Keralty mediante técnicas de aprendizaje automático supervisado. Su importancia radica en la necesidad de fortalecer los procesos de estratificación de riesgo que actualmente se basan en reglas estáticas definidas por expertos, las cuales no se actualizan automáticamente ante nuevos datos ni aprovechan el potencial analítico de grandes volúmenes de información clínica, demográfica y de utilización de servicios. La problemática abordada se centra en mejorar la capacidad de la organización para identificar oportunamente a los pacientes con mayor probabilidad de deterioro en su estado de salud, permitiendo así priorizar acciones preventivas que optimicen el uso de recursos y reduzcan costos asociados a complicaciones evitables. Para resolver esta limitación, se preparó una base de datos estructurada, anonimizada y etiquetada con 36 clases combinadas de riesgo y severidad, y se entrenaron múltiples clasificadores supervisados, incluyendo XGBoost, Random Forest, Árboles de Decisión, Regresión Logística, KNN y SVM, tanto en versiones balanceadas como desbalanceadas. Los modelos fueron evaluados mediante métricas como exactitud, precisión, recall, F1-score y AUC-ROC, y validados con técnicas de partición aleatoria repetida (random holdout). XGBoost sin balancear fue el modelo con mejor desempeño general en las 36 clases incluso al ser aplicado sobre registros correspondientes a un período posterior, lo cual respalda su estabilidad operativa y capacidad de generalización dentro del mismo sistema de datos. Estos resultados sugieren que los modelos supervisados pueden complementar los enfoques actuales de gestión del riesgo, ofreciendo mayor precisión en la clasificación de pacientes y una base técnica para el diseño de intervenciones diferenciadas. Aunque el proyecto no contempla una fase de despliegue real, sus hallazgos representan un insumo relevante para tomadores de decisión que buscan integrar herramientas de inteligencia artificial en la gestión en salud. Finalmente, se identificó como línea futura la exploración de técnicas no supervisadas para detectar nuevas segmentaciones no capturadas por los esquemas actuales.