Predicción de fraudes y anomalías en el suministro de agua potable con técnicas de analítica de datos
Loading...
Date
2025
Director
Journal Title
Journal ISSN
Volume Title
Publisher
Pontificia Universidad Javeriana Cali
Share
Abstract
El estudio desarrolló una metodología integral para la detección de fraudes y anomalías en el consumo de agua potable en Chile, utilizando una base de datos anonimizada con series de consumo mensuales, características metrológicas y localización geográfica de medidores mecánicos. En la detección de fraude sin enfoque de negocio, los modelos supervisados Random Forest (RF) y XGBoost (XGB) mostraron desempeños técnicos similares, con diferencias leves en métricas como el F1-Score. Al incorporar el enfoque de negocio mediante matrices de costos y métricas económicas, las métricas estadísticas se mantuvieron estables, pero el Random Forest resultó con mejor desempeño operativamente, alcanzando una ganancia promedio cercana a 2,31 millones de dólares y un mROI del 64,3%, superior al 59,9% obtenido por XGBoost. En el análisis de anomalías técnicas, los modelos supervisados también se evaluaron, pero el desempeño fue limitado debido a la baja frecuencia de muestreo, mientras que el enfoque no supervisado basado en DBSCAN no logró separar de forma efectiva los casos de interés de fraude y anomalías. Adicional, se empleó la regresión logística para el problema de fraude como modelo base interpretable: permitió identificar el efecto de variables de consumo, clase metrológica, año de instalación y zona geográfica, alcanzó un AUC-ROC de 0,78 y un Brier Score de 0,18, aunque la prueba de Hosmer--Lemeshow (p-value approx 0) indicó un ajuste limitado frente a la complejidad del fenómeno. Por su parte, en el caso de anomalías el modelo de regresión logística no cumplió los supuestos fundamentales de linealidad en el logit ni de adecuación del ajuste, por lo que no resultó apropiado para predecir anomalías y fue descartado como alternativa metodológica en este componente. A su vez, enfoque no supervisado basado en DBSCAN tampoco logró separar de forma efectiva los casos de interés, presentando sensibilidades cercanas a cero para la detección de fraude y utilidad acotada para anomalías. Finalmente, pese a las limitaciones inherentes del muestreo mensual y el desbalance extremo, los resultados obtenidos muestran que es posible construir modelos predictivos útiles para la priorización de inspecciones y el fortalecimiento de estrategias de control de fraude.
item.page.abstract.eng
item.page.descriptioneng
Keywords
Anomalías , Fraude , Sostenibilidad , Agua , Machine learning , Anomalies , Fraud , Sustainability , Water