Modelo predictivo para la identificación de zonas de riesgo de dengue grave: un enfoque integral de condiciones sociodemográficas y calidad de servicios de salud
| dc.contributor.advisor | Ortega Lenis, Delia | |
| dc.contributor.author | Rueda González, Sergio Andrés | |
| dc.date.accessioned | 2025-11-07T15:50:53Z | |
| dc.date.available | 2025-11-07T15:50:53Z | |
| dc.date.issued | 2024 | |
| dc.description.abstract | El presente proyecto aplicado desarrolla un modelo predictivo para identificar zonas de riesgo de dengue grave en el municipio de Girón (Santander, Colombia), integrando variables epidemiológicas, climáticas, sociodemográficas y relacionadas con la calidad de los servicios de salud. El dengue grave constituye una amenaza creciente para la salud pública, y su manejo inadecuado en contextos de alta vulnerabilidad social aumenta la letalidad. La investigación partió de la recolección y unificación de múltiples fuentes de datos: reportes del sistema SIVIGILA (2018–2024), registros de visitas entomológicas (ETV) a 9.885 viviendas, y series de precipitaciones diarias del IDEAM mediante CHIRPS. Tras un riguroso proceso de limpieza, normalización y estandarización de nombres de barrios, se consolidó una matriz multifuente de predictores a nivel territorial. Entre las variables clave se incluyeron número de criaderos por vivienda, precipitaciones acumuladas, proporción de síntomas (fiebre, vómito, dolor abdominal), indicadores de riesgo clínico por manejo inadecuado, estrato socioeconómico, edad promedio y proporción de mujeres. El modelo objetivo se definió como la clasificación binaria de barrios en zonas de riesgo alto cuando se reportó al menos un caso de dengue grave. Se entrenaron modelos de regresión logística, Random Forest y XGBoost, aplicando estrategias para enfrentar el desbalance de clases (79,7% barrios sin riesgo vs. 20,3% con riesgo), como imputación diferenciada, escalamiento estandarizado, técnica SMOTE y ajuste de umbral a 0.4. Los resultados de la validación cruzada estratificada (k=5) evidenciaron desempeños óptimos. El modelo Random Forest alcanzó la mayor sensibilidad (0,95) y un AUC-ROC de 0,95, destacándose por minimizar falsos negativos, mientras que XGBoost logró el mejor F1-score promedio (0,86), mostrando un balance superior entre precisión y recall. La regresión logística, aunque menos precisa, aportó interpretabilidad estadística y validez metodológica. El análisis de importancia de variables reveló que los principales predictores fueron: número de viviendas con criaderos, indicadores de riesgo por conducta médica inadecuada, tipos de criaderos (floreros, tanques, llantas), síntomas clínicos y precipitaciones promedio en los siete días previos. Adicionalmente, la inclusión de indicadores de calidad de atención en salud (demora en la notificación, severidad clínica promedio y fuga asistencial) mejoró la capacidad explicativa del modelo, visibilizando debilidades institucionales que aumentan la vulnerabilidad territorial. La representación geoespacial en mapas tipo choropleth permitió identificar barrios críticos como Rincón de Girón, Villas de San Juan y Nuevo Girón, donde confluyen alta carga entomológica, reconsultas frecuentes y deficiencias en la atención clínica. Estas visualizaciones constituyen herramientas estratégicas para planificación territorial, priorización de recursos y focalización de intervenciones preventivas en escenarios de restricción presupuestal. En conclusión, el estudio confirma que el riesgo de dengue grave es producto de una interacción compleja entre determinantes ambientales, sociales e institucionales. El modelo predictivo propuesto constituye una herramienta innovadora para fortalecer la vigilancia epidemiológica activa y la gestión local en salud pública. Se recomienda su validación en otros municipios endémicos y la incorporación de datos en tiempo real para consolidarlo como un sistema escalable de alerta temprana frente al dengue y otras enfermedades transmitidas por vectores. | spa |
| dc.description.abstract | This applied project develops a predictive model to identify high-risk areas for severe dengue in the municipality of Girón (Santander, Colombia), integrating epidemiological, climatic, sociodemographic variables, and those related to the quality of health services. Severe dengue poses a growing threat to public health, and its inadequate management in contexts of high social vulnerability increases lethality. The research began with the collection and unification of multiple data sources: reports from the SIVIGILA system (2018–2024), records of entomological visits (ETV) to 9,885 households, and daily precipitation series from IDEAM via CHIRPS. After a rigorous process of cleaning, normalization, and standardization of neighborhood names, a multi-source matrix of territorial-level predictors was consolidated. Key variables included the number of breeding sites per household, accumulated precipitation, proportion of symptoms (fever, vomiting, abdominal pain), clinical risk indicators due to inadequate management, socioeconomic stratum, average age, and proportion of women. The target model was defined as the binary classification of neighborhoods into high-risk zones when at least one case of severe dengue was reported. Logistic regression, Random Forest, and XGBoost models were trained, applying strategies to address class imbalance (79.7% neighborhoods without risk vs. 20.3% with risk), such as differentiated imputation, standardized scaling, SMOTE technique, and threshold adjustment to 0.4. Results from stratified cross-validation (k=5) showed optimal performance. The Random Forest model achieved the highest sensitivity (0.95) and an AUC-ROC of 0.95, standing out for minimizing false negatives, while XGBoost achieved the best average F1-score (0.86), showing superior balance between precision and recall. Logistic regression, although less precise, contributed statistical interpretability and methodological validity. Variable importance analysis revealed that the main predictors were: number of households with breeding sites, risk indicators due to inadequate medical behavior, types of breeding sites (flower vases, tanks, tires), clinical symptoms, and average precipitation in the seven days prior. Additionally, the inclusion of health care quality indicators (notification delay, average clinical severity, and care abandonment) improved the model’s explanatory capacity, highlighting institutional weaknesses that increase territorial vulnerability. Geospatial representation using choropleth maps allowed the identification of critical neighborhoods such as Rincón de Girón, Villas de San Juan, and Nuevo Girón, where high entomological burden, frequent reconsultations, and deficiencies in clinical care converge. These visualizations serve as strategic tools for territorial planning, resource prioritization, and targeted preventive interventions in budget-constrained scenarios. In conclusion, the study confirms that the risk of severe dengue results from a complex interaction between environmental, social, and institutional determinants. The proposed predictive model is an innovative tool to strengthen active epidemiological surveillance and local public health management. Its validation in other endemic municipalities and the incorporation of real-time data are recommended to consolidate it as a scalable early warning system for dengue and other vector-borne diseases. | eng |
| dc.description.degreelevel | Maestría | |
| dc.description.degreename | Magíster en Ciencia de Datos | |
| dc.format.extent | 53 p. | |
| dc.format.mimetype | application/pdf | |
| dc.identifier.uri | http://hdl.handle.net/11522/5068 | |
| dc.language.iso | spa | |
| dc.publisher | Pontificia Universidad Javeriana Cali | |
| dc.publisher.department | Facultad de Ingeniería y Ciencias | |
| dc.publisher.program | Maestría en Ciencia de Datos | |
| dc.rights.accessrights | http://purl.org/coar/access_right/c_abf2 | |
| dc.rights.creativecommons | https://creativecommons.org/licenses/by-nc-sa/4.0/ | |
| dc.rights.uri | https://creativecommons.org/licenses/by-nc-sa/4.0/ | |
| dc.subject | Dengue | spa |
| dc.subject | Aprendizaje automático | spa |
| dc.subject | Salud pública | spa |
| dc.subject | Riesgo geoespacial | spa |
| dc.subject | Calidad en salud | spa |
| dc.subject | Machine learning | eng |
| dc.subject | Public health | eng |
| dc.subject | Geospatial risk | eng |
| dc.subject | Health care quality | eng |
| dc.title | Modelo predictivo para la identificación de zonas de riesgo de dengue grave: un enfoque integral de condiciones sociodemográficas y calidad de servicios de salud | spa |
| dc.type | master thesis | |
| dc.type.coar | http://purl.org/coar/resource_type/c_bdcc | |
| dc.type.local | Tesis/Trabajo de grado - Monografía - Maestría | |
| dc.type.redcol | https://purl.org/redcol/resource_type/TM |
Files
Original bundle
License bundle
1 - 1 of 1
No Thumbnail Available
- Name:
- license.txt
- Size:
- 1.71 KB
- Format:
- Item-specific license agreed to upon submission
- Description: