Predicción del gasto de bolsillo en salud de los hogares en Colombia usando modelos de  aprendizaje automático

Parada Portilla, Juan Sebastián

Predicción del gasto de bolsillo en salud de los hogares en Colombia usando modelos de aprendizaje automático

Files

Tesis_Maestría_Ciencia_Datos.pdf (1.51 MB)

Licencia_autorizacion. pdf (153.84 KB)

Date

2024

Authors

Parada Portilla, Juan Sebastián

Director

Ortega Lenis, Delia

Publisher

Pontificia Universidad Javariana Cali

Share

Abstract

Este trabajo desarrolla modelos de aprendizaje automático para predecir el gasto de bolsillo en salud de los hogares colombianos. Utilizando datos de la Encuesta de Calidad de Vida (ECV), se identificaron variables clave como la presencia de enfermedades crónicas en el hogar, el ingreso del hogar, el tamaño del hogar, el estado de salud y la afiliación al sistema de seguridad social. Inicialmente, se exploraron modelos de regresión, pero debido a la alta proporción de valores nulos (85\% de los hogares no reportan gasto en salud), su desempeño fue limitado. Para abordar este problema, se transformó la variable dependiente en una binaria y se aplicaron modelos de clasificación, incluyendo Random Forest, Gradient Boosting y regresión logística, optimizados con la técnica SMOTE para balancear las clases. Los resultados muestran que los modelos de clasificación superan a los de regresión, con Random Forest y Gradient Boosting logrando los mejores desempeños en términos de ROC AUC. Este estudio proporciona herramientas útiles para el diseño de políticas públicas basadas en evidencia, permitiendo identificar hogares con mayor riesgo de incurrir en altos gastos en salud y facilitando intervenciones para reducir el impacto financiero en las familias colombianas.

item.page.descriptioneng

This work develops machine learning models to predict out-of-pocket healthcare expenditures of Colombian households. Using data from the Quality of Life Survey (ECV), key variables were identified, such as the presence of chronic diseases in the household, household income, household size, health status, and social security affiliation. Initially, regression models were explored, but due to the high proportion of null values (85% of households do not report healthcare expenditures), their performance was limited. To address this issue, the dependent variable was transformed into a binary variable and classification models were applied, including Random Forest, Gradient Boosting, and logistic regression, optimized with the SMOTE technique to balance classes. The results show that the classification models outperform the regression models, with Random Forest and Gradient Boosting achieving the best performance in terms of ROC and AUC. This study provides useful tools for designing evidence-based public policies, identifying households at greater risk of incurring high health expenditures and facilitating interventions to reduce the financial impact on Colombian families.