Predicción del gasto de bolsillo en salud de los hogares en Colombia usando modelos de aprendizaje automático

dc.contributor.advisorOrtega Lenis, Delia
dc.contributor.authorParada Portilla, Juan Sebastián
dc.date.accessioned2025-03-13T21:51:22Z
dc.date.available2025-03-13T21:51:22Z
dc.date.issued2024
dc.description.abstractEste trabajo desarrolla modelos de aprendizaje automático para predecir el gasto de bolsillo en salud de los hogares colombianos. Utilizando datos de la Encuesta de Calidad de Vida (ECV), se identificaron variables clave como la presencia de enfermedades crónicas en el hogar, el ingreso del hogar, el tamaño del hogar, el estado de salud y la afiliación al sistema de seguridad social. Inicialmente, se exploraron modelos de regresión, pero debido a la alta proporción de valores nulos (85\% de los hogares no reportan gasto en salud), su desempeño fue limitado. Para abordar este problema, se transformó la variable dependiente en una binaria y se aplicaron modelos de clasificación, incluyendo Random Forest, Gradient Boosting y regresión logística, optimizados con la técnica SMOTE para balancear las clases. Los resultados muestran que los modelos de clasificación superan a los de regresión, con Random Forest y Gradient Boosting logrando los mejores desempeños en términos de ROC AUC. Este estudio proporciona herramientas útiles para el diseño de políticas públicas basadas en evidencia, permitiendo identificar hogares con mayor riesgo de incurrir en altos gastos en salud y facilitando intervenciones para reducir el impacto financiero en las familias colombianas.
dc.description.abstractengThis work develops machine learning models to predict out-of-pocket healthcare expenditures of Colombian households. Using data from the Quality of Life Survey (ECV), key variables were identified, such as the presence of chronic diseases in the household, household income, household size, health status, and social security affiliation. Initially, regression models were explored, but due to the high proportion of null values (85% of households do not report healthcare expenditures), their performance was limited. To address this issue, the dependent variable was transformed into a binary variable and classification models were applied, including Random Forest, Gradient Boosting, and logistic regression, optimized with the SMOTE technique to balance classes. The results show that the classification models outperform the regression models, with Random Forest and Gradient Boosting achieving the best performance in terms of ROC and AUC. This study provides useful tools for designing evidence-based public policies, identifying households at greater risk of incurring high health expenditures and facilitating interventions to reduce the financial impact on Colombian families.
dc.format.extent106 p.
dc.format.mimetypeapplication/pdf
dc.identifier.urihttp://hdl.handle.net/11522/4629
dc.language.isospa
dc.publisherPontificia Universidad Javariana Cali
dc.publisher.facultyFacultad de Ingeniería y Ciencias
dc.rights.accessrightshttp://purl.org/coar/access_right/c_abf2
dc.rights.creativecommonshttps://creativecommons.org/licenses/by-nc-sa/4.0/
dc.rights.urihttps://creativecommons.org/licenses/by-nc-nd/4.0/
dc.subjectGasto de Bolsillo en Salud
dc.subjectAprendizaje automático
dc.subjectModelos predictivos
dc.subjectPolíticas públicas en Salud
dc.subjectAnálisis estadístico
dc.subjectOut-of-pocket health spending
dc.subjectMachine Learning
dc.subjectPredictive models
dc.subjectPublic policies in health
dc.subjectStatistical análisis
dc.thesis.disciplineFacultad de Ingeniería y Ciencias. Maestría en Ciencia de Datos - Modalidad virtual
dc.thesis.grantorPontificia Universidad Javeriana
dc.thesis.levelMaestría
dc.thesis.nameMagíster en Ciencia de Datos
dc.titlePredicción del gasto de bolsillo en salud de los hogares en Colombia usando modelos de aprendizaje automáticospa
dc.type.coarhttp://purl.org/coar/resource_type/c_bdcc
dc.type.localTesis/Trabajo de grado - Monografía - Maestría
dc.type.redcolhttps://purl.org/redcol/resource_type/TM
Files
Original bundle
Now showing 1 - 2 of 2
No Thumbnail Available
Name:
Tesis_Maestría_Ciencia_Datos.pdf
Size:
1.51 MB
Format:
Adobe Portable Document Format
No Thumbnail Available
Name:
Licencia_autorizacion. pdf
Size:
153.84 KB
Format:
Adobe Portable Document Format
License bundle
Now showing 1 - 1 of 1
No Thumbnail Available
Name:
license.txt
Size:
1.71 KB
Format:
Item-specific license agreed to upon submission
Description: