Predicción de diabetes mellitus en el contexto colombiano a partir de patrones de consumo y compuestos moleculares mediante el uso de técnicas supervisadas de machine learning

Loading...
Thumbnail Image
Date
2025
Journal Title
Journal ISSN
Volume Title
Publisher
Pontificia Universidad Javeriana Cali

Share

Abstract
Este proyecto se centra en el desarrollo de un modelo predictivo orientado a la identificación de individuos con diagnóstico de diabetes mellitus en Colombia, a partir de patrones de consumo alimentario y características relacionadas con la composición nutricional y molecular de los alimentos. Para ello, se utilizaron datos provenientes de la Encuesta Nacional de la Situación Nutricional (ENSIN), los cuales fueron sometidos a un riguroso proceso de limpieza, estandarización y transformación. Este incluyó la homogeneización de nombres de alimentos y la integración de nutrientes clave para el análisis. Con el fin de abordar el desbalance entre clases, una característica común en estudios epidemiológicos, se incorporaron técnicas avanzadas de sobremuestreo, como SMOTE y ADASYN, lo que permitió mejorar significativamente la capacidad del modelo para detectar casos positivos de diabetes. La tarea de clasificación fue abordada mediante un enfoque supervisado, en el que se implementaron y compararon algoritmos de aprendizaje automático como XGBoost, CatBoost, Random Forest y LightGBM. Estos modelos fueron combinados en un esquema de votación tipo ensemble, optimizado mediante validación cruzada y búsqueda de hiperparámetros. El modelo final alcanzó una capacidad predictiva destacada, logrando identificar correctamente hasta el 89.2 % de los casos con diagnóstico de diabetes, lo que respalda la utilidad del enfoque combinado de modelado y preprocesamiento aplicado. A nivel interpretativo, se emplearon técnicas de explicación de modelos para identificar variables dietarias con mayor influencia en la predicción. Entre los factores más relevantes se destacaron la vitamina B6, la proteína de origen animal, la fibra cruda y la vitamina A. Además, se evidenció una asociación inversa entre el consumo de frutas y el riesgo de diabetes, mientras que una mayor ingesta de dulces mostró una asociación positiva con dicho riesgo. Estos hallazgos coinciden con la literatura científica actual sobre los vínculos entre nutrición y enfermedades metabólicas. En conjunto, los resultados obtenidos proporcionan una base metodológica robusta para el desarrollo de sistemas predictivos aplicables a la vigilancia nutricional y al diseño de estrategias preventivas. No obstante, se reconoce que los modelos predictivos, por sí solos, no ofrecen conclusiones definitivas sobre causalidad. Por tanto, se plantea como línea futura la validación de estas asociaciones mediante estudios clínicos y aproximaciones longitudinales que permitan comprender con mayor precisión las dinámicas subyacentes entre dieta y diabetes en la población colombiana.
item.page.abstract.eng
To address class imbalance—a common feature in epidemiological studies—advanced oversampling techniques such as SMOTE and ADASYN were incorporated, significantly improving the model’s ability to detect positive diabetes cases. The classification task was approached using a supervised learning framework, implementing and comparing machine learning algorithms such as XGBoost, CatBoost, Random Forest, and LightGBM. These models were combined in an ensemble voting scheme, optimized through cross-validation and hyperparameter tuning. The final model achieved outstanding predictive performance, correctly identifying up to 89.2% of diagnosed diabetes cases, supporting the effectiveness of the combined modeling and preprocessing approach. For interpretability, model explanation techniques were used to identify dietary variables with the greatest influence on prediction. Among the most relevant factors were vitamin B6, animal-based protein, crude fiber, and vitamin A. Additionally, an inverse association was found between fruit consumption and diabetes risk, while higher intake of sweets showed a positive association with the condition. These findings align with current scientific literature on the links between nutrition and metabolic diseases. Overall, the results provide a robust methodological foundation for the development of predictive systems applicable to nutritional surveillance and the design of preventive strategies. However, it is acknowledged that predictive models alone do not offer definitive conclusions about causality. Therefore, future work will focus on validating these associations through clinical studies and longitudinal approaches to better understand the underlying dynamics between diet and diabetes in the Colombian population.
item.page.descriptioneng
Citation