Machine learning with data augmentation to predict glucantime effectiveness against cutaneous leishmaniasis

Abstract
Enfrentar problemas de análisis de datos en pequeños conjuntos de datos es un problema común en la investigación médica; asimismo, es un problema que dificulta mucho la aplicación y el éxito de los algoritmos clásicos de aprendizaje automático. Muchas técnicas han abordado el problema de un pequeño conjunto de datos, principalmente para los campos de visión artificial y procesamiento de imágenes. Sin embargo, para los datos tabulares, se ha difundido muy poco. En este trabajo de grado se propone el uso de técnicas de aumento de datos tabulares para introducir instancias sintéticas bastante similares a las reales, particularmente en el contexto de un problema médico/social de predecir la efectividad de Glucantime como tratamiento contra la Leishmaniasis cutánea. Los experimentos muestran que el uso de estos algoritmos de aumento de datos mejora las características del conjunto de datos inicial y el rendimiento de los modelos de aprendizaje automático. El conjunto de datos utilizado en esta investigación tiene diez atributos y 18 registros.
Description
item.page.descriptioneng
Facing data analysis problems on small data sets is a common problem in medical research; likewise, it is a problem that makes the application and success of classic machine learning algorithms very difficult. Many techniques have tackled the problem of a small data set, mainly for computer vision and image processing fields. However, for tabular data, short has been disseminated. In this degree project, the use of tabular data augmentation techniques is proposed to introduce synthetic instances quite similar to real instances, particularly in the context of a medical/social problem of predicting the effectiveness of Glucantime as a treatment against cutaneous Leishmaniasis. Experiments show that using these data augmentation algorithms enhances the characteristics of the initial data set and dramatically improves the performance of machine learning models.
Keywords
Machine Learning, Tabular data augmentation, Cutaneous leishmaniasis, Infectious disease, Synthetic data, Small dataset, K-Nearest neighbors, Logistic regression, Support vector machines
Citation