Clasificador de sonidos que indiquen una alerta o amenaza para las personas con discapacidad auditiva
Date
2024
Authors
Director
Journal Title
Journal ISSN
Volume Title
Publisher
Pontificia Universidad Javeriana Cali
Abstract
Este trabajo de grado se enfoca en el entrenamiento de modelos de aprendizaje automático para clasificar algunos sonidos que se encuentran en el conjunto de datos AudioSet de Google. Estos sonidos fueron seleccionados en función de la cantidad de muestras disponibles y su relevancia para indicar una alerta o amenaza. A través de este proyecto, se quiere documentar el proceso para llegar a entrenar un modelo que cumpla la tarea de clasificación de sonidos, y mostrar los obstáculos que se pueden presentar para lograrlo. También se busca dejar las puertas abiertas para un trabajo futuro donde se implemente un modelo de este tipo en dispositivos móviles con micrófono, y se logre ayudar a las personas con discapacidad auditiva a aprender a asociar lo que escuchan con su significado, o a que puedan identificar sonidos de su entorno físico que indiquen una alerta o amenaza para su integridad. Para llegar a los resultados del proyecto, fue necesario generar espectrogramas a partir de los sonidos descargados y entrenar varios modelos con ayuda de transfer learning. En los resultados se presenta una comparación entre los modelos entrenados, su evaluación con distintas métricas de desempeño, y su comparación con algunos modelos del estado del arte.
Description
item.page.descriptioneng
This thesis focuses on training machine learning models to classify certain sounds found in Google’s AudioSet dataset. These sounds were selected based on the number of available samples and their relevance for indicating an alert or threat. Through this project, we aim to document the process of training a model to perform sound classification and highlight the obstacles that may arise in achieving this goal. Additionally, it aims to set the foundation for future work where such a model could be implemented in mobile devices with microphones, assisting people with hearing disabilities in learning to associate sounds with their meanings, or in identifying sounds in their physical environment that indicate an alert or threat to their safety. To achieve the project results, it was necessary to generate spectrograms from the downloaded sounds and train several models using transfer learning. The results present a comparison between the trained models, their evaluation using various performance metrics, and their comparison with some state-of-the-art models.
Keywords
Aprendizaje automático, Discapacidad auditiva, Clasificación de sonidos, Espectrogramas, Machine learning, Hearing disability, Transfer learning, Sound classification, AudioSet, Spectrograms