Application of data augmentation methods in transfer learning algorithms to identify amphibian species in bioacoustic signals

Loading...
Thumbnail Image
Date
2024
Journal Title
Journal ISSN
Volume Title
Publisher
Pontificia Universidad Javeriana Cali
Abstract
El calentamiento global y sus efectos se han establecido como asuntos importantes en la actualidad. Las consecuencias y evidencias del cambio climático deberían representar la urgencia de medidas más estrictas para prevenir secuelas irreversibles. De esta manera, es crucial reunir evidencia que corrobore el grado de efecto del calentamiento global, y el Monitoreo Acústico Pasivo, PAM en inglés, es un método para cumplir este objetivo. PAM puede supervisar especies que se encuentran en riesgo de extinción y que también son especialmente sensibles a los cambios de temperatura como es el caso de los anuros. Consecuentemente, estas especies son fundamentales en determinar el impacto del calentamiento global y la escala de urgencia para abordarlo. El estudio y supervisión de señales, reunidos de la aplicación de PAM, puede implicar un desafío debido a la extensa cantidad de horas de datos que se necesitan analizar, lo que puede ser una tarea demandante y que consume mucho tiempo. Entonces, el uso de Machine Learning aparece como una herramienta efectiva para automatizar la identificación de señales bioacústicas y facilitar su estudio. Sin embargo, con el fin de alcanzar resultados excepcionales con algoritmos de Machine Learning se requieren una cantidad de datos considerable, la cual no siempre puede estar disponible. Con el objeto de afrontar la falta de datos y mejorar el desempeño de los algoritmos, técnicas como la aumentación de datos y el aprendizaje por transferencia han sido desarrolladas. Este trabajo de grado pretende probar la eficacia de estas dos técnicas para clasificar espectrogramas multi-etiqueta generados de llamados de especies de anuros. Los experimentos involucraron comparar el desempeño de tres arquitecturas de redes neuronales convolucionales (ResNet, VGG y EfficientNet) en dos bases de datos. Los experimentos concluyeron que EfficientNet obtuvo los resultados más significativos, consiguiendo en promedio un F1-score de 0.83 cuando se usó junto con la aumentación de datos y el aprendizaje por transferencia.
Description
item.page.descriptioneng
Global warming and its impacts have been firmly established as an important current topic. The consequences and evidence of climate change should represent the urgency of stringent measures to avoid more irreversible sequels. Consequently, it is crucial to gather evidence that substantiates the extent of global warming, and employing Passive Acoustic Monitoring (PAM) is one method to accomplish this objective. PAM can follow species that are at a high risk of extinction and that also are especially sensitive to changes in temperature, such as the case of anurans. Consequently, this species can be instrumental in assessing the impact of global warming and determining the level of urgency to address it. The study and surveillance of the signals gathered from PAM can signify a challenge due to the extensive quantity of hours of data, which can be a time-consuming and demanding task. Then, the use of machine learning emerges as an effective tool for automating the identification of acoustic signals and facilitating its study. However, in order to achieve exceptional results with machine learning algorithms, a substantial amount of data containing significant information is typically required, which may not always be available. In order to address the insufficient data and enhance the performance of machine learning algorithms, techniques like data augmentation and transfer learning have been developed. This undergraduate project aims to test the efficacy of these two techniques to classify multi-label spectrogram calls from anuran species. The experimentation involved comparing the performance of three CNN architectures (ResNet, VGG, and EfficientNet) on two datasets, to which different audio and spectrogram augmentation techniques were applied. The experiments concluded that EfficientNet yielded the most significant results, attaining an averaged F1-score of 0.83 when coupled with transfer learning and augmentations.
Keywords
Aprendizaje automático, Aprendizaje por transferencia, Aumentación de datos, Clasificación multietiqueta, Aprendizaje profundo, Bioacústica, Clasificación de anuros, Machine learning, Transfer learning, Data augmentation, Multi-label classification, Deep learning, Bioacoustics, Anuran classification
Citation