Performance evaluation of multi-label classification models for the automated classification of anuran calls in audio recordings

Este proyecto de grado tiene como objetivo utilizar modelos de redes neuronales convolucionales (CNN) preentrenados para identificar tres especies diferentes de Anuros por sonido en una representación de tiempo-frecuencia. Las especies seleccionadas son: Boana albopunctata, Physalaemus cuvieri, y Boana lundii. Además, se analizó el rendimiento de diversos modelos y técnicas de aumentación de datos, para lograr una correcta clasificación multi-etiqueta, y las mejores prácticas para el procesamiento de audio, clasificación y automatización para las señales de sonido de los anfibios y también se discuten algunas referencias a las limitaciones asociadas con el monitoreo acústico de los anfibios y otras especies. El diseño metodológico del proyecto se dividió en cuatro etapas: preprocesamiento, aumento de datos, entrenamiento del modelo y evaluación del rendimiento de los modelos entrenados. El núcleo del proyecto se desarrolló en Python, para la etapa de preprocesamiento de datos en este proyecto se diseñó un “pipeline” para procesar los datos crudos proporcionados por el Instituto Humboldt y consistió en recortar los archivos de audio, generar espectrogramas, y fusionarlos con las anotaciones para devolver un conjunto de datos bien estructurados para el entrenamiento, en la etapa de aumento de datos las técnicas utilizadas fueron técnicas de estiramiento de tiempo, enmascaramiento de tiempo y enmascaramiento de frecuencia, por último, la fase de evaluación del rendimiento se realizó extrayendo de los modelos entrenados ( MobileNet, DenseNet121, InceptionV3 y Resnet50) la métrica de desempeño F1 utilizando un 30% del conjunto de datos no aumentado aislado del proceso de entrenamiento y comparando el rendimiento de cada modelo. Se realizaron tres experimentos, variando los hiperparámetros y la arquitectura, y utilizando diferentes conjuntos de datos. Se seleccionaron los mejores modelos en función de su rendimiento. Los mejores modelos (MobileNet con 1 FC Layer, DenseNet con 1 FC Layer, InceptionV3 con 2 FC Layer) alcanzó un desempeño F1 medio del 81% para la clasificación multi-etiqueta de las tres diferentes especies mencionadas anteriormente.

item.page.descriptioneng

Este proyecto de grado tiene como objetivo utilizar modelos de redes neuronales convolucionales (CNN) preentrenados para identificar tres especies diferentes de Anuros por sonido en una representación de tiempo-frecuencia. Las especies seleccionadas son: Boana albopunctata, Physalaemus cuvieri, y Boana lundii. Además, se analizó el rendimiento de diversos modelos y técnicas de aumentación de datos, para lograr una correcta clasificación multi-etiqueta, y las mejores prácticas para el procesamiento de audio, clasificación y automatización para las señales de sonido de los anfibios y también se discuten algunas referencias a las limitaciones asociadas con el monitoreo acústico de los anfibios y otras especies. El diseño metodológico del proyecto se dividió en cuatro etapas: preprocesamiento, aumento de datos, entrenamiento del modelo y evaluación del rendimiento de los modelos entrenados. El núcleo del proyecto se desarrolló en Python, para la etapa de preprocesamiento de datos en este proyecto se diseñó un “pipeline” para procesar los datos crudos proporcionados por el Instituto Humboldt y consistió en recortar los archivos de audio, generar espectrogramas, y fusionarlos con las anotaciones para devolver un conjunto de datos bien estructurados para el entrenamiento, en la etapa de aumento de datos las técnicas utilizadas fueron técnicas de estiramiento de tiempo, enmascaramiento de tiempo y enmascaramiento de frecuencia, por último, la fase de evaluación del rendimiento se realizó extrayendo de los modelos entrenados ( MobileNet, DenseNet121, InceptionV3 y Resnet50) la métrica de desempeño F1 utilizando un 30% del conjunto de datos no aumentado aislado del proceso de entrenamiento y comparando el rendimiento de cada modelo. Se realizaron tres experimentos, variando los hiperparámetros y la arquitectura, y utilizando diferentes conjuntos de datos. Se seleccionaron los mejores modelos en función de su rendimiento. Los mejores modelos (MobileNet con 1 FC Layer, DenseNet con 1 FC Layer, InceptionV3 con 2 FC Layer) alcanzó un desempeño F1 medio del 81% para la clasificación multi-etiqueta de las tres diferentes especies mencionadas anteriormente.

Performance evaluation of multi-label classification models for the automated classification of anuran calls in audio recordings

Files

Date

Authors

Director

Journal Title

Journal ISSN

Volume Title

Publisher

Share

Abstract

Abstract

item.page.abstract.eng

item.page.descriptioneng

Keywords

Citation

DOI

URI

Collections