Modelo de predicción para el número de especies de Coleoptera en el Departamento de Antioquia
Loading...
Date
2025
Authors
Director
Journal Title
Journal ISSN
Volume Title
Publisher
Pontificia Universidad Javeriana Cali
Share
Abstract
Colombia es un país megadiverso, pero el número de especies conocidas está subestimado debido a la falta de información, en especial para grupos poco estudiados y difíciles de muestrear e identificar como los coleópteros. No es posible obtener el número exacto de especies para este grupo a través de métodos convencionales, debido a su diversidad y falta de recursos para investigación en taxonomía, por este motivo una opción es utilizar técnicas y modelos predictivos procedentes de la ciencia de datos, junto a registros biológicos y variables climáticas para realizar una predicción de manera indirecta. El objetivo principal fue estimar el número de especies de coleópteros en el Departamento de Antioquia, debido a que es el Departamento con mayor cantidad de datos disponibles y tienen una gran variedad de hábitats representativos. Para esto se realizó una búsqueda en la literatura de las variables que afectan la distribución de los coleópteros y las técnicas más utilizadas para predecir el número de especies, luego se realizó una implementación de algunas de estas en Python, que fueron evaluadas a través de métricas numéricas y de una elicitación experta de entomólogos. Finalmente se realizó la predicción del número de especies para el país y para el departamento de Antioquia utilizando el modelo que obtuvo el mejor rendimiento. Las variables más relevantes identificadas fueron: velocidad del viento, humedad relativa, precipitación, radiación solar, temperatura, ecosistemas, elevación y las especies de plantas cercanas a los coleópteros, estas se utilizaron junto a los registros biológicos de coleópteros descargados de GBIF para entrenar los modelos, anotando la información a nivel de familia con las listas de chequeo publicadas por expertos. Para la predicción se utilizaron cuatro tipos de modelos diferentes de regresión, regresión lineal múltiple, perceptrón multicapa, redes neuronales profundas y random forest, que fueron identificados en la literatura como los que tenían mejores resultados. Las redes neuronales profundas tuvieron el mejor desempeño, con un R2 de 0.98, MSE de 92.6 y MAE de 4.07, con este se estimó que el número de especies del departamento está entre un mínimo de 2.007 y un máximo de 9.381, con un promedio de 4.210 especies y fue compartida con los expertos que estimaron que el valor real probablemente está cerca del límite superior. Esta información va a permitir tomar decisiones informadas de conservación y la divulgación con el público general sobre la diversidad del grupo.
item.page.abstract.eng
Colombia is a megadiverse country, but the number of known species is underestimated due to a lack of information, especially for understudied groups that are difficult to sample and identify, such as beetles. It is not possible to obtain the exact number of species for this group through conventional methods, due to their diversity and the lack of resources for taxonomic research. For this reason, one option is to use techniques and predictive models from data science, along with biological records and climate variables, to make an indirect estimation. The main objective was to estimate the number of beetle species in the Department of Antioquia, as it is the department with the largest amount of available data and a wide variety of representative habitats. To achieve this, a literature review was conducted to identify the variables that affect beetle distribution and the most commonly used techniques to predict species numbers. Then, some of these techniques were implemented in Python and evaluated using numerical metrics and expert elicitation from entomologists. Finally, the number of species was predicted for both the country and the Department of Antioquia using the model that showed the best performance. The most relevant variables identified were: wind speed, relative humidity, precipitation, solar radiation, temperature, ecosystems, elevation, and plant species near beetles. These were used along with beetle biological records downloaded from GBIF to train the models, annotating the information at the family level using expert-published checklists. Four types of regression models were used for the prediction: multiple linear regression, multilayer perceptron, deep neural networks, and random forest, which were identified in the literature as having the best results. Deep neural networks showed the best performance, with an R² of 0.98, MSE of 92.6, and MAE of 4.07. Using this model, it was estimated that the number of species in the department ranges from a minimum of 2,007 to a maximum of 9,381, with an average of 4,210 species. This estimate was shared with experts, who suggested that the real value is likely close to the upper limit. This information will support informed conservation decisions and public outreach regarding the diversity of this group.