Este estudio presenta un sistema de reconocimiento de sonidos de aves en tiempo real y en dispositivo, desarrollado usando aprendizaje profundo por transferencia y optimizado para despliegue móvil. Se utilizó un corpus seleccionado de Xeno-canto, un repositorio de acceso abierto con grabaciones de sonidos de vida silvestre aportadas por científicos ciudadanos en todo el mundo, que comprende 610 especies de aves taiwanesas para evaluar seis arquitecturas de aprendizaje profundo: Residual Network-18 (ResNet-18), Yet Another Mobile Network (YAMNet), red tipo Visual Geometry Group para clasificación de audio (VGGish), Red Neuronal Convolucional con Memoria a Largo Corto Plazo (CNN-LSTM), Red Neuronal Convolucional basada en Atención (Attention-CNN) y una Red Neuronal Profunda (DNN) de referencia. Todos los modelos se entrenaron usando ponderación de clases, normalización por lotes, una tasa de abandono (dropout) del 0,2 y aumento de datos dirigido, incluyendo cambio de tono (±2 semitonos), estiramiento temporal (0,8–1,2) y desplazamiento temporal (16.000 muestras). Entre estos, ResNet-18 alcanzó el mejor equilibrio entre precisión y eficiencia computacional, con una precisión general de 0,955, precisión macro de 0,95, recall macro de 0,94 y F1 macro de 0,945 en las 610 clases. El modelo realiza inferencias en 25,9 milisegundos con solo 3,03 megabytes de memoria (aproximadamente 795.000 parámetros), superando arquitecturas más pesadas como VGGish (0,8975 de precisión, 42,2 milisegundos, 587 megabytes) y manteniéndose competitivo con alternativas compactas como YAMNet (0,935 de precisión, 27,0 milisegundos, 10,19 megabytes). Además, las visualizaciones de Mapeo de Activación de Clases Ponderado por Gradientes (Grad-CAM) confirman que las predicciones se basan en patrones temporoespectrales específicos de la especie y no en ruido de fondo. La conversión del modelo optimizado a TensorFlow Lite permite inferencias completamente offline en dispositivos Android, eliminando la latencia en la nube y garantizando la privacidad del usuario. En resumen, este marco ligero y de alta precisión ofrece una solución escalable y práctica para el monitoreo en tiempo real de la biodiversidad y la investigación en conservación.
Building similarity graph...
Analyzing shared references across papers
Loading...
Hailemariam Abebe Endalamaw
C. C. Yang
Cheng-Hung Hsu
Multimedia Tools and Applications
National Taiwan University of Science and Technology
Building similarity graph...
Analyzing shared references across papers
Loading...
Endalamaw et al. (jue,) estudiaron esta cuestión.
www.synapsesocial.com/papers/69a75ddbc6e9836116a28216 — DOI: https://doi.org/10.1007/s11042-026-21211-y
Synapse has enriched 5 closely related papers on similar clinical questions. Consider them for comparative context: