本研究展示了一种基于深度迁移学习开发的实时设备端鸟鸣声识别系统,并针对移动设备部署进行了优化。使用精选的Xeno-canto语料库(一个由全球公民科学家贡献的野生动物声音公开存储库),包含610种台湾鸟类,用于评估六种深度学习架构:残差网络-18(ResNet-18)、另一款移动网络(YAMNet)、视觉几何组音频分类网络(VGGish)、卷积神经网络-长短时记忆网络(CNN-LSTM)、基于注意力的卷积神经网络(Attention-CNN)以及一个深度神经网络(DNN)基线模型。所有模型均采用类别加权、批量归一化、0.2的丢弃率及针对性的增强数据策略,包括音高变换(±2个半音)、时间拉伸(0.8–1.2倍)和时间偏移(16,000采样点)。其中,ResNet-18在准确率与计算效率之间取得最佳平衡,整体准确率为0.955,宏精确率为0.95,宏召回率为0.94,宏F1为0.945,涵盖所有610个类别。该模型推断时间为25.9毫秒,仅占用3.03兆字节内存(约795,000个参数),性能超过了更重的架构如VGGish(准确率0.8975,42.2毫秒,587兆字节),且与较轻量的YAMNet(准确率0.935,27.0毫秒,10.19兆字节)性能相当。此外,基于梯度加权类激活映射(Grad-CAM)的可视化表明,模型预测主要依赖于鸟类特异的时频模式,而非背景噪音。将优化后的模型转换为TensorFlow Lite支持在Android设备上完全离线推断,消除云端延迟并保障用户隐私。总体而言,该轻量、高准确率框架为实时生物多样性监测和保护研究提供了可扩展且实用的解决方案。
Building similarity graph...
Analyzing shared references across papers
Loading...
Hailemariam Abebe Endalamaw
C. C. Yang
Cheng-Hung Hsu
Multimedia Tools and Applications
National Taiwan University of Science and Technology
Building similarity graph...
Analyzing shared references across papers
Loading...
Endalamaw等人(星期四,)研究了这一问题。
www.synapsesocial.com/papers/69a75ddbc6e9836116a28216 — DOI: https://doi.org/10.1007/s11042-026-21211-y
Synapse has enriched 5 closely related papers on similar clinical questions. Consider them for comparative context: