March 3, 2026Open Access

基于深度学习技术的实时鸟鸣声识别应用

Key Points

ResNet-18实现了0.955的整体准确率，展示了其在鸟鸣声识别中的有效性。
该模型仅需25.9毫秒处理声音，适合实时应用。
训练过程中采用了类别加权和数据增强等技术，优化了移动端性能。
该框架有望通过设备端离线高准确率声音分类，改变保护工作方式。

Abstract

本研究展示了一种基于深度迁移学习开发的实时设备端鸟鸣声识别系统，并针对移动设备部署进行了优化。使用精选的Xeno-canto语料库（一个由全球公民科学家贡献的野生动物声音公开存储库），包含610种台湾鸟类，用于评估六种深度学习架构：残差网络-18（ResNet-18）、另一款移动网络（YAMNet）、视觉几何组音频分类网络（VGGish）、卷积神经网络-长短时记忆网络（CNN-LSTM）、基于注意力的卷积神经网络（Attention-CNN）以及一个深度神经网络（DNN）基线模型。所有模型均采用类别加权、批量归一化、0.2的丢弃率及针对性的增强数据策略，包括音高变换（±2个半音）、时间拉伸（0.8–1.2倍）和时间偏移（16,000采样点）。其中，ResNet-18在准确率与计算效率之间取得最佳平衡，整体准确率为0.955，宏精确率为0.95，宏召回率为0.94，宏F1为0.945，涵盖所有610个类别。该模型推断时间为25.9毫秒，仅占用3.03兆字节内存（约795,000个参数），性能超过了更重的架构如VGGish（准确率0.8975，42.2毫秒，587兆字节），且与较轻量的YAMNet（准确率0.935，27.0毫秒，10.19兆字节）性能相当。此外，基于梯度加权类激活映射（Grad-CAM）的可视化表明，模型预测主要依赖于鸟类特异的时频模式，而非背景噪音。将优化后的模型转换为TensorFlow Lite支持在Android设备上完全离线推断，消除云端延迟并保障用户隐私。总体而言，该轻量、高准确率框架为实时生物多样性监测和保护研究提供了可扩展且实用的解决方案。

Connected Papers

Building similarity graph...

Analyzing shared references across papers

Discussion

Social Feed

Authors

Hailemariam Abebe Endalamaw

C. C. Yang

Cheng-Hung Hsu

Journals

Multimedia Tools and Applications

Actions

Institutions

National Taiwan University of Science and Technology

References and Citations

Connected Papers

Building similarity graph...

Analyzing shared references across papers

基于深度学习技术的实时鸟鸣声识别应用

Key Points

Abstract

Citation Network

Connected Papers

Discussion

Social Feed

Authors

Journals

Actions

Institutions

References and Citations

Citation Network

Connected Papers

Discussion

Cite this study

Also consider