March 3, 2026Open Access

डीप लर्निंग तकनीकों के माध्यम से वास्तविक समय में पक्षी ध्वनि मान्यता ऐप

Key Points

ResNet-18 ने कुल सटीकता 0.955 प्राप्त की, जो पक्षी ध्वनि मान्यता में इसकी प्रभावशीलता को दर्शाता है।
मॉडल ध्वनि को केवल 25.9 मिलीसेकंड में संसाधित करता है, जो इसे वास्तविक समय अनुप्रयोगों के लिए उपयुक्त बनाता है।
प्रशिक्षण में क्लास वेटिंग और डेटा ऑगमेंटेशन जैसी तकनीकें शामिल थीं, जो मोबाइल उपयोग के लिए प्रदर्शन को अनुकूलित करती हैं।
यह फ्रेमवर्क ऑफ़लाइन, उच्च-सटीकता वाली ध्वनि वर्गीकरण को उपकरणों पर सक्षम करके संरक्षण प्रयासों को संभावित रूप से रूपांतरित करता है।

Abstract

यह अध्ययन एक वास्तविक समय, ऑन-डिवाइस पक्षी ध्वनि मान्यता प्रणाली प्रस्तुत करता है जिसे डीप ट्रांसफर लर्निंग के उपयोग से विकसित किया गया है और मोबाइल पर तैनाती के लिए अनुकूलित किया गया है। एक चयनित Xeno-canto कॉर्पस, जो विश्वव्यापी नागरिक वैज्ञानिकों द्वारा योगदान किए गए वन्यजीव ध्वनि रिकॉर्डिंग्स का एक ओपन-एक्सेस भंडार है, जिसमें 610 ताइवान के पक्षी प्रजातियाँ शामिल हैं, का उपयोग छह डीप लर्निंग वास्तुकलाओं का मूल्यांकन करने के लिए किया गया: Residual Network-18 (ResNet-18), Yet Another Mobile Network (YAMNet), Visual Geometry Group जैसी नेटवर्क फॉर ऑडियो क्लासिफिकेशन (VGGish), Convolutional Neural Network–Long Short-Term Memory (CNN-LSTM), Attention-आधारित Convolutional Neural Network (Attention-CNN), और एक Deep Neural Network (DNN) बेसलाइन। सभी मॉडलों को क्लास वेटिंग, बैच नार्मलाइजेशन, 0.2 का ड्रॉपआउट रेट, और लक्षित डेटा ऑगमेंटेशन सहित पिच शिफ्टिंग (±2 सेमिटोन), टाइम स्ट्रेचिंग (0.8–1.2), और टाइम शिफ्टिंग (16,000 सैंपल) के साथ प्रशिक्षित किया गया। इनमें से ResNet-18 ने सटीकता और कम्प्यूटेशनल दक्षता के बीच सर्वश्रेष्ठ संतुलन प्राप्त किया, जिसमें कुल सटीकता 0.955, मैक्रो-प्रिसिजन 0.95, मैक्रो-रियरकल 0.94, और मैक्रो-F1 0.945 थी सभी 610 वर्गों में। मॉडल 25.9 मिलीसेकंड में अनुमान करता है और केवल 3.03 मेगाबाइट मेमोरी उपयोग करता है (लगभग 795,000 पैरामीटर्स), जो भारी वास्तुकला जैसे VGGish (0.8975 सटीकता, 42.2 मिलीसेकंड, 587 मेगाबाइट) की तुलना में बेहतर प्रदर्शन करता है, जबकि YAMNet (0.935 सटीकता, 27.0 मिलीसेकंड, 10.19 मेगाबाइट) जैसे कॉम्पैक्ट विकल्पों के साथ प्रतिस्पर्धात्मक भी रहता है। इसके अलावा, Gradient-weighted Class Activation Mapping (Grad-CAM) विज़ुअलाइजेशन पुष्टि करते हैं कि भविष्यवाणियाँ प्रजाति-विशिष्ट समय-आवृत्ति पैटर्न द्वारा प्रेरित होती हैं, न कि पृष्ठभूमि शोर से। ऑप्टिमाइज़्ड मॉडल को TensorFlow Lite में कनवर्ट करने से Android उपकरणों पर पूरी तरह ऑफ़लाइन अनुमान संभव होता है, जिससे क्लाउड विलंबता समाप्त होती है और उपयोगकर्ता की गोपनीयता सुनिश्चित होती है। कुल मिलाकर, यह हल्का, उच्च-सटीकता वाला फ्रेमवर्क वास्तविक समय में जैव विविधता की निगरानी और संरक्षण अनुसंधान के लिए एक स्केलेबल और व्यावहारिक समाधान प्रदान करता है।

Connected Papers

Building similarity graph...

Analyzing shared references across papers

Discussion

Social Feed

Authors

Hailemariam Abebe Endalamaw

C. C. Yang

Cheng-Hung Hsu

Journals

Multimedia Tools and Applications

Actions

Institutions

National Taiwan University of Science and Technology

References and Citations

Connected Papers

Building similarity graph...

Analyzing shared references across papers

डीप लर्निंग तकनीकों के माध्यम से वास्तविक समय में पक्षी ध्वनि मान्यता ऐप

Key Points

Abstract

Citation Network

Connected Papers

Discussion

Social Feed

Authors

Journals

Actions

Institutions

References and Citations

Citation Network

Connected Papers

Discussion

Cite this study

Also consider