March 3, 2026

A two-stage multimodal learning framework based on text-driven vision pretraining and cross-modal feature fusion for thyroid ultrasound diagnosis

Improved accuracy in ultrasound diagnosis with a two-stage multimodal learning framework, enhancing diagnostic potential.
Key evidence includes better performance metrics when using text-driven vision alongside ultrasound features.
Assessment involved a multimodal approach leveraging pretraining techniques for cross-modal feature fusion.
Findings highlight the need for innovative diagnostic algorithms in medical imaging, though real-world validation is essential.

Connected Papers

Building similarity graph...

Analyzing shared references across papers

Mengzhu Yu

Yu Yan

Tianwei Yan

Expert Systems with Applications

Huazhong University of Science and Technology

Wuhan Union Hospital

Building similarity graph...

Analyzing shared references across papers