What question did this study set out to answer?

The aim is to improve image-text matching by enhancing semantic alignment between images and text using advanced techniques.

April 15, 2026Open Access

Cross‐Modal Dynamic Semantic Alignment for Image‐Text Matching via Progressive Optimization

Key Points

The aim is to improve image-text matching by enhancing semantic alignment between images and text using advanced techniques.
Developed a context-aware feature enhancement module to refine feature weights and reduce noise.
Created a dynamic cross-modal aligner to learn attention coefficients for better alignment of regions and words.
Introduced a progressive similarity integrator to refine similarity measures using historical alignment data.
CDSA-PO outperformed existing state-of-the-art methods on the Flickr30K and MS-COCO datasets.
Demonstrated significant improvements in precise semantic alignments between images and texts.

Abstract

ABSTRACT Semantic alignment is a key component of image‐text matching in vision‐language research, aiming to accurately measure semantic similarity between images and texts. Most existing approaches exhibit rigid attention mechanisms and static similarity fusion strategies, which fundamentally constrain the model's capacity to establish fine‐grained cross‐modal alignment, ultimately degrading the image‐text matching performance. This work proposes a novel cross‐modal dynamic semantic alignment for image‐matching via progressive optimization (CDSA‐PO). At first, we introduce a context‐aware feature enhancement module to adaptively refine channel‐wise feature weights, reduce noise and enhance fine‐grained semantics. Secondly, we propose a dynamic cross‐modal aligner that adaptively learns modality‐specific attention coefficients for fine‐grained region‐word alignment via iterative optimization, thereby enhancing the granularity and fidelity of cross‐modal corre‐ spondences. Finally, we introduce a progressive similarity integrator to iteratively refine similarity aggregation guided by historical alignment cues. Experiments on Flickr30K and MS‐COCO demonstrate that CDSA‐PO significantly outperforms state‐of‐the‐art baselines in image‐text matching.

Connected Papers

Building similarity graph...

Analyzing shared references across papers

Discussion

Authors

Liang Zhang

Likai Chong

Rui Shi

Journals

IET Image Processing

Actions

Institutions

Hohai University

Nanjing Hydraulic Research Institute

References and Citations

Connected Papers

Building similarity graph...

Analyzing shared references across papers

Cross‐Modal Dynamic Semantic Alignment for Image‐Text Matching via Progressive Optimization

Key Points

Abstract

Citation Network

Connected Papers

Discussion

Authors

Journals

Actions

Institutions

References and Citations

Citation Network

Connected Papers

Discussion

Cite this study