What question did this study set out to answer?

The central aim is to address GPU memory limitations in deep neural network training through a new quantization method.

April 15, 2026Open Access

FDSR: Efficient Model Training via Adaptive Tensor Quantization Based on Frequency Domain Division and Similarity Data Reuse

Key Points

The central aim is to address GPU memory limitations in deep neural network training through a new quantization method.
Developed an adaptive tensor quantization approach using frequency domain division.
Implemented a similarity-based data reuse strategy to reduce computational overhead.
Utilized tailored locality-sensitive hashing for optimized memory operations.
Achieved 10.20 × average activation memory compression with only 1.10% accuracy loss.
Improved memory optimization by up to 68.6% compared to existing methods.
Increased training throughput by up to 25.55% across various GPU architectures.

Abstract

As deep neural networks (DNNs) continue to grow in scale and complexity, GPU memory limitations have become a significant challenge for DNN model training, especially on resource-constrained commercial GPUs. While model quantization facilitates memory-efficient training, it often necessitates a trade-off between quantization granularity and model accuracy. And quantization imposes additional computational overhead, which adversely affects the training throughput and apportions out the performance gains it brings. In this paper, we propose FDSR, an adaptive tensor quantization method that leverages frequency domain division and similarity-based data reuse to break the memory bottleneck in visual model training. FDSR leverages the frequency-domain characteristics of tensors in terms of memory consumption and model accuracy, and proposes a fine-grained tensor quantization with different quantization bit-widths. It adaptively optimizes the quantization parameters according to model accuracy during training while employing sparsification according to data frequency-domain features, minimizing memory consumption and accuracy loss. To counteract the computational cost, FDSR incorporates a novel similarity-based reuse strategy that avoids redundant quantization/dequantization computations, further enhanced by a tailored Locality-Sensitive Hashing (LSH) mechanism and optimized kernels. Experimental results demonstrate that FDSR achieves an average of 10.20 × activation memory compression with only 1.10% average accuracy loss across various models on the commercial GPU. Compared to the state-of-the-art quantization methods, FDSR improves memory optimization by up to 68.6% and increases throughput by up to 25.55%, with consistent performance improvements on different GPU architectures.

Connected Papers

Building similarity graph...

Analyzing shared references across papers

Discussion

Authors

Song Liu

FuLi LI

Chenyu Zhao

Journals

ACM Transactions on Architecture and Code Optimization

Actions

Institutions

Xi'an Jiaotong University

References and Citations

Connected Papers

Building similarity graph...

Analyzing shared references across papers

FDSR: Efficient Model Training via Adaptive Tensor Quantization Based on Frequency Domain Division and Similarity Data Reuse

Key Points

Abstract

Citation Network

Connected Papers

Discussion

Authors

Journals

Actions

Institutions

References and Citations

Citation Network

Connected Papers

Discussion

Cite this study