What question did this study set out to answer?

The aim is to enhance the efficiency of finite-sum optimization using Hessian-averaging techniques that tolerate gradient inexactness.

April 10, 2026Open Access

Fast finite-sum optimization via cyclically-sampled Hessian averaging methods

Key Points

The aim is to enhance the efficiency of finite-sum optimization using Hessian-averaging techniques that tolerate gradient inexactness.
Considered Hessian-averaging based subsampled Newton methods for optimization.
Proposed norm condition based adaptive-sampling strategies for gradient inexactness.
Applied deterministic cyclic sampling techniques for subsampled Hessian approximations.
Developed a comprehensive convergence theory addressing both strong convexity and nonconvexity.
Achieved fast local superlinear convergence rates of O(1/k) under new methodologies.
Demonstrated significant improvements in convergence on logistic regression tasks compared to traditional stochastic sampling methods.

Abstract

Abstract We consider minimizing finite-sum objective functions via Hessian-averaging based subsampled Newton methods. These methods allow for gradient inexactness and have fixed per-iteration Hessian approximation costs. The recent work (Na et al. 2023) demonstrated that Hessian averaging can be utilized to achieve fast O (k{k}) O log k k local superlinear convergence for strongly convex functions in high probability, while maintaining fixed per-iteration Hessian costs. These methods, however, require gradient exactness and strong convexity, which poses challenges for their practical implementation. To address this concern we consider Hessian-averaged methods that allow gradient inexactness via norm condition based adaptive-sampling strategies. Furthermore, to better control the error in the subsampled Hessian approximations, we utilize Hessian averaging with deterministic cyclic sampling techniques instead of random sampling, which leads to fast local superlinear convergence. We develop a comprehensive convergence theory, including global linear and sublinear convergence rates for strongly convex and nonconvex functions, respectively. Additionally, we establish an improved local superlinear convergence rate of O (1k) O 1 k. Our analysis introduces novel techniques that differ from previous probabilistic approaches. We investigate the performance of these methods on logistic regression problems, demonstrating significant improvements in convergence over similar Hessian-averaging methods that utilize stochastic sampling.

Connected Papers

Building similarity graph...

Analyzing shared references across papers

Discussion

Authors

Thomas O’Leary-Roseberry

Raghu Bollapragada

Journals

Mathematical Programming

Actions

Institutions

The University of Texas at Austin

The Ohio State University

References and Citations

Connected Papers

Building similarity graph...

Analyzing shared references across papers

Fast finite-sum optimization via cyclically-sampled Hessian averaging methods

Key Points

Abstract

Citation Network

Connected Papers

Discussion

Authors

Journals

Actions

Institutions

References and Citations

Citation Network

Connected Papers

Discussion

Cite this study