March 3, 2026

Automatisation de la génération de bases de données, de l’analyse statistique et de l’apprentissage supervisé de réseaux de neurones graphiques : application à la spectroscopie de grands agrégats CH d’intérêt astrophysique

Key Points

High-level datasets were created for systems C60H10 and C120H10, enhancing spectral predictions.
An AttentiveFP model outperformed a standard MPNN in reproducing peak positions and intensities of IR spectra.
Automated workflows combined high-level and synthetic datasets to effectively train graphical neural networks.
This method supports scalable learning for increasingly diverse molecular aggregates, impacting future spectroscopy applications.

Abstract

La prédiction et l'interprétation précises des spectres infrarouges (IR) des grands agrégats d'hydrocarbures demeurent un défi en raison du coût computationnel élevé des méthodes de chimie quantique et de la complexité des spectres expérimentaux. De plus, la génération de jeux de données d'apprentissage automatiques à la fois vastes, diversifiés et de haute qualité est rendue difficile par le coût des calculs quantiques complets et la disponibilité limitée des données expérimentales.Pour surmonter ces obstacles, cette thèse introduit Mech-AMK, un flux de travail automatisé qui associe une génération systématique de bases de données à une procédure de fragmentation, afin de produire des données d'entraînement synthétiques conservant les caractéristiques spectrales essentielles des grands agrégats moléculaires.Mech-AMK a été appliqué à deux systèmes représentatifs, C60H10 et C120H10, afin de constituer deux ensembles de données complémentaires :(1) un jeu de données de haut niveau, composé de structures optimisées et de spectres IR calculés au niveau de théorie B97-D3/def2-SVP ;(2) un jeu de fragments synthétiques, généré selon des règles de fragmentation et de recombinaison, reproduisant les contributions spectrales des systèmes complets.Les deux collections incluent les géométries tridimensionnelles et les spectres vibrationnels calculés, adaptés à l'apprentissage supervisé.Le jeu de données de haut niveau a été utilisé pour entraîner des réseaux de neurones graphiques (GNN) destinés à la prédiction des spectres IR. Le développement et l'évaluation des modèles montrent qu'une architecture AttentiveFP atteint une précision et une fidélité spectrale supérieures à celles d'un modèle de référence MPNN standard, améliorant la reproduction des positions et intensités des pics sur l'ensemble du spectre. Parallèlement, les spectres simulés ont été comparés directement aux mesures expérimentales : un bon accord est observé dans les régions d'élongation et de flexion C-C (∼ 850-1700 cm−1) ainsi que dans la région d'élongation C-H (∼ 700-3100 cm−1), démontrant que la combinaison des ensembles de données de haut niveau et synthétiques permet de capturer les signatures spectroscopiques dominantes des grands agrégats d'hydrocarbures.Dans l'ensemble, ce travail démontre que la génération automatisée de bases de données, associée à des données synthétiques dérivées de la fragmentation, permet l'entraînement à grande échelle de GNNs pour une prédiction fiable des spectres vibrationnels, tout en facilitant la comparaison quantitative entre simulations et expériences pour des systèmes moléculaires étendus. Cette approche ouvre une voie pratique pour étendre l'apprentissage automatique appliqué à la spectroscopie à des agrégats de plus en plus grands et diversifiés, et suggère des perspectives d'application futures vers d'autres observables expérimentales au-delà des spectres IR.

Connected Papers

Building similarity graph...

Analyzing shared references across papers

Discussion

Cite this study

Xuewen Xiao (Fri,) studied this question.

www.synapsesocial.com/papers/69a76863badf0bb9e87e48a5

Authors

Xuewen Xiao

Actions

References and Citations

Connected Papers

Building similarity graph...

Analyzing shared references across papers

Automatisation de la génération de bases de données, de l’analyse statistique et de l’apprentissage supervisé de réseaux de neurones graphiques : application à la spectroscopie de grands agrégats CH d’intérêt astrophysique

Key Points

Abstract

Citation Network

Connected Papers

Discussion

Cite this study

Authors

Actions

References and Citations

Citation Network

Connected Papers

Discussion