La prédiction et l'interprétation précises des spectres infrarouges (IR) des grands agrégats d'hydrocarbures demeurent un défi en raison du coût computationnel élevé des méthodes de chimie quantique et de la complexité des spectres expérimentaux. De plus, la génération de jeux de données d'apprentissage automatiques à la fois vastes, diversifiés et de haute qualité est rendue difficile par le coût des calculs quantiques complets et la disponibilité limitée des données expérimentales.Pour surmonter ces obstacles, cette thèse introduit Mech-AMK, un flux de travail automatisé qui associe une génération systématique de bases de données à une procédure de fragmentation, afin de produire des données d'entraînement synthétiques conservant les caractéristiques spectrales essentielles des grands agrégats moléculaires.Mech-AMK a été appliqué à deux systèmes représentatifs, C60H10 et C120H10, afin de constituer deux ensembles de données complémentaires :(1) un jeu de données de haut niveau, composé de structures optimisées et de spectres IR calculés au niveau de théorie B97-D3/def2-SVP ;(2) un jeu de fragments synthétiques, généré selon des règles de fragmentation et de recombinaison, reproduisant les contributions spectrales des systèmes complets.Les deux collections incluent les géométries tridimensionnelles et les spectres vibrationnels calculés, adaptés à l'apprentissage supervisé.Le jeu de données de haut niveau a été utilisé pour entraîner des réseaux de neurones graphiques (GNN) destinés à la prédiction des spectres IR. Le développement et l'évaluation des modèles montrent qu'une architecture AttentiveFP atteint une précision et une fidélité spectrale supérieures à celles d'un modèle de référence MPNN standard, améliorant la reproduction des positions et intensités des pics sur l'ensemble du spectre. Parallèlement, les spectres simulés ont été comparés directement aux mesures expérimentales : un bon accord est observé dans les régions d'élongation et de flexion C-C (∼ 850-1700 cm−1) ainsi que dans la région d'élongation C-H (∼ 700-3100 cm−1), démontrant que la combinaison des ensembles de données de haut niveau et synthétiques permet de capturer les signatures spectroscopiques dominantes des grands agrégats d'hydrocarbures.Dans l'ensemble, ce travail démontre que la génération automatisée de bases de données, associée à des données synthétiques dérivées de la fragmentation, permet l'entraînement à grande échelle de GNNs pour une prédiction fiable des spectres vibrationnels, tout en facilitant la comparaison quantitative entre simulations et expériences pour des systèmes moléculaires étendus. Cette approche ouvre une voie pratique pour étendre l'apprentissage automatique appliqué à la spectroscopie à des agrégats de plus en plus grands et diversifiés, et suggère des perspectives d'application futures vers d'autres observables expérimentales au-delà des spectres IR.
Building similarity graph...
Analyzing shared references across papers
Loading...
Xuewen Xiao (Fri,) studied this question.
Xuewen Xiao
Building similarity graph...
Analyzing shared references across papers
Loading...