根因分析(RCA)利用多模态可观察性数据(包括指标、调用链和日志)来识别系统故障的根本原因,对于确保复杂微服务系统的可靠性至关重要。传统上,RCA依赖人工工程师手动关联这些分散信号,这一过程劳动力密集且容易出错。尽管近年来的AIOps进展,特别是利用大型语言模型(LLMs)自动化该流程,但仍受限于各种限制。现有方法常依赖单一模态数据,限制了诊断的全面性。此外,利用多模态数据的方法通常依赖简单的时间对齐,无法捕捉复杂的语义关系,或直接使用LLMs,容易产生幻觉且缺乏可靠性。为解决这些问题,我们提出了一种新颖的图增强多智能体框架,将图拓扑的结构严谨性与LLMs的先进语义推理能力相结合。该方法分为两个阶段,模拟人类专家的解决问题流程。首先,在异常融合图构建阶段,我们采用混合对齐策略弥合非结构化日志与结构化调用链之间的差距。LLM作为“语义仲裁者”解决高并发场景中的歧义,创建统一知识环境,使每个节点富含全面的健康洞察。其次,多智能体协作推理阶段部署专属智能体团队模拟人类站点可靠性工程师(SRE)工作流。导航智能体通过计算故障梯度高效引导搜索空间,诊断智能体执行深层语义分析,关键的验证智能体通过严格的反事实推理执行对抗性验证协议以减少幻觉。针对五个多样化数据集的广泛实验表明我们方法的鲁棒性和有效性。结果显示,我们的框架实现了平均88.4%的F1分数,比最先进基线高出4.6%,证明其能够将多模态信息整合为可执行的诊断见解。
Building similarity graph...
Analyzing shared references across papers
Loading...
Zou等人(Thu,)研究了这一问题。
www.synapsesocial.com/papers/69d1fd3da79560c99a0a3133 — DOI: https://doi.org/10.32604/cmc.2026.077908
Synapse has enriched 5 closely related papers on similar clinical questions. Consider them for comparative context:
Haodong Zou
Yichen Zhao
Xin Chen
Computers, materials & continua/Computers, materials & continua (Print)
Building similarity graph...
Analyzing shared references across papers
Loading...