What question did this study set out to answer?

The aim is to improve alert classification in SOCs through automation using Large Language Models.

March 15, 2026Open Access

LLM-Based IDS Alert Interpretation for Cyber Incident Analysis and Triage

Key Points

The aim is to improve alert classification in SOCs through automation using Large Language Models.
Developed a concept for automated classification of IDS alerts using context from Cyber Threat Intelligence data.
Evaluated the effectiveness of ChatGPT and Gemini in classifying alerts from network-based and host-based IDS.
Examined the impact of contextual information and Few-Shot examples on alert interpretation.
LLMs struggled to differentiate between true attack events and false alarms without additional context.
Alerts with clear indicators of malicious activities were classified more accurately than those with vague indicators.
Few-Shot examples improved classification accuracy, but careful selection is crucial.

Abstract

Die Analyse der großen Anzahl von Warnmeldungen (Alerts), die täglich von Intrusion Detection Systemen (IDS) generiert werden, stellt für Analysten in Security Operation Centers (SOC) eine erhebliche Herausforderung dar. Dies gilt insbesondere, wenn ein hoher Anteil der Meldungen auf Fehlalarme (False Positives) zurückzuführen ist. Die Automatisierung von Teilen des Alert-Triage-Prozesses kann daher einen wichtigen Beitrag zur Entlastung von SOC-Teams und zur Absicherung von IT-Infrastrukturen leisten. In dieser Arbeit entwickeln wir ein Konzept für die automatisierte Klassifizierung und Informationsanreicherung von IDS-Alerts durch die Zuordnung zu relevanten Cyber Threat Intelligence (CTI)-Daten. Wir beschäftigen uns insbesondere mit dem Problem der Aufbereitung der Alerts für den Zuordnungsprozess. Wir untersuchen hierfür den Einsatz von Large Language Models (LLMs) für die Klassifizierung von IDS-Warnmeldungen, mit einem Fokus auf der Fähigkeit von LLMs, echte Angriffsmuster in den Alerts von Fehlalarmen zu unterscheiden und Warnmeldungen korrekt MITRE ATT&CK-Techniken zuzuordnen. Für die Evaluation verwenden wir Alerts aus sowohl netzwerkbasierten als auch hostbasierten IDS und vergleichen die Effektivität der Klassifizierungen zweier LLMs, ChatGPT und Gemini. Darüber hinaus untersuchen wir den Einfluss von Systemkontextinformationen wie zusätzlichen Logeinträgen oder Informationen zur Serverkonfiguration. Wir analysieren außerdem den Einfluss von Few-Shot-Beispielen auf die Interpretation der Warnmeldungen und bewerten, wie konsistent die Modelle identische Eingabeaufforderungen interpretieren. Unsere Ergebnisse zeigen, dass beide untersuchten LLMs ohne zusätzliche Kontextinformationen oder geeignete Few-Shot-Beispiele Schwierigkeiten haben, Angriffsereignisse von Fehlalarmen zu unterscheiden. Insgesamt erzielen die Modelle bessere Ergebnisse bei Alerts, die klare Indikatoren für potenziell bösartige Aktivitäten enthalten, beispielsweise die Erwähnung spezifischer Tools oder TTPs (Tactics, Techniques and Procedures), die typischerweise im Rahmen realer Angriffe eingesetzt werden. Alerts mit schwächeren Indikatoren, wie ungewöhnliche Häufungen von Events oder Protokollabweichungen, werden dagegen weniger präzise klassifiziert. Wir haben außerdem festgestellt, dass Few-Shot-Beispiele die Interpretationsqualität erheblich verbessern können, obwohl unsere Experimente zeigen, wie wichtig es ist, diese Beispiele sorgfältig auszuwählen. Darüber hinaus zeigen unsere Versuche mehrere Herausforderungen hinsichtlich der praktischen Einsatzfähigkeit von LLMs im SOC-Kontext, darunter überlastete Modelle, hohe Token-Kosten, API-Rate-Limits und gelegentliche Verarbeitungsfehler.

LLM-Based IDS Alert Interpretation for Cyber Incident Analysis and Triage

Key Points

Abstract

Cite This Study