Die Analyse der großen Anzahl von Warnmeldungen (Alerts), die täglich von Intrusion Detection Systemen (IDS) generiert werden, stellt für Analysten in Security Operation Centers (SOC) eine erhebliche Herausforderung dar. Dies gilt insbesondere, wenn ein hoher Anteil der Meldungen auf Fehlalarme (False Positives) zurückzuführen ist. Die Automatisierung von Teilen des Alert-Triage-Prozesses kann daher einen wichtigen Beitrag zur Entlastung von SOC-Teams und zur Absicherung von IT-Infrastrukturen leisten. In dieser Arbeit entwickeln wir ein Konzept für die automatisierte Klassifizierung und Informationsanreicherung von IDS-Alerts durch die Zuordnung zu relevanten Cyber Threat Intelligence (CTI)-Daten. Wir beschäftigen uns insbesondere mit dem Problem der Aufbereitung der Alerts für den Zuordnungsprozess. Wir untersuchen hierfür den Einsatz von Large Language Models (LLMs) für die Klassifizierung von IDS-Warnmeldungen, mit einem Fokus auf der Fähigkeit von LLMs, echte Angriffsmuster in den Alerts von Fehlalarmen zu unterscheiden und Warnmeldungen korrekt MITRE ATT&CK-Techniken zuzuordnen. Für die Evaluation verwenden wir Alerts aus sowohl netzwerkbasierten als auch hostbasierten IDS und vergleichen die Effektivität der Klassifizierungen zweier LLMs, ChatGPT und Gemini. Darüber hinaus untersuchen wir den Einfluss von Systemkontextinformationen wie zusätzlichen Logeinträgen oder Informationen zur Serverkonfiguration. Wir analysieren außerdem den Einfluss von Few-Shot-Beispielen auf die Interpretation der Warnmeldungen und bewerten, wie konsistent die Modelle identische Eingabeaufforderungen interpretieren. Unsere Ergebnisse zeigen, dass beide untersuchten LLMs ohne zusätzliche Kontextinformationen oder geeignete Few-Shot-Beispiele Schwierigkeiten haben, Angriffsereignisse von Fehlalarmen zu unterscheiden. Insgesamt erzielen die Modelle bessere Ergebnisse bei Alerts, die klare Indikatoren für potenziell bösartige Aktivitäten enthalten, beispielsweise die Erwähnung spezifischer Tools oder TTPs (Tactics, Techniques and Procedures), die typischerweise im Rahmen realer Angriffe eingesetzt werden. Alerts mit schwächeren Indikatoren, wie ungewöhnliche Häufungen von Events oder Protokollabweichungen, werden dagegen weniger präzise klassifiziert. Wir haben außerdem festgestellt, dass Few-Shot-Beispiele die Interpretationsqualität erheblich verbessern können, obwohl unsere Experimente zeigen, wie wichtig es ist, diese Beispiele sorgfältig auszuwählen. Darüber hinaus zeigen unsere Versuche mehrere Herausforderungen hinsichtlich der praktischen Einsatzfähigkeit von LLMs im SOC-Kontext, darunter überlastete Modelle, hohe Token-Kosten, API-Rate-Limits und gelegentliche Verarbeitungsfehler.
Alina Sophia Schärmer (Sun,) studied this question.