Für die Entwicklung und Anwendung KI-gestützter Sicherheitssysteme sind aktuelle, repräsentative und feingranular gelabelte Trainingsdaten unerlässlich, jedoch aufgrund datenschutzrechtlicher Aspekte häufig nicht verfügbar.
Ziel von GENESIS ist die Behebung dieses Defizits im Bereich Cybersecurity durch die Entwicklung von Methoden zur Generierung und Evaluation realistischer Trainings- und Testdatensätze zur Verbesserung von Insider Threat und Intrusion Detection Systemen. Dabei werden unterschiedliche sicherheitsrelevante Datenquellen wie Netzwerkdaten oder hostbasierte Logdateien berücksichtigt. Ein weiteres Ziel von GENESIS besteht darin, ein besseres Verständnis zu entwickeln, wie sich bestimmte Angriffsszenarien in unterschiedlichen Datenquellen niederschlagen.
Generierte Trainingsdaten, Methoden und gewonnene Erkenntnisse werden offengelegt, um so crowd-basiert umfangreichere Trainingsmöglichkeiten sowie eine Vergleichsgrundlage für verschiedene Ansätze im IT-Sicherheitsbereich auch über das Projektkonsortium hinaus zu ermöglichen.
Wolf, Maximilian; Tritscher, J.; Landes, Dieter; Hotho, Andreas; Schlör, D. (2024)
Computers and Security 2024, 103993 (145).
Benchmarking of Synthetic Network Data: Reviewing Challenges and Approaches
DOI: 10.1016/j.cose.2024.103993
Peer Reviewed
Für die Entwicklung und Anwendung KI-gestützter Sicherheitssysteme sind aktuelle, repräsentative und feingranular gelabelte Trainingsdaten unerlässlich, jedoch aufgrund datenschutzrechtlicher Aspekte häufig nicht verfügbar. Ziel von GENESIS ist die Behebung dieses Defizits im Bereich Cybersecurity durch die Entwicklung von Methoden zur Generierung und Evaluation realistischer Trainings- und Testdatensätze zur Verbesserung von Insider Threat und Intrusion Detection Systemen. Dabei werden unterschiedliche sicherheitsrelevante Datenquellen wie Netzwerkdaten oder hostbasierte Logdateien berücksichtigt. Ein weiteres Ziel von GENESIS besteht darin, ein besseres Verständnis zu entwickeln, wie sich bestimmte Angriffsszenarien in unterschiedlichen Datenquellen niederschlagen. Generierte Trainingsdaten, Methoden und gewonnene Erkenntnisse werden offengelegt, um so crowd-basiert umfangreichere Trainingsmöglichkeiten sowie eine Vergleichsgrundlage für verschiedene Ansätze im IT-Sicherheitsbereich auch über das Projektkonsortium hinaus zu ermöglichen.