Adaptive Real-time Anomaly-based Intrusion Detection using Data Mining and Machine Learning Techniques

Salem, Maher

🇬🇧

Dissertation

Abstract

🇩🇪

Die zunehmende Vernetzung der Informations- und Kommunikationssysteme führt zu einer weiteren Erhöhung der Komplexität und damit auch zu einer weiteren Zunahme von Sicherheitslücken. Klassische Schutzmechanismen wie Firewall-Systeme und Anti-Malware-Lösungen bieten schon lange keinen Schutz mehr vor Eindringversuchen in IT-Infrastrukturen. Als ein sehr wirkungsvolles Instrument zum Schutz gegenüber Cyber-Attacken haben sich hierbei die Intrusion Detection Systeme (IDS) etabliert. Solche Systeme sammeln und analysieren Informationen von Netzwerkkomponenten und Rechnern, um ungewöhnliches Verhalten und Sicherheitsverletzungen automatisiert festzustellen. Während signatur-basierte Ansätze nur bereits bekannte Angriffsmuster detektieren können, sind anomalie-basierte IDS auch in der Lage, neue bisher unbekannte Angriffe (Zero-Day-Attacks) frühzeitig zu erkennen. Das Kernproblem von Intrusion Detection Systeme besteht jedoch in der optimalen Verarbeitung der gewaltigen Netzdaten und der Entwicklung eines in Echtzeit arbeitenden adaptiven Erkennungsmodells. Um diese Herausforderungen lösen zu können, stellt diese Dissertation ein Framework bereit, das aus zwei Hauptteilen besteht. Der erste Teil, OptiFilter genannt, verwendet ein dynamisches "Queuing Concept", um die zahlreich anfallenden Netzdaten weiter zu verarbeiten, baut fortlaufend Netzverbindungen auf, und exportiert strukturierte Input-Daten für das IDS. Den zweiten Teil stellt ein adaptiver Klassifikator dar, der ein Klassifikator-Modell basierend auf "Enhanced Growing Hierarchical Self Organizing Map" (EGHSOM), ein Modell für Netzwerk Normalzustand (NNB) und ein "Update Model" umfasst. In dem OptiFilter werden Tcpdump und SNMP traps benutzt, um die Netzwerkpakete und Hostereignisse fortlaufend zu aggregieren. Diese aggregierten Netzwerkpackete und Hostereignisse werden weiter analysiert und in Verbindungsvektoren umgewandelt. Zur Verbesserung der Erkennungsrate des adaptiven Klassifikators wird das künstliche neuronale Netz GHSOM intensiv untersucht und wesentlich weiterentwickelt. In dieser Dissertation werden unterschiedliche Ansätze vorgeschlagen und diskutiert. So wird eine classification-confidence margin threshold definiert, um die unbekannten bösartigen Verbindungen aufzudecken, die Stabilität der Wachstumstopologie durch neuartige Ansätze für die Initialisierung der Gewichtvektoren und durch die Stärkung der Winner Neuronen erhöht, und ein selbst-adaptives Verfahren eingeführt, um das Modell ständig aktualisieren zu können. Darüber hinaus besteht die Hauptaufgabe des NNB-Modells in der weiteren Untersuchung der erkannten unbekannten Verbindungen von der EGHSOM und der Überprüfung, ob sie normal sind. Jedoch, ändern sich die Netzverkehrsdaten wegen des Concept drif Phänomens ständig, was in Echtzeit zur Erzeugung nicht stationärer Netzdaten führt. Dieses Phänomen wird von dem Update-Modell besser kontrolliert. Das EGHSOM-Modell kann die neuen Anomalien effektiv erkennen und das NNB-Model passt die Änderungen in Netzdaten optimal an. Bei den experimentellen Untersuchungen hat das Framework erfolgversprechende Ergebnisse gezeigt. Im ersten Experiment wurde das Framework in Offline-Betriebsmodus evaluiert. Der OptiFilter wurde mit offline-, synthetischen- und realistischen Daten ausgewertet. Der adaptive Klassifikator wurde mit dem 10-Fold Cross Validation Verfahren evaluiert, um dessen Genauigkeit abzuschätzen. Im zweiten Experiment wurde das Framework auf einer 1 bis 10 GB Netzwerkstrecke installiert und im Online-Betriebsmodus in Echtzeit ausgewertet. Der OptiFilter hat erfolgreich die gewaltige Menge von Netzdaten in die strukturierten Verbindungsvektoren umgewandelt und der adaptive Klassifikator hat sie präzise klassifiziert. Die Vergleichsstudie zwischen dem entwickelten Framework und anderen bekannten IDS-Ansätzen zeigt, dass der vorgeschlagene IDSFramework alle anderen Ansätze übertrifft. Dies lässt sich auf folgende Kernpunkte zurückführen: Bearbeitung der gesammelten Netzdaten, Erreichung der besten Performanz (wie die Gesamtgenauigkeit), Detektieren unbekannter Verbindungen und Entwicklung des in Echtzeit arbeitenden Erkennungsmodells von Eindringversuchen.

Sponsorship

Bundesministerium für Bildung und Forschung

Collections

Dissertationen (Verteilte Systeme)

Citation

BibTex

@phdthesis{urn:nbn:de:hebis:34-2014091546010,
   author={Salem, Maher},
   title={Adaptive Real-time Anomaly-based Intrusion Detection using Data Mining and Machine Learning Techniques},
   school={Kassel, Universität, FB 16, Elektrotechnik / Informatik},
   month={09},
   year={2014}
}

0500 Oax
0501 Text $btxt$2rdacontent
0502 Computermedien $bc$2rdacarrier
1100 2014$n2014
1500 1/eng
2050 ##0##urn:nbn:de:hebis:34-2014091546010
3000 Salem, Maher
4000 Adaptive Real-time Anomaly-based Intrusion Detection using Data Mining and Machine Learning Techniques / Salem, Maher
4030 
4060 Online-Ressource
4085 ##0##=u http://nbn-resolving.de/urn:nbn:de:hebis:34-2014091546010=x R
4204 \$dDissertation
4170 
5550 {{Rechnernetz}}
5550 {{Datensicherung}}
5550 {{Computersicherheit}}
5550 {{Eindringerkennung}}
5550 {{Data Mining}}
5550 {{Maschinelles Lernen}}
7136 ##0##urn:nbn:de:hebis:34-2014091546010


<resource xsi:schemaLocation="http://datacite.org/schema/kernel-2.2 http://schema.datacite.org/meta/kernel-2.2/metadata.xsd">
2014-09-15T10:41:10Z
2014-09-15T10:41:10Z
2014-09-15
urn:nbn:de:hebis:34-2014091546010
http://hdl.handle.net/123456789/2014091546010
Bundesministerium f&uuml;r Bildung und Forschung
eng
Urheberrechtlich gesch&uuml;tzt
https://rightsstatements.org/page/InC/1.0/
Intrusion Detection
Machine Learning
Data Mining
Network Security
Data Analysis
Real-time systems
Massive Data Flows
Network Performance
Self Organizing Map
Artificial Neural Networks
Preprocessing
Feature Selection
Classification
Adaptive Systems
Data Aggregation
Data Management
004
500
620
Adaptive Real-time Anomaly-based Intrusion Detection using Data Mining and Machine Learning Techniques
Dissertation
Die zunehmende Vernetzung der Informations- und Kommunikationssysteme f&uuml;hrt zu einer weiteren Erh&ouml;hung der Komplexit&auml;t und damit auch zu einer weiteren Zunahme von Sicherheitsl&uuml;cken. Klassische Schutzmechanismen wie Firewall-Systeme und Anti-Malware-L&ouml;sungen bieten schon lange keinen Schutz mehr vor Eindringversuchen in IT-Infrastrukturen. Als ein sehr wirkungsvolles Instrument zum Schutz gegen&uuml;ber Cyber-Attacken haben sich hierbei die Intrusion Detection Systeme (IDS) etabliert. Solche Systeme sammeln und analysieren Informationen von Netzwerkkomponenten und Rechnern, um ungew&ouml;hnliches Verhalten und Sicherheitsverletzungen automatisiert festzustellen. W&auml;hrend signatur-basierte Ans&auml;tze nur bereits bekannte Angriffsmuster detektieren k&ouml;nnen, sind anomalie-basierte IDS auch in der Lage, neue bisher unbekannte Angriffe (Zero-Day-Attacks) fr&uuml;hzeitig zu erkennen. Das Kernproblem von Intrusion Detection Systeme besteht jedoch in der optimalen Verarbeitung der gewaltigen Netzdaten und der Entwicklung eines in Echtzeit arbeitenden adaptiven Erkennungsmodells. Um diese Herausforderungen l&ouml;sen zu k&ouml;nnen, stellt diese Dissertation ein Framework bereit, das aus zwei Hauptteilen besteht. Der erste Teil, OptiFilter genannt, verwendet ein dynamisches "Queuing Concept", um die zahlreich anfallenden Netzdaten weiter zu verarbeiten, baut fortlaufend Netzverbindungen auf, und exportiert strukturierte Input-Daten f&uuml;r das IDS. Den zweiten Teil stellt ein adaptiver Klassifikator dar, der ein Klassifikator-Modell basierend auf "Enhanced Growing Hierarchical Self Organizing Map" (EGHSOM), ein Modell f&uuml;r Netzwerk Normalzustand (NNB) und ein "Update Model" umfasst. In dem OptiFilter werden Tcpdump und SNMP traps benutzt, um die Netzwerkpakete und Hostereignisse fortlaufend zu aggregieren. Diese aggregierten Netzwerkpackete und Hostereignisse werden weiter analysiert und in Verbindungsvektoren umgewandelt. Zur Verbesserung der Erkennungsrate des adaptiven Klassifikators wird das k&uuml;nstliche neuronale Netz GHSOM intensiv untersucht und wesentlich weiterentwickelt. In dieser Dissertation werden unterschiedliche Ans&auml;tze vorgeschlagen und diskutiert. So wird eine classification-confidence margin threshold definiert, um die unbekannten b&ouml;sartigen Verbindungen aufzudecken, die Stabilit&auml;t der Wachstumstopologie durch neuartige Ans&auml;tze f&uuml;r die Initialisierung der Gewichtvektoren und durch die St&auml;rkung der Winner Neuronen erh&ouml;ht, und ein selbst-adaptives Verfahren eingef&uuml;hrt, um das Modell st&auml;ndig aktualisieren zu k&ouml;nnen. Dar&uuml;ber hinaus besteht die Hauptaufgabe des NNB-Modells in der weiteren Untersuchung der erkannten unbekannten Verbindungen von der EGHSOM und der &Uuml;berpr&uuml;fung, ob sie normal sind. Jedoch, &auml;ndern sich die Netzverkehrsdaten wegen des Concept drif Ph&auml;nomens st&auml;ndig, was in Echtzeit zur Erzeugung nicht station&auml;rer Netzdaten f&uuml;hrt. Dieses Ph&auml;nomen wird von dem Update-Modell besser kontrolliert. Das EGHSOM-Modell kann die neuen Anomalien effektiv erkennen und das NNB-Model passt die &Auml;nderungen in Netzdaten optimal an. Bei den experimentellen Untersuchungen hat das Framework erfolgversprechende Ergebnisse gezeigt. Im ersten Experiment wurde das Framework in Offline-Betriebsmodus evaluiert. Der OptiFilter wurde mit offline-, synthetischen- und realistischen Daten ausgewertet. Der adaptive Klassifikator wurde mit dem 10-Fold Cross Validation Verfahren evaluiert, um dessen Genauigkeit abzusch&auml;tzen. Im zweiten Experiment wurde das Framework auf einer 1 bis 10 GB Netzwerkstrecke installiert und im Online-Betriebsmodus in Echtzeit ausgewertet. Der OptiFilter hat erfolgreich die gewaltige Menge von Netzdaten in die strukturierten Verbindungsvektoren umgewandelt und der adaptive Klassifikator hat sie pr&auml;zise klassifiziert. Die Vergleichsstudie zwischen dem entwickelten Framework und anderen bekannten IDS-Ans&auml;tzen zeigt, dass der vorgeschlagene IDSFramework alle anderen Ans&auml;tze &uuml;bertrifft. Dies l&auml;sst sich auf folgende Kernpunkte zur&uuml;ckf&uuml;hren: Bearbeitung der gesammelten Netzdaten, Erreichung der besten Performanz (wie die Gesamtgenauigkeit), Detektieren unbekannter Verbindungen und Entwicklung des in Echtzeit arbeitenden Erkennungsmodells von Eindringversuchen.
open access
Salem, Maher
Kassel, Universit&auml;t, FB 16, Elektrotechnik / Informatik
Geihs, Kurt (Prof. Dr.)
B&uuml;hler, Ulrich (Prof. Dr.)
Sick, Bernhard (Prof. Dr.)
Wacker, Arno (Prof. Dr.)
Algorithms
Design
Experimentation
Management
Measurement
Performance
Reliability
Security
Theory
Verification
Mathematical Methods
Neural Networks and Related Topics
Classification Methods
Cluster Analysis
Simulation Modeling
Dynamic Analysis
Optimization Techniques
Programming Models
Data analysis
Multivariate analysis
regression
Design of experiments
Foundations of probability theory
Software
Discrete mathematics in relation to computer science
Artificial intelligence
Computing methodologies and applications
Algorithms
Rechnernetz
Datensicherung
Computersicherheit
Eindringerkennung
Data Mining
Maschinelles Lernen
2014-08-12
</resource>

The following license files are associated with this item:

:
Urheberrechtlich geschützt

View/Open

Date

Author

Subject

URI

Metadata