Off-Board Car Diagnostics Based on Heterogeneous, Highly Imbalanced and High-Dimensional Data Using Machine Learning Techniques

Schlegel, Bernhard

Buch

Abstract

🇬🇧
🇩🇪

Data-driven maintenance poses many challenges. Four very important of them, namely coping with a high dimensional and heterogeneos feature space, the highly imbalanced data sets, the Remaining Useful Lifetime (RUL) prediction of monitored parts based on short yet variable length timeseries, and already large but steadily further increasing data set size are identified. Each of the challenges is dealt with in one chapter. Novel techniques are designed, implemented, validated, and compared to existing approaches based on a variety of (publicly available) data sets for general applicability. In the following multiple concepts are proposed and evaluated in great detail: A feature selection pipeline with multiple consecutive stages of increasing run-time complexity but also increasing accuracy to tackle the high dimensional feature space. Existing techniques to tackle imbalance are evaluated and compared to a novel technique that stands out due to its extremely low computational complexity. Two novel techniques based on cascaded Random Forests (RFs) and on density-based estimation that outperform current state of the art techniques for RUL prediction. And finally: The evaluation of an in-memory cluster computing framework regarding its suitability for not only large-scale data set extraction from a relational database, preprocessing and transformation of the dataset but also machine learning.

Die datengetriebene Wartung und Instandhaltung birgt eine Vielzahl von Herausforderungen. Vier sehr wichtige von ihnen wurden identifiziert: Die hohe Dimensionalität und Heterogenität des vorliegenden Merkmalsraumes, die hohe Imbalance der Datensätze, die Vorhersage der Restlebensdauer von überwachten Komponenten auf Basis von kurzen bzw. unterschiedlich langen Zeitreihen und die bereits sehr große und kontinuierlich weiter wachsendende Menge von Daten. Jeder dieser Herausforderungen ist ein dediziertes Kapitel gewidmet. Hierzu wurden neuartige Techniken entwickelt, implementiert, validiert und mit existierenden Ansätzen auf Basis einer Vielzahl von teilweise öffentlich verfügbaren Datensätzen hinsichtlich ihrer allgemeinen Anwendbarkeit verglichen. Folgende Konzepte werden vorgestellt und im Detail bewertet: Eine Pipeline zur Merkmalsauswahl mit mehreren, aufeinander folgenden Schichten mit jeweils steigender Berechnungskomplexität und Genauigkeit, um wichtige Merkmale aus hochdimensionalen Merkmalsräumen zu extrahieren. Existierende Techniken zur Beherrschung starker Imbalance werden evaluiert und mit einer neuartigen Technik, die eine extrem geringe Berechnungskomplexität aufweist, verglichen. Zwei neuartige Techniken auf Basis von kaskadierten Random Forests bzw. auf Basis von Dichteschätzung werden vorgestellt. Diese über-treffen bereits existierende Lösungen zur Vorhersage der Restlebensdauer von Komponenten. Zum Abschluss werden die vielversprechendsten Methoden für ein In-Memory Cluster Computing Framework implementiert und dieses hinsichtlich seiner Eignung zur Datenextraktion und -transformation sowie zurModellbildung, untersucht.

Additional Information

Zugleich: Dissertation, Universität Kassel, 2019

Collections

kup - kassel university press (Digitale Bibliotheksdienste)

Druckausgabe

Link zu kassel university press

Citation

BibTex

@book{doi:10.17170/kobra-202008141582,
   author={Schlegel, Bernhard},
   title={Off-Board Car Diagnostics Based on Heterogeneous, Highly Imbalanced and High-Dimensional Data Using Machine Learning Techniques},
   publisher={kassel university press},
   year={2019}
}

0500 Oax
0501 Text $btxt$2rdacontent
0502 Computermedien $bc$2rdacarrier
1100 2019$n2019
1500 1/eng
2050 ##0##http://hdl.handle.net/123456789/11698
3000 Schlegel, Bernhard
4000 Off-Board Car Diagnostics Based on Heterogeneous, Highly Imbalanced and High-Dimensional Data Using Machine Learning Techniques / Schlegel, Bernhard
4030 
4060 Online-Ressource
4085 ##0##=u http://nbn-resolving.de/http://hdl.handle.net/123456789/11698=x R
4204 \$dBuch
4170 Intelligent Embedded Systems ;; Band 14
5550 {{Kraftfahrzeug}}
5550 {{Instandhaltung}}
5550 {{Reparatur}}
5550 {{Diagnosesystem}}
5550 {{Maschinelles Lernen}}
5550 {{Restlebensdauer}}
5550 {{Merkmalsextraktion}}
5550 {{Merkmalsraum}}
5550 {{Hochdimensionale Daten}}
5550 {{Heterogenität}}
7136 ##0##http://hdl.handle.net/123456789/11698


<resource xsi:schemaLocation="http://datacite.org/schema/kernel-2.2 http://schema.datacite.org/meta/kernel-2.2/metadata.xsd">
2020-08-18T12:59:30Z
2020-08-18T12:59:30Z
2019
doi:10.17170/kobra-202008141582
978-3-7376-0739-1 (e-book)
http://hdl.handle.net/123456789/11698
Zugleich: Dissertation, Universit&auml;t Kassel, 2019
eng
kassel university press
urn:nbn:de:0002-407391
Namensnennung - Weitergabe unter gleichen Bedingungen 4.0 International
http://creativecommons.org/licenses/by-sa/4.0/
004
620
Off-Board Car Diagnostics Based on Heterogeneous, Highly Imbalanced and High-Dimensional Data Using Machine Learning Techniques
Buch
Data-driven maintenance poses many challenges. Four very important of them, namely coping with a high dimensional and heterogeneos feature space, the highly imbalanced data sets, the Remaining Useful Lifetime (RUL) prediction of monitored parts based on short yet variable length timeseries, and already large but steadily further increasing data set size are identified. Each of the challenges is dealt with in one chapter. Novel techniques are designed, implemented, validated, and compared to existing approaches based on a variety of (publicly available) data sets for general applicability. In the following multiple concepts are proposed and evaluated in great detail: A feature selection pipeline with multiple consecutive stages of increasing run-time complexity but also increasing accuracy to tackle the high dimensional feature space. Existing techniques to tackle imbalance are evaluated and compared to a novel technique that stands out due to its extremely low computational complexity. Two novel techniques based on cascaded Random Forests (RFs) and on density-based estimation that outperform current state of the art techniques for RUL prediction. And finally: The evaluation of an in-memory cluster computing framework regarding its suitability for not only large-scale data set extraction from a relational database, preprocessing and transformation of the dataset but also machine learning.
Die datengetriebene Wartung und Instandhaltung birgt eine Vielzahl von Herausforderungen. Vier sehr wichtige von ihnen wurden identifiziert: Die hohe Dimensionalit&auml;t und Heterogenit&auml;t des vorliegenden Merkmalsraumes, die hohe Imbalance der Datens&auml;tze, die Vorhersage der Restlebensdauer von &uuml;berwachten Komponenten auf Basis von kurzen bzw. unterschiedlich langen Zeitreihen und die bereits sehr gro&szlig;e und kontinuierlich weiter wachsendende Menge von Daten. Jeder dieser Herausforderungen ist ein dediziertes Kapitel gewidmet. Hierzu wurden neuartige Techniken entwickelt, implementiert, validiert und mit existierenden Ans&auml;tzen auf Basis einer Vielzahl von teilweise &ouml;ffentlich verf&uuml;gbaren Datens&auml;tzen hinsichtlich ihrer allgemeinen Anwendbarkeit verglichen. Folgende Konzepte werden vorgestellt und im Detail bewertet: Eine Pipeline zur Merkmalsauswahl mit mehreren, aufeinander folgenden Schichten mit jeweils steigender Berechnungskomplexit&auml;t und Genauigkeit, um wichtige Merkmale aus hochdimensionalen Merkmalsr&auml;umen zu extrahieren. Existierende Techniken zur Beherrschung starker Imbalance werden evaluiert und mit einer neuartigen Technik, die eine extrem geringe Berechnungskomplexit&auml;t aufweist, verglichen. Zwei neuartige Techniken auf Basis von kaskadierten Random Forests bzw. auf Basis von Dichtesch&auml;tzung werden vorgestellt. Diese &uuml;ber-treffen bereits existierende L&ouml;sungen zur Vorhersage der Restlebensdauer von Komponenten. Zum Abschluss werden die vielversprechendsten Methoden f&uuml;r ein In-Memory Cluster Computing Framework implementiert und dieses hinsichtlich seiner Eignung zur Datenextraktion und -transformation sowie zurModellbildung, untersucht.
open access
Schlegel, Bernhard
2019-05-29
xii, 185 Seiten
Intelligent Embedded Systems ;; Band 14
Kassel, Universit&auml;t Kassel, Fachbereich Elektrotechnik / Informatik
Sick, Bernhard (Prof. Dr.)
Brabetz, Ludwig (Prof. Dr.)
Kassel
978-3-7376-0738-4 (print)
Kraftfahrzeug
Instandhaltung
Reparatur
Diagnosesystem
Maschinelles Lernen
Restlebensdauer
Merkmalsextraktion
Merkmalsraum
Hochdimensionale Daten
Heterogenit&auml;t
publishedVersion
Intelligent Embedded Systems
Band 14
true
39,00
Intelligent Embedded Systems
Naturwissenschaft, Technik, Informatik, Medizin
Dissertation
FB 16 / Elektrotechnik / Informatik
</resource>

The following license files are associated with this item:

Creative Commons

Except where otherwise noted, this item's license is described as Namensnennung - Weitergabe unter gleichen Bedingungen 4.0 International

View/Open

Date

Author

Subject

URI

Metadata