Show simple item record

dc.date.accessioned2024-10-11T07:38:58Z
dc.date.available2024-10-11T07:38:58Z
dc.date.issued2024
dc.identifierdoi:10.17170/kobra-2024100910940
dc.identifier.urihttp://hdl.handle.net/123456789/16084
dc.language.isoeng
dc.rightsUrheberrechtlich geschützt
dc.rights.urihttps://rightsstatements.org/page/InC/1.0/
dc.subject.ddc004
dc.titleConceptual Data Scaling in Machine Learningeng
dc.typeDissertation
dcterms.abstractInformation that is intended for human interpretation is frequently represented in a structured manner. This allows for a navigation between individual pieces to find, connect or combine information to gain new insights. Within a structure, we derive knowledge from inference of hierarchical or logical relations between data objects. For unstructured data there are numerous methods to define a data schema based on user interpretations. Afterward, data objects can be aggregated to derive (hierarchical) structures based on common properties. There are four main challenges with respect to the explainability of the derived structures. First, formal procedures are needed to infer knowledge about the data set, or parts of it, from hierarchical structures. Second, what does knowledge inferred from a structure imply for the data set it was derived from? Third, structures may be incomprehensibly large for human interpretation. Methods are needed to reduce structures to smaller representations in a consistent, comprehensible manner that provides control over possibly introduced error. Forth, the original data set does not need to have interpretable features and thus only allow for the inference of structural properties. In order to extract information based on real world properties, we need methods that are able to add such properties. With the presented work, we address these challenges using and extending the rich tool-set of Formal Concept Analysis. Here, data objects are aggregated to closed sets called formal concepts based on (unary) symbolic attributes that they have in common. The process of deriving symbolic attributes is called conceptual scaling and depends on the interpretation of the data by the analyst. The resulting hierarchical structure of concepts is called concept lattice. To infer knowledge from the concept lattice structures we introduce new methods based on sub-structures that are of standardized shape, called ordinal motifs. This novel method allows us to explain the structure of a concept lattice based on geometric aspects. Throughout our work, we focus on data representations from multiple state-of-the-art machine learning algorithms. In all cases, we elaborate extensively on how to interpret these models through derived concept lattices and develop scaling procedures specific to each algorithm. Some of the considered models are black-box models whose internal data representations are numeric with no clear real world semantics. For these, we present a method to link background knowledge to the concept lattice structure. To reduce the complexity of concept lattices we provide a new theoretical framework that allows us to generate (small) views on a concept lattice. These enable more selective and comprehensibly sized explanations for data parts that are of interest. In addition to that, we introduce methods to combine and subtract views from each other, and to identify missing or incorrect parts.eng
dcterms.abstractInformationen werden häufig strukturiert repräsentiert, um für Analyst:innen besser verständlich zu sein. Die Struktur dient hierbei nicht nur zur Navigation zwischen Inhalten, sondern erlaubt es auch Informationen zu verknüpfen und zu kombinieren. Innerhalb einer Struktur lässt sich Wissen von strukturellen/hierarchischen Eigenschaften und logischen Verknüpfungen ableiten. Für Daten ohne klare Struktur existieren zahlreiche Methoden, um diese zu interpretieren und daraus ein Datenschema abzuleiten. Anschließend können diese, basierend auf gemeinsamen Eigenschaften, zu hierarchischen Strukturen aggregiert und zusammengefasst werden. In diesem Umfeld identifizieren wir vier Probleme, bezogen auf die Erklärbarkeit der entstehenden Strukturen. Zuerst werden formale Methoden benötigt, um Wissen von hierarchischen Strukturen, oder Teilen von ihnen, abzuleiten. Darüber hinaus stellt sich die Frage, was das abgeleitete Wissen über die zugrunde liegenden Daten aussagt. Ein weiteres Problem ist die Größe der entstehenden Strukturen. Diese ist nicht immer in einer Größenordnung, die sich von Analyst:innen überblicken lässt. Hierfür werden Methoden benötigt, um die Größe in einer konsistenten und kontrollierten Art zu reduzieren. Für Daten, deren Attribute keine klare Bedeutung haben, braucht es zusätzliche Methoden, um Zusammenhänge mit Hilfe von interpretierbarem Hintergrundwissen zu erklären. In dieser Arbeit untersuchen wir diese Probleme im Bereich der Formalen Begriffsanalyse. In dieser werden Datenelemente anhand von (unären) symbolischen Eigenschaften, die sie gemeinsam haben, zu Begriffen gruppiert. Der Vorgang, um symbolischen Eigenschaften aus Daten abzuleiten, nennt sich Begriffliche Skalierung. Die resultierende Hierarchie von Begriffen heißt Begriffsverband. Um Wissen von Begriffsverbänden abzuleiten, haben wir neue Methoden basierend auf der Erkennung von Teil-Strukturen, die eine bestimmte Form haben, genannt Ordinal Motifs, entwickelt. Diese erlauben uns, die Struktur, die zwischen Daten Elementen vorliegt, zu erfassen und zu beschreiben. Zudem erläutern wir, wie wir aus Ordinal Motifs geometrische Eigenschaften ableiten und damit Begriffsverbände erklären können. In unseren Analysen verwenden wir Datensätze, die aus den internen Repräsentationen von State-of-the-Art Modellen des Maschinellen Lernens gewonnen wurden. In unseren Analysen gehen wir besonders darauf ein, wie wir Erkenntnisse über die Modelle basierend auf abgeleiteten Begriffsstrukturen gewinnen können. Manche Modelle benutzen numerische Datenrepräsentationen, dessenWerte keine klare Echt-Welt Bedeutung haben. Hierfür stellen wir Methoden vor, um Erklärungen mit Hintergrundwissen zu finden. Um die Komplexität von Begriffsverbänden zu reduzieren, stellen wir eine neue Methode vor, um kleinere Sichten zu generieren. Diese ermöglichen eine gezielte Betrachtung eines Teils des Begriffsverbands. Zusätzlich stellen wir Operationen vor, um Sichten miteinander zu verrechnen und fehlendes Wissen zu identifizieren.ger
dcterms.accessRightsopen access
dcterms.creatorHirth, Johannes
dcterms.dateAccepted2024-09-26
dcterms.extentxvi, 248 Seiten
dc.contributor.corporatenameKassel, Universität Kassel, Fachbereich Elektrotechnik/Informatik
dc.contributor.refereeStumme, Gerd (Prof. Dr.)
dc.contributor.refereeJäschke, Robert (Prof. Dr.)
dc.subject.swdDatenger
dc.subject.swdWissenger
dc.subject.swdDatenverarbeitungger
dc.subject.swdWissensbasiertes Systemger
dc.subject.swdFormale Begriffsanalyseger
dc.subject.swdMaschinelles Lernenger
dc.subject.swdBegriffsverbandger
dc.type.versionpublishedVersion
kup.iskupfalse
ubks.epflichttrue


Files in this item

Thumbnail

This item appears in the following Collection(s)

Show simple item record