A Holistic, Decision-Theoretic Framework for Pool-Based Active Learning

Kottke, Daniel

🇬🇧

Buch

Abstract

🇬🇧
🇩🇪

Efficient labeling is an important topic in machine learning research as classifiers need labeled data. Whereas unlabeled data is easily gathered, labeling is exhausting, time-consuming, or expensive and should, therefore, be reduced to a minimum. Active learning aims to actively select useful, unlabeled instances for label acquisition to reduce the labeling effort while providing labeled training data such that the classifier performs well. This thesis proposes Probabilistic Active Learning, a holistic, decision-theoretic framework for active learning that enables optimization for every performance measure and classifier. Using the holistic mathematical description, we can define an upper baseline for active learning and identify theoretical similarities to other selection strategies. We evaluate our approach on 22 datasets for six different performance measures. Moreover, we show that our approach can be applied to multiple classifiers and can be used for batch selection. In another scenario, called transductive active learning, we provide a set of unlabeled instances and ask the active learning algorithm to return the correct labels only for this set. In contrast to the standard (inductive) scenario, where we aim to build a general classifier, we can either ask an oracle to provide the correct labels or use the classifier to predict the label. We introduce a new cost-based performance measure for transductive active learning and show the superiority of our probabilistic approach.

Effizientes Labeling ist ein wichtiges Forschungsthema im maschinellen Lernen, da Klassifikatoren gelabelte Daten benötigen. Während ungelabelte Daten leicht gesammelt werden können, ist das Labeln mühsam, zeitaufwendig oder teuer und sollte daher auf ein Minimum reduziert werden. Aktives Lernen zielt darauf ab, nützliche, ungelabelte Instanzen aktiv für die Annotation auszuwählen, um den Aufwand für das Labeln zu reduzieren und gleichzeitig gelabelte Trainingsdaten bereitzustellen, so dass der Klassifikator eine gute Leistung erbringt. Diese Arbeit stellt Probabilistisches Aktives Lernen vor, ein ganzheitliches, entscheidungstheoretisches Konzept für Aktives Lernen, das die Optimierung für jedes Gütemaß und jeden Klassifikator ermöglicht. Mit Hilfe der ganzheitlichen mathematischen Beschreibung können wir eine obere Referenzmethode für aktives Lernen definieren und theoretische Ähnlichkeiten zu anderen Selektionsstrategien identifizieren. Wir evaluieren unseren Ansatz auf 22 Datensätzen für sechs verschiedene Gütemaße. Außerdem zeigen wir, dass unser Ansatz auf mehrere Klassifikatoren angewendet werden kann und für die Batch-Auswahl geeignet ist. In einem anderen Szenario, dem sogenannten transduktiven aktiven Lernen, stellen wir eine Menge von ungelabelten Instanzen zur Verfügung und bitten den aktiven Lernalgorithmus, die korrekten Labels für genau diese Menge zu ermitteln. Im Gegensatz zum (induktiven) Standardszenario, bei dem wir einen universellen Klassifikator erstellen wollen, können wir entweder ein Orakel bitten, die korrekten Labels zu liefern, oder den Klassifikator verwenden, um das Label vorherzusagen. Wir führen ein neues kostenbasiertes Gütemaß für transduktives aktives Lernen ein und zeigen die Überlegenheit unseres probabilistischen Ansatzes.

Additional Information

Zugleich: Dissertation, Universität Kassel, 2021

Collections

kup - kassel university press (Digitale Bibliotheksdienste)

Druckausgabe

Link zu kassel university press

Citation

BibTex

@book{doi:10.17170/kobra-202109244802,
   author={Kottke, Daniel},
   title={A Holistic, Decision-Theoretic Framework for Pool-Based Active Learning},
   publisher={kassel university press},
   year={2021}
}

0500 Oax
0501 Text $btxt$2rdacontent
0502 Computermedien $bc$2rdacarrier
1100 2021$n2021
1500 1/eng
2050 ##0##http://hdl.handle.net/123456789/13333
3000 Kottke, Daniel
4000 A Holistic, Decision-Theoretic Framework for Pool-Based Active Learning / Kottke, Daniel
4030 
4060 Online-Ressource
4085 ##0##=u http://nbn-resolving.de/http://hdl.handle.net/123456789/13333=x R
4204 \$dBuch
4170 
5550 {{Maschinelles Lernen}}
5550 {{Aktives maschinelles Lernen}}
5550 {{Bayes-Verfahren}}
5550 {{Entscheidungstheorie}}
5550 {{Modell}}
7136 ##0##http://hdl.handle.net/123456789/13333


<resource xsi:schemaLocation="http://datacite.org/schema/kernel-2.2 http://schema.datacite.org/meta/kernel-2.2/metadata.xsd">
2021-10-28T10:33:29Z
2021-10-28T10:33:29Z
2021
doi:10.17170/kobra-202109244802
http://hdl.handle.net/123456789/13333
Zugleich: Dissertation, Universit&auml;t Kassel, 2021
eng
kassel university press
Namensnennung - Weitergabe unter gleichen Bedingungen 4.0 International
http://creativecommons.org/licenses/by-sa/4.0/
machine learning
active learning
Bayesian estimation
holistic
probabilistic
decision-theoretic
004
A Holistic, Decision-Theoretic Framework for Pool-Based Active Learning
Buch
Efficient labeling is an important topic in machine learning research as classifiers need labeled data. Whereas unlabeled data is easily gathered, labeling is exhausting, time-consuming, or expensive and should, therefore, be reduced to a minimum. Active learning aims to actively select useful, unlabeled instances for label acquisition to reduce the labeling effort while providing labeled training data such that the classifier performs well. This thesis proposes Probabilistic Active Learning, a holistic, decision-theoretic framework for active learning that enables optimization for every performance measure and classifier. Using the holistic mathematical description, we can define an upper baseline for active learning and identify theoretical similarities to other selection strategies. We evaluate our approach on 22 datasets for six different performance measures. Moreover, we show that our approach can be applied to multiple classifiers and can be used for batch selection. In another scenario, called transductive active learning, we provide a set of unlabeled instances and ask the active learning algorithm to return the correct labels only for this set. In contrast to the standard (inductive) scenario, where we aim to build a general classifier, we can either ask an oracle to provide the correct labels or use the classifier to predict the label. We introduce a new cost-based performance measure for transductive active learning and show the superiority of our probabilistic approach.
Effizientes Labeling ist ein wichtiges Forschungsthema im maschinellen Lernen, da Klassifikatoren gelabelte Daten ben&ouml;tigen. W&auml;hrend ungelabelte Daten leicht gesammelt werden k&ouml;nnen, ist das Labeln m&uuml;hsam, zeitaufwendig oder teuer und sollte daher auf ein Minimum reduziert werden. Aktives Lernen zielt darauf ab, n&uuml;tzliche, ungelabelte Instanzen aktiv f&uuml;r die Annotation auszuw&auml;hlen, um den Aufwand f&uuml;r das Labeln zu reduzieren und gleichzeitig gelabelte Trainingsdaten bereitzustellen, so dass der Klassifikator eine gute Leistung erbringt. Diese Arbeit stellt Probabilistisches Aktives Lernen vor, ein ganzheitliches, entscheidungstheoretisches Konzept f&uuml;r Aktives Lernen, das die Optimierung f&uuml;r jedes G&uuml;tema&szlig; und jeden Klassifikator erm&ouml;glicht. Mit Hilfe der ganzheitlichen mathematischen Beschreibung k&ouml;nnen wir eine obere Referenzmethode f&uuml;r aktives Lernen definieren und theoretische &Auml;hnlichkeiten zu anderen Selektionsstrategien identifizieren. Wir evaluieren unseren Ansatz auf 22 Datens&auml;tzen f&uuml;r sechs verschiedene G&uuml;tema&szlig;e. Au&szlig;erdem zeigen wir, dass unser Ansatz auf mehrere Klassifikatoren angewendet werden kann und f&uuml;r die Batch-Auswahl geeignet ist. In einem anderen Szenario, dem sogenannten transduktiven aktiven Lernen, stellen wir eine Menge von ungelabelten Instanzen zur Verf&uuml;gung und bitten den aktiven Lernalgorithmus, die korrekten Labels f&uuml;r genau diese Menge zu ermitteln. Im Gegensatz zum (induktiven) Standardszenario, bei dem wir einen universellen Klassifikator erstellen wollen, k&ouml;nnen wir entweder ein Orakel bitten, die korrekten Labels zu liefern, oder den Klassifikator verwenden, um das Label vorherzusagen. Wir f&uuml;hren ein neues kostenbasiertes G&uuml;tema&szlig; f&uuml;r transduktives aktives Lernen ein und zeigen die &Uuml;berlegenheit unseres probabilistischen Ansatzes.
open access
Kottke, Daniel
2021-09-07
x, 241 Seiten
Kassel, Universit&auml;t Kassel, Fachbereich Elektrotechnik / Informatik
Sick, Bernhard (Prof. Dr.)
Krempl, Utrecht (Prof. Dr.)
Kassel
978-3-7376-0987-6
Maschinelles Lernen
Aktives maschinelles Lernen
Bayes-Verfahren
Entscheidungstheorie
Modell
publishedVersion
Intelligent Embedded Systems
Band 19
true
https://www.genialokal.de/Produkt/Daniel-Kottke/A-Holistic-Decision-Theoretic-Framework-for-Pool-Based-Active-Learning_lid_47230289.html
39,00
Intelligent Embedded Systems
Naturwissenschaft, Technik, Informatik, Medizin
Dissertation
FB 16 / Elektrotechnik / Informatik
Softcover
DIN A5
true
</resource>

The following license files are associated with this item:

Creative Commons

Except where otherwise noted, this item's license is described as Namensnennung - Weitergabe unter gleichen Bedingungen 4.0 International

View/Open

Date

Author

Subject

URI

Metadata