Ad-hoc Komposition optimaler Verarbeitungsketten für die Informationsextraktion aus heterogenen Produktpreisblättern
Markttransparenz stabilisiert den Wettbewerb einer Branche, fördert Innovationen und schützt Endverbraucher vor hohen Kosten. Zur Schaffung dieser Transparenz bedarf es unabhängiger Unternehmen, die Informationen über die verschiedenen Anbieter und Produkte des fokussierten Markts sammeln. In vielen Branchen veröffentlichen die Anbieter dabei ihre Produktinformationen in individuellen Produktpreisblättern (PPB) und stellen diese in Form nicht maschinenlesbarer PDF-Dokumente auf ihren Webseiten zur Verfügung. Daraus resultieren zeitaufwändige und teure Prozesse zur Informationsextraktion (IE) bei den unabhängigen Unternehmen. Technisch betrachtet ist die Automatisierung der IE aus nicht maschinenlesbaren PDF-Dokumenten sehr komplex. Sie erfordert die Lösung verschiedener Teilaufgaben, wie beispielsweise die Erkennung von Tabellen und die semantische Analyse von Text. Entsprechend müssen unterschiedliche Lösungsbausteine entwickelt und in zusammenhängende Verarbeitungsketten komponiert werden. Die optimale Verarbeitungskette für ein unbekanntes Eingangsdokument hängt dabei von dessen Format ab. Häufige Änderungen an den PPB sowie der kontinuierliche technische Fortschritt erzeugen ein hochdynamisches Problemumfeld, das Flexibilität, Erweiterbarkeit und Anpassbarkeit der Verarbeitungsketten erfordert. Die vorliegende Arbeit stellt ein Framework vor, das die Implementierung selbstadaptiver IE-Systeme ermöglicht und somit Unternehmen dabei unterstützt, sukzessive ihre manuellen Prozesse zur Erfassung relevanter Informationen zu automatisieren. Das Framework ermöglicht die Komposition flexibler Verarbeitungsketten mit austauschbaren Lösungsbausteinen, die von unterschiedlichen Spezialisten implementiert werden können. Darüber hinaus gewährleistet es die automatische Ermittlung optimaler Verarbeitungsketten für diverse Dokumentformate. Der Implementierung liegt eine verteilte Microservice Architektur (MSA) zugrunde, welche die kontinuierliche Anpassbarkeit und Erweiterbarkeit des Gesamtsystems gewährleistet. Dabei werden die einzelnen Lösungsbausteine in Form autarker Microservices implementiert, was die Nutzung problemspezifisch optimaler Programmiersprachen und Bibliotheken für die Entwickler der Lösungsbausteine ermöglicht. Die Aufteilung der Extraktion fachlicher Datenobjekte in die Extraktion disjunkter Teilinformationen unterstützt eine sukzessive Automatisierung der zugrundeliegenden Prozesse. Die Integration eines optionalen Prüfverfahrens der Extraktionsergebnisse durch Domänenexperten stellt darüber hinaus die Einhaltung unternehmerischer Qualitätsanforderungen sicher. Das Framework wurde durch den erfolgreichen Einsatz bei einem Kooperationspartner evaluiert, der Informationen zu Stromgrundversorgungstarifen in Deutschland erfasst. Dabei zeigte sich, dass das Framework die sukzessive Automatisierung der IE durch die kontinuierliche Integration neuer Lösungsbausteine unterstützt. Der manuelle Aufwand bei der Erfassung von Arbeits- und Grundpreisen wurde um 60% reduziert. Zudem konnten 7% aller Dokumente vollständig automatisiert verarbeitet werden.
@phdthesis{doi:10.17170/kobra-2024070110440, author ={Jentgens, Michael}, title ={Ad-hoc Komposition optimaler Verarbeitungsketten für die Informationsextraktion aus heterogenen Produktpreisblättern}, keywords ={004 and Informatik and Maschinelles Lernen and Software Engineering and Information Extraction and Framework and Natürlichsprachiges System}, copyright ={http://creativecommons.org/licenses/by-nc-nd/4.0/}, language ={de}, school={Kassel, Universität Kassel, Fachbereich Elektrotechnik / Informatik}, year ={2024} }