Ad-hoc Komposition optimaler Verarbeitungsketten für die Informationsextraktion aus heterogenen Produktpreisblättern

Ad-hoc Komposition optimaler Verarbeitungsketten für die Informationsextraktion aus heterogenen Produktpreisblättern

dc.contributor.corporatename	Kassel, Universität Kassel, Fachbereich Elektrotechnik / Informatik
dc.contributor.referee	Fohry, Claudia (Prof. Dr.)
dc.contributor.referee	Kraft, Bodo (Prof. Dr.)
dc.date.accessioned	2024-07-15T12:58:50Z
dc.date.available	2024-07-15T12:58:50Z
dc.date.issued	2024
dc.identifier	doi:10.17170/kobra-2024070110440
dc.identifier.uri	http://hdl.handle.net/123456789/15917
dc.language.iso	ger
dc.rights	Attribution-NonCommercial-NoDerivatives 4.0 International	*
dc.rights.uri	http://creativecommons.org/licenses/by-nc-nd/4.0/	*
dc.subject	Informatik	ger
dc.subject	Machine Learning	ger
dc.subject	Software Engineering	ger
dc.subject	Tabellenerkennung	ger
dc.subject	Informationsextraktion	ger
dc.subject	Produktpreisblätter	ger
dc.subject.ddc	004
dc.subject.swd	Informatik	ger
dc.subject.swd	Maschinelles Lernen	ger
dc.subject.swd	Software Engineering	ger
dc.subject.swd	Information Extraction	ger
dc.subject.swd	Framework <Informatik>	ger
dc.subject.swd	Natürlichsprachiges System	ger
dc.title	Ad-hoc Komposition optimaler Verarbeitungsketten für die Informationsextraktion aus heterogenen Produktpreisblättern	ger
dc.type	Dissertation
dc.type.version	publishedVersion
dcterms.abstract	Markttransparenz stabilisiert den Wettbewerb einer Branche, fördert Innovationen und schützt Endverbraucher vor hohen Kosten. Zur Schaffung dieser Transparenz bedarf es unabhängiger Unternehmen, die Informationen über die verschiedenen Anbieter und Produkte des fokussierten Markts sammeln. In vielen Branchen veröffentlichen die Anbieter dabei ihre Produktinformationen in individuellen Produktpreisblättern (PPB) und stellen diese in Form nicht maschinenlesbarer PDF-Dokumente auf ihren Webseiten zur Verfügung. Daraus resultieren zeitaufwändige und teure Prozesse zur Informationsextraktion (IE) bei den unabhängigen Unternehmen. Technisch betrachtet ist die Automatisierung der IE aus nicht maschinenlesbaren PDF-Dokumenten sehr komplex. Sie erfordert die Lösung verschiedener Teilaufgaben, wie beispielsweise die Erkennung von Tabellen und die semantische Analyse von Text. Entsprechend müssen unterschiedliche Lösungsbausteine entwickelt und in zusammenhängende Verarbeitungsketten komponiert werden. Die optimale Verarbeitungskette für ein unbekanntes Eingangsdokument hängt dabei von dessen Format ab. Häufige Änderungen an den PPB sowie der kontinuierliche technische Fortschritt erzeugen ein hochdynamisches Problemumfeld, das Flexibilität, Erweiterbarkeit und Anpassbarkeit der Verarbeitungsketten erfordert. Die vorliegende Arbeit stellt ein Framework vor, das die Implementierung selbstadaptiver IE-Systeme ermöglicht und somit Unternehmen dabei unterstützt, sukzessive ihre manuellen Prozesse zur Erfassung relevanter Informationen zu automatisieren. Das Framework ermöglicht die Komposition flexibler Verarbeitungsketten mit austauschbaren Lösungsbausteinen, die von unterschiedlichen Spezialisten implementiert werden können. Darüber hinaus gewährleistet es die automatische Ermittlung optimaler Verarbeitungsketten für diverse Dokumentformate. Der Implementierung liegt eine verteilte Microservice Architektur (MSA) zugrunde, welche die kontinuierliche Anpassbarkeit und Erweiterbarkeit des Gesamtsystems gewährleistet. Dabei werden die einzelnen Lösungsbausteine in Form autarker Microservices implementiert, was die Nutzung problemspezifisch optimaler Programmiersprachen und Bibliotheken für die Entwickler der Lösungsbausteine ermöglicht. Die Aufteilung der Extraktion fachlicher Datenobjekte in die Extraktion disjunkter Teilinformationen unterstützt eine sukzessive Automatisierung der zugrundeliegenden Prozesse. Die Integration eines optionalen Prüfverfahrens der Extraktionsergebnisse durch Domänenexperten stellt darüber hinaus die Einhaltung unternehmerischer Qualitätsanforderungen sicher. Das Framework wurde durch den erfolgreichen Einsatz bei einem Kooperationspartner evaluiert, der Informationen zu Stromgrundversorgungstarifen in Deutschland erfasst. Dabei zeigte sich, dass das Framework die sukzessive Automatisierung der IE durch die kontinuierliche Integration neuer Lösungsbausteine unterstützt. Der manuelle Aufwand bei der Erfassung von Arbeits- und Grundpreisen wurde um 60% reduziert. Zudem konnten 7% aller Dokumente vollständig automatisiert verarbeitet werden.	ger
dcterms.abstract	Market transparency stabilizes competition in an industry, promotes innovation and protects consumers from high costs. To create transparency, independent companies have to collect information about the various suppliers and products in the focused market. In many industries, suppliers publish their product information in individual product price sheets on their websites as non-machine-readable PDF documents. This results in time-consuming and expensive information extraction (IE) processes. Technically, automating IE from non-machine readable PDF documents is very complex. It requires the solution of various subtasks, such as table recognition and semantic analysis of text. Accordingly, different solution components must be developed and composed into coherent processing chains. The optimal processing chain for an unknown input document depends on its format. Frequent changes to product price sheets and continuous technical progress create a highly dynamic problem environment that requires flexibility, extensibility and adaptability of the processing chains. This thesis presents a framework that enables the implementation of self-adaptive IE-systems, and thus supports companies in successively automating their manual processes for capturing relevant information. The framework enables the development of flexible processing chains, which allow the exchange of individual solution components that different specialists can implement. Furthermore, it ensures the automatic determination of optimal processing chains for diverse document formats. The implementation is based on a distributed microservice architecture (MSA), ensuring the continuous adaptability and expandability of the overall system. The individual solution components are implemented in the form of self-sufficient microservices, which enable the use of problem-specific optimal programming languages and libraries. The separation of the extraction of domain-oriented data objects into the extraction of disjoint partial information supports successive automation of the underlying business processes. Integrating an optional review step of the extraction results by domain experts also ensures compliance with corporate quality requirements. The framework was evaluated through its application at a cooperation company partner that collects information on basic electricity supply tariffs in Germany. It was shown that the framework supports the successive automation of IE through the continuous integration of new solution components. The manual effort for extracting prices was reduced by 60%. Furthermore, a potential of fully automatic document processing of 7% was discovered.	eng
dcterms.accessRights	open access
dcterms.creator	Jentgens, Michael
dcterms.dateAccepted	2024-06-28
dcterms.extent	xviii, 216 Seiten
kup.iskup	false
ubks.epflicht	true

Files

Original bundle

Now showing 1 - 1 of 1

Name:: DissertationMichaelJentgens.pdf
Size:: 6.26 MB
Format:: Adobe Portable Document Format
Description:

Download

License bundle

Now showing 1 - 1 of 1

Name:: license.txt
Size:: 3.03 KB
Format:: Item-specific license agreed upon to submission
Description:

Download

Collections

Dissertationen