Ad-hoc Komposition optimaler Verarbeitungsketten für die Informationsextraktion aus heterogenen Produktpreisblättern
dc.contributor.corporatename | Kassel, Universität Kassel, Fachbereich Elektrotechnik / Informatik | |
dc.contributor.referee | Fohry, Claudia (Prof. Dr.) | |
dc.contributor.referee | Kraft, Bodo (Prof. Dr.) | |
dc.date.accessioned | 2024-07-15T12:58:50Z | |
dc.date.available | 2024-07-15T12:58:50Z | |
dc.date.issued | 2024 | |
dc.identifier | doi:10.17170/kobra-2024070110440 | |
dc.identifier.uri | http://hdl.handle.net/123456789/15917 | |
dc.language.iso | ger | |
dc.rights | Attribution-NonCommercial-NoDerivatives 4.0 International | * |
dc.rights.uri | http://creativecommons.org/licenses/by-nc-nd/4.0/ | * |
dc.subject | Informatik | ger |
dc.subject | Machine Learning | ger |
dc.subject | Software Engineering | ger |
dc.subject | Tabellenerkennung | ger |
dc.subject | Informationsextraktion | ger |
dc.subject | Produktpreisblätter | ger |
dc.subject.ddc | 004 | |
dc.subject.swd | Informatik | ger |
dc.subject.swd | Maschinelles Lernen | ger |
dc.subject.swd | Software Engineering | ger |
dc.subject.swd | Information Extraction | ger |
dc.subject.swd | Framework <Informatik> | ger |
dc.subject.swd | Natürlichsprachiges System | ger |
dc.title | Ad-hoc Komposition optimaler Verarbeitungsketten für die Informationsextraktion aus heterogenen Produktpreisblättern | ger |
dc.type | Dissertation | |
dc.type.version | publishedVersion | |
dcterms.abstract | Markttransparenz stabilisiert den Wettbewerb einer Branche, fördert Innovationen und schützt Endverbraucher vor hohen Kosten. Zur Schaffung dieser Transparenz bedarf es unabhängiger Unternehmen, die Informationen über die verschiedenen Anbieter und Produkte des fokussierten Markts sammeln. In vielen Branchen veröffentlichen die Anbieter dabei ihre Produktinformationen in individuellen Produktpreisblättern (PPB) und stellen diese in Form nicht maschinenlesbarer PDF-Dokumente auf ihren Webseiten zur Verfügung. Daraus resultieren zeitaufwändige und teure Prozesse zur Informationsextraktion (IE) bei den unabhängigen Unternehmen. Technisch betrachtet ist die Automatisierung der IE aus nicht maschinenlesbaren PDF-Dokumenten sehr komplex. Sie erfordert die Lösung verschiedener Teilaufgaben, wie beispielsweise die Erkennung von Tabellen und die semantische Analyse von Text. Entsprechend müssen unterschiedliche Lösungsbausteine entwickelt und in zusammenhängende Verarbeitungsketten komponiert werden. Die optimale Verarbeitungskette für ein unbekanntes Eingangsdokument hängt dabei von dessen Format ab. Häufige Änderungen an den PPB sowie der kontinuierliche technische Fortschritt erzeugen ein hochdynamisches Problemumfeld, das Flexibilität, Erweiterbarkeit und Anpassbarkeit der Verarbeitungsketten erfordert. Die vorliegende Arbeit stellt ein Framework vor, das die Implementierung selbstadaptiver IE-Systeme ermöglicht und somit Unternehmen dabei unterstützt, sukzessive ihre manuellen Prozesse zur Erfassung relevanter Informationen zu automatisieren. Das Framework ermöglicht die Komposition flexibler Verarbeitungsketten mit austauschbaren Lösungsbausteinen, die von unterschiedlichen Spezialisten implementiert werden können. Darüber hinaus gewährleistet es die automatische Ermittlung optimaler Verarbeitungsketten für diverse Dokumentformate. Der Implementierung liegt eine verteilte Microservice Architektur (MSA) zugrunde, welche die kontinuierliche Anpassbarkeit und Erweiterbarkeit des Gesamtsystems gewährleistet. Dabei werden die einzelnen Lösungsbausteine in Form autarker Microservices implementiert, was die Nutzung problemspezifisch optimaler Programmiersprachen und Bibliotheken für die Entwickler der Lösungsbausteine ermöglicht. Die Aufteilung der Extraktion fachlicher Datenobjekte in die Extraktion disjunkter Teilinformationen unterstützt eine sukzessive Automatisierung der zugrundeliegenden Prozesse. Die Integration eines optionalen Prüfverfahrens der Extraktionsergebnisse durch Domänenexperten stellt darüber hinaus die Einhaltung unternehmerischer Qualitätsanforderungen sicher. Das Framework wurde durch den erfolgreichen Einsatz bei einem Kooperationspartner evaluiert, der Informationen zu Stromgrundversorgungstarifen in Deutschland erfasst. Dabei zeigte sich, dass das Framework die sukzessive Automatisierung der IE durch die kontinuierliche Integration neuer Lösungsbausteine unterstützt. Der manuelle Aufwand bei der Erfassung von Arbeits- und Grundpreisen wurde um 60% reduziert. Zudem konnten 7% aller Dokumente vollständig automatisiert verarbeitet werden. | ger |
dcterms.abstract | Market transparency stabilizes competition in an industry, promotes innovation and protects consumers from high costs. To create transparency, independent companies have to collect information about the various suppliers and products in the focused market. In many industries, suppliers publish their product information in individual product price sheets on their websites as non-machine-readable PDF documents. This results in time-consuming and expensive information extraction (IE) processes. Technically, automating IE from non-machine readable PDF documents is very complex. It requires the solution of various subtasks, such as table recognition and semantic analysis of text. Accordingly, different solution components must be developed and composed into coherent processing chains. The optimal processing chain for an unknown input document depends on its format. Frequent changes to product price sheets and continuous technical progress create a highly dynamic problem environment that requires flexibility, extensibility and adaptability of the processing chains. This thesis presents a framework that enables the implementation of self-adaptive IE-systems, and thus supports companies in successively automating their manual processes for capturing relevant information. The framework enables the development of flexible processing chains, which allow the exchange of individual solution components that different specialists can implement. Furthermore, it ensures the automatic determination of optimal processing chains for diverse document formats. The implementation is based on a distributed microservice architecture (MSA), ensuring the continuous adaptability and expandability of the overall system. The individual solution components are implemented in the form of self-sufficient microservices, which enable the use of problem-specific optimal programming languages and libraries. The separation of the extraction of domain-oriented data objects into the extraction of disjoint partial information supports successive automation of the underlying business processes. Integrating an optional review step of the extraction results by domain experts also ensures compliance with corporate quality requirements. The framework was evaluated through its application at a cooperation company partner that collects information on basic electricity supply tariffs in Germany. It was shown that the framework supports the successive automation of IE through the continuous integration of new solution components. The manual effort for extracting prices was reduced by 60%. Furthermore, a potential of fully automatic document processing of 7% was discovered. | eng |
dcterms.accessRights | open access | |
dcterms.creator | Jentgens, Michael | |
dcterms.dateAccepted | 2024-06-28 | |
dcterms.extent | xviii, 216 Seiten | |
kup.iskup | false | |
ubks.epflicht | true |