Zur Kurzanzeige

dc.date.accessioned2024-01-05T09:33:58Z
dc.date.available2024-01-05T09:33:58Z
dc.date.issued2023
dc.identifierdoi:10.17170/kobra-202401019303
dc.identifier.urihttp://hdl.handle.net/123456789/15343
dc.language.isoger
dc.rightsAttribution-NonCommercial-NoDerivatives 4.0 International*
dc.rights.urihttp://creativecommons.org/licenses/by-nc-nd/4.0/*
dc.subjectProduktdatenger
dc.subjectDatenintegrationger
dc.subjectProduktkatalogeger
dc.subjectMachine Learningger
dc.subjectSchema-Matchingger
dc.subject.ddc004
dc.subject.ddc330
dc.titleEffektive Integration von heterogenen Produktkatalogen im schnelllebigen Umfeld des E-Commerceger
dc.typeDissertation
dcterms.abstractOnline-Marktplätze generieren von Jahr zu Jahr einen größeren Anteil des Einzelhandelsumsatzes. Ein wichtiger Faktor für den Erfolg von Online-Marktplätzen ist die korrekte Darstellung der Produktdaten für ihre Kunden. Diese Daten werden häufig von Zulieferern in Form von Produktkatalogen zur Verfügung gestellt, die in den Online-Marktplatz integriert werden müssen. Um dies zu erreichen, sind insbesondere kleine und mittelständische Unternehmen häufig auf aufwändige manuelle Arbeitsschritte bei der Datenintegration angewiesen. Ein solcher Schritt bei der Datenintegration ist die Ermittlung von Zuordnungen zwischen den Benennungsschemata der Produktattribute der Zulieferer und dem Benennungsschema des Marktplatzes. Der Schritt ist aufwändig, da Zulieferer individuelle und häufig wechselnde Benennungsstrategien verwenden. Jede manuelle Katalogintegration erzeugt Paare von Produktkatalogen vor und nach dem Integrationsprozess. Bisher wurden diese Daten nicht genutzt, obwohl sie das Potenzial besitzen, die Schemazuordnung zu vereinfachen. Diese Arbeit widmet sich daher der Frage, inwieweit die im Rahmen eines Integrationsprozesses anfallenden Daten genutzt werden können, um das Bestimmen der Zuordnungen zu automatisieren oder zumindest die manuelle Zuordnung durch ein Empfehlungssystem zu unterstützen. Zwei grundlegende Ansätze wurden verfolgt. Zunächst wurden ausschließlich die Attributnamen der Schemata für die Schemazuordnung verwendet. Dazu wurden mehrere Verfahren des maschinellen Lernens (ML) in Kombination mit verschiedenen Vektorisierungsstrategien für Attributnamen mit Verfahren verglichen, die ohne ML auskommen. Aufbauend auf den dabei gewonnenen Erkenntnissen wurde dann mit Attribut Label Ranking (ALR) ein neues Verfahren entwickelt, das neben Attributnamen auch Attributinstanzen zum Lernen von Zuordnungen verwendet. Die Evaluation der Verfahren erfolgte jeweils anhand von Produktdaten aus Integrationsprozessen eines Online-Marktplatzes für Antikörper. Die Ergebnisse zeigen das Potenzial der ML-Verfahren. Anhand von üblichen Vergleichsmetriken konnte die Erkennungsrate von Zuordnungen textbasierter Attribute im Vergleich zu ähnlichen Verfahren aus anderen Anwendungsbereichen um bis zu 0.5 verbessert werden. Erreichte Werte für Empfehlungsmetriken zeigen, dass die Verfahren als Empfehlungssystem zur Unterstützung der manuellen Arbeit eingesetzt werden können. Darüber hinaus ermöglicht ALR unter bestimmten Voraussetzungen eine vollautomatische Erkennung der Zuordnungen.ger
dcterms.abstractOnline marketplaces generate a larger share of retail sales every year. An important factor for the success of online marketplaces is the correct presentation of product data to their customers. Suppliers often provide this data through product catalogs that the online marketplace needs to integrate into their web shop. In order to achieve this, small and medium-sized enterprises, in particular, often have to rely on time-consuming manual steps in data integration. One such step in data integration is the determination of mappings between the supplier naming schemes for product attributes and the marketplace naming scheme. This step is time-consuming because suppliers use individual naming strategies that can also change frequently. Every manual catalog integration creates pairs of product catalogs before and after the integration process. So far, this data has not yet been used, although it has the potential to simplify schema mapping. This work is dedicated to the question of how the data generated during an integration process can be used to automate the determination of schema mappings or, at least, to support the manual mapping process through a recommendation system. This work employed two main approaches. First, only the attribute names of the schemas were used for schema mapping. For this purpose, several machine learning (ML) methods in combination with different vectorization strategies for attribute names were compared with methods that do not rely on ML. Second, by building upon the insights gained, a new method was developed with Attribute Label Ranking (ALR) using attribute instances and names to learn mappings. Both methods were evaluated using actual product data from integration processes of an online marketplace for antibodies. The results show the potential of the ML methods. The recognition rate of mappings of text-based attributes improves by up to 0.5 in precision, recall and F-score compared to similar methods from different application areas. Achieved values for recommendation metrics show that the methods can be used as a recommendation system to support manual work. Furthermore, ALR enables fully automatic schema mappings under specific conditions.eng
dcterms.accessRightsopen access
dcterms.creatorSchmidts, Oliver Michael
dcterms.dateAccepted2023-12-08
dcterms.extentIX, 199, xxiii Seiten
dc.contributor.corporatenameKassel, Universität Kassel, Fachbereich Elektrotechnik / Informatiik
dc.contributor.refereeFohry, Claudia (Prof. Dr.)
dc.contributor.refereeKraft, Bodo (Prof. Dr.)
dc.subject.swdProduktdatenger
dc.subject.swdDatenintegrationger
dc.subject.swdElektronischer Produktkatalogger
dc.subject.swdMaschinelles Lernenger
dc.subject.swdSchema <Informatik>ger
dc.subject.swdMatchingger
dc.type.versionpublishedVersion
kup.iskupfalse
ubks.epflichttrue


Dateien zu dieser Ressource

Thumbnail
Thumbnail

Das Dokument erscheint in:

Zur Kurzanzeige

Attribution-NonCommercial-NoDerivatives 4.0 International
Solange nicht anders angezeigt, wird die Lizenz wie folgt beschrieben: Attribution-NonCommercial-NoDerivatives 4.0 International