Effektive Integration von heterogenen Produktkatalogen im schnelllebigen Umfeld des E-Commerce
Online-Marktplätze generieren von Jahr zu Jahr einen größeren Anteil des Einzelhandelsumsatzes. Ein wichtiger Faktor für den Erfolg von Online-Marktplätzen ist die korrekte Darstellung der Produktdaten für ihre Kunden. Diese Daten werden häufig von Zulieferern in Form von Produktkatalogen zur Verfügung gestellt, die in den Online-Marktplatz integriert werden müssen. Um dies zu erreichen, sind insbesondere kleine und mittelständische Unternehmen häufig auf aufwändige manuelle Arbeitsschritte bei der Datenintegration angewiesen. Ein solcher Schritt bei der Datenintegration ist die Ermittlung von Zuordnungen zwischen den Benennungsschemata der Produktattribute der Zulieferer und dem Benennungsschema des Marktplatzes. Der Schritt ist aufwändig, da Zulieferer individuelle und häufig wechselnde Benennungsstrategien verwenden. Jede manuelle Katalogintegration erzeugt Paare von Produktkatalogen vor und nach dem Integrationsprozess. Bisher wurden diese Daten nicht genutzt, obwohl sie das Potenzial besitzen, die Schemazuordnung zu vereinfachen. Diese Arbeit widmet sich daher der Frage, inwieweit die im Rahmen eines Integrationsprozesses anfallenden Daten genutzt werden können, um das Bestimmen der Zuordnungen zu automatisieren oder zumindest die manuelle Zuordnung durch ein Empfehlungssystem zu unterstützen. Zwei grundlegende Ansätze wurden verfolgt. Zunächst wurden ausschließlich die Attributnamen der Schemata für die Schemazuordnung verwendet. Dazu wurden mehrere Verfahren des maschinellen Lernens (ML) in Kombination mit verschiedenen Vektorisierungsstrategien für Attributnamen mit Verfahren verglichen, die ohne ML auskommen. Aufbauend auf den dabei gewonnenen Erkenntnissen wurde dann mit Attribut Label Ranking (ALR) ein neues Verfahren entwickelt, das neben Attributnamen auch Attributinstanzen zum Lernen von Zuordnungen verwendet. Die Evaluation der Verfahren erfolgte jeweils anhand von Produktdaten aus Integrationsprozessen eines Online-Marktplatzes für Antikörper. Die Ergebnisse zeigen das Potenzial der ML-Verfahren. Anhand von üblichen Vergleichsmetriken konnte die Erkennungsrate von Zuordnungen textbasierter Attribute im Vergleich zu ähnlichen Verfahren aus anderen Anwendungsbereichen um bis zu 0.5 verbessert werden. Erreichte Werte für Empfehlungsmetriken zeigen, dass die Verfahren als Empfehlungssystem zur Unterstützung der manuellen Arbeit eingesetzt werden können. Darüber hinaus ermöglicht ALR unter bestimmten Voraussetzungen eine vollautomatische Erkennung der Zuordnungen.
@phdthesis{doi:10.17170/kobra-202401019303, author ={Schmidts, Oliver Michael}, title ={Effektive Integration von heterogenen Produktkatalogen im schnelllebigen Umfeld des E-Commerce}, keywords ={004 and 330 and Produktdaten and Datenintegration and Elektronischer Produktkatalog and Maschinelles Lernen and Schema and Matching}, copyright ={http://creativecommons.org/licenses/by-nc-nd/4.0/}, language ={de}, school={Kassel, Universität Kassel, Fachbereich Elektrotechnik / Informatiik}, year ={2023} }