Effektive Integration von heterogenen Produktkatalogen im schnelllebigen Umfeld des E-Commerce

Schmidts, Oliver Michael

🇩🇪

Dissertation

Abstract

🇩🇪
🇬🇧

Online-Marktplätze generieren von Jahr zu Jahr einen größeren Anteil des Einzelhandelsumsatzes. Ein wichtiger Faktor für den Erfolg von Online-Marktplätzen ist die korrekte Darstellung der Produktdaten für ihre Kunden. Diese Daten werden häufig von Zulieferern in Form von Produktkatalogen zur Verfügung gestellt, die in den Online-Marktplatz integriert werden müssen. Um dies zu erreichen, sind insbesondere kleine und mittelständische Unternehmen häufig auf aufwändige manuelle Arbeitsschritte bei der Datenintegration angewiesen. Ein solcher Schritt bei der Datenintegration ist die Ermittlung von Zuordnungen zwischen den Benennungsschemata der Produktattribute der Zulieferer und dem Benennungsschema des Marktplatzes. Der Schritt ist aufwändig, da Zulieferer individuelle und häufig wechselnde Benennungsstrategien verwenden. Jede manuelle Katalogintegration erzeugt Paare von Produktkatalogen vor und nach dem Integrationsprozess. Bisher wurden diese Daten nicht genutzt, obwohl sie das Potenzial besitzen, die Schemazuordnung zu vereinfachen. Diese Arbeit widmet sich daher der Frage, inwieweit die im Rahmen eines Integrationsprozesses anfallenden Daten genutzt werden können, um das Bestimmen der Zuordnungen zu automatisieren oder zumindest die manuelle Zuordnung durch ein Empfehlungssystem zu unterstützen.
Zwei grundlegende Ansätze wurden verfolgt. Zunächst wurden ausschließlich die Attributnamen der Schemata für die Schemazuordnung verwendet. Dazu wurden mehrere Verfahren des maschinellen Lernens (ML) in Kombination mit verschiedenen Vektorisierungsstrategien für Attributnamen mit Verfahren verglichen, die ohne ML auskommen. Aufbauend auf den dabei gewonnenen Erkenntnissen wurde dann mit Attribut Label Ranking (ALR) ein neues Verfahren entwickelt, das neben Attributnamen auch Attributinstanzen zum Lernen von Zuordnungen verwendet. Die Evaluation der Verfahren erfolgte jeweils anhand von Produktdaten aus Integrationsprozessen eines Online-Marktplatzes für Antikörper. Die Ergebnisse zeigen das Potenzial der ML-Verfahren. Anhand von üblichen Vergleichsmetriken konnte die Erkennungsrate von Zuordnungen textbasierter Attribute im Vergleich zu ähnlichen Verfahren aus anderen Anwendungsbereichen um bis zu 0.5 verbessert werden. Erreichte Werte für Empfehlungsmetriken zeigen, dass die Verfahren als Empfehlungssystem zur Unterstützung der manuellen Arbeit eingesetzt werden können. Darüber hinaus ermöglicht ALR unter bestimmten Voraussetzungen eine vollautomatische Erkennung der Zuordnungen.

Online marketplaces generate a larger share of retail sales every year. An important factor for the success of online marketplaces is the correct presentation of product data to their customers. Suppliers often provide this data through product catalogs that the online marketplace needs to integrate into their web shop. In order to achieve this, small and medium-sized enterprises, in particular, often have to rely on time-consuming manual steps in data integration. One such step in data integration is the determination of mappings between the supplier naming schemes for product attributes and the marketplace naming scheme. This step is time-consuming because suppliers use individual naming strategies that can also change frequently. Every manual catalog integration creates pairs of product catalogs before and after the integration process. So far, this data has not yet been used, although it has the potential to simplify schema mapping. This work is dedicated to the question of how the data generated during an integration process can be used to automate the determination of schema mappings or, at least, to support the manual mapping process through a recommendation system.
This work employed two main approaches. First, only the attribute names of the schemas were used for schema mapping. For this purpose, several machine learning (ML) methods in combination with different vectorization strategies for attribute names were compared with methods that do not rely on ML. Second, by building upon the insights gained, a new method was developed with Attribute Label Ranking (ALR) using attribute instances and names to learn mappings. Both methods were evaluated using actual product data from integration processes of an online marketplace for antibodies.
The results show the potential of the ML methods. The recognition rate of mappings of text-based attributes improves by up to 0.5 in precision, recall and F-score compared to similar methods from different application areas. Achieved values for recommendation metrics show that the methods can be used as a recommendation system to support manual work. Furthermore, ALR enables fully automatic schema mappings under specific conditions.

Collections

Dissertationen (Programmiersprachen/-methodik)

Citation

BibTex

@phdthesis{doi:10.17170/kobra-202401019303,
   author={Schmidts, Oliver Michael},
   title={Effektive Integration von heterogenen Produktkatalogen im schnelllebigen Umfeld des E-Commerce},
   school={Kassel, Universität Kassel, Fachbereich Elektrotechnik / Informatiik},
   year={2023}
}

0500 Oax
0501 Text $btxt$2rdacontent
0502 Computermedien $bc$2rdacarrier
1100 2023$n2023
1500 1/ger
2050 ##0##http://hdl.handle.net/123456789/15343
3000 Schmidts, Oliver Michael
4000 Effektive Integration von heterogenen Produktkatalogen im schnelllebigen Umfeld des E-Commerce / Schmidts, Oliver Michael
4030 
4060 Online-Ressource
4085 ##0##=u http://nbn-resolving.de/http://hdl.handle.net/123456789/15343=x R
4204 \$dDissertation
4170 
5550 {{Produktdaten}}
5550 {{Datenintegration}}
5550 {{Elektronischer Produktkatalog}}
5550 {{Maschinelles Lernen}}
5550 {{Schema <Informatik>}}
5550 {{Matching}}
7136 ##0##http://hdl.handle.net/123456789/15343


<resource xsi:schemaLocation="http://datacite.org/schema/kernel-2.2 http://schema.datacite.org/meta/kernel-2.2/metadata.xsd">
2024-01-05T09:33:58Z
2024-01-05T09:33:58Z
2023
doi:10.17170/kobra-202401019303
http://hdl.handle.net/123456789/15343
ger
Attribution-NonCommercial-NoDerivatives 4.0 International
http://creativecommons.org/licenses/by-nc-nd/4.0/
Produktdaten
Datenintegration
Produktkataloge
Machine Learning
Schema-Matching
004
330
Effektive Integration von heterogenen Produktkatalogen im schnelllebigen Umfeld des E-Commerce
Dissertation
Online-Marktpl&auml;tze generieren von Jahr zu Jahr einen gr&ouml;&szlig;eren Anteil des Einzelhandelsumsatzes. Ein wichtiger Faktor f&uuml;r den Erfolg von Online-Marktpl&auml;tzen ist die korrekte Darstellung der Produktdaten f&uuml;r ihre Kunden. Diese Daten werden h&auml;ufig von Zulieferern in Form von Produktkatalogen zur Verf&uuml;gung gestellt, die in den Online-Marktplatz integriert werden m&uuml;ssen. Um dies zu erreichen, sind insbesondere kleine und mittelst&auml;ndische Unternehmen h&auml;ufig auf aufw&auml;ndige manuelle Arbeitsschritte bei der Datenintegration angewiesen. Ein solcher Schritt bei der Datenintegration ist die Ermittlung von Zuordnungen zwischen den Benennungsschemata der Produktattribute der Zulieferer und dem Benennungsschema des Marktplatzes. Der Schritt ist aufw&auml;ndig, da Zulieferer individuelle und h&auml;ufig wechselnde Benennungsstrategien verwenden. Jede manuelle Katalogintegration erzeugt Paare von Produktkatalogen vor und nach dem Integrationsprozess. Bisher wurden diese Daten nicht genutzt, obwohl sie das Potenzial besitzen, die Schemazuordnung zu vereinfachen. Diese Arbeit widmet sich daher der Frage, inwieweit die im Rahmen eines Integrationsprozesses anfallenden Daten genutzt werden k&ouml;nnen, um das Bestimmen der Zuordnungen zu automatisieren oder zumindest die manuelle Zuordnung durch ein Empfehlungssystem zu unterst&uuml;tzen.&#13;
Zwei grundlegende Ans&auml;tze wurden verfolgt. Zun&auml;chst wurden ausschlie&szlig;lich die Attributnamen der Schemata f&uuml;r die Schemazuordnung verwendet. Dazu wurden mehrere Verfahren des maschinellen Lernens (ML) in Kombination mit verschiedenen Vektorisierungsstrategien f&uuml;r Attributnamen mit Verfahren verglichen, die ohne ML auskommen. Aufbauend auf den dabei gewonnenen Erkenntnissen wurde dann mit Attribut Label Ranking (ALR) ein neues Verfahren entwickelt, das neben Attributnamen auch Attributinstanzen zum Lernen von Zuordnungen verwendet. Die Evaluation der Verfahren erfolgte jeweils anhand von Produktdaten aus Integrationsprozessen eines Online-Marktplatzes f&uuml;r Antik&ouml;rper. Die Ergebnisse zeigen das Potenzial der ML-Verfahren. Anhand von &uuml;blichen Vergleichsmetriken konnte die Erkennungsrate von Zuordnungen textbasierter Attribute im Vergleich zu &auml;hnlichen Verfahren aus anderen Anwendungsbereichen um bis zu 0.5 verbessert werden. Erreichte Werte f&uuml;r Empfehlungsmetriken zeigen, dass die Verfahren als Empfehlungssystem zur Unterst&uuml;tzung der manuellen Arbeit eingesetzt werden k&ouml;nnen. Dar&uuml;ber hinaus erm&ouml;glicht ALR unter bestimmten Voraussetzungen eine vollautomatische Erkennung der Zuordnungen.
Online marketplaces generate a larger share of retail sales every year. An important factor for the success of online marketplaces is the correct presentation of product data to their customers. Suppliers often provide this data through product catalogs that the online marketplace needs to integrate into their web shop. In order to achieve this, small and medium-sized enterprises, in particular, often have to rely on time-consuming manual steps in data integration. One such step in data integration is the determination of mappings between the supplier naming schemes for product attributes and the marketplace naming scheme. This step is time-consuming because suppliers use individual naming strategies that can also change frequently. Every manual catalog integration creates pairs of product catalogs before and after the integration process. So far, this data has not yet been used, although it has the potential to simplify schema mapping. This work is dedicated to the question of how the data generated during an integration process can be used to automate the determination of schema mappings or, at least, to support the manual mapping process through a recommendation system.&#13;
This work employed two main approaches. First, only the attribute names of the schemas were used for schema mapping. For this purpose, several machine learning (ML) methods in combination with different vectorization strategies for attribute names were compared with methods that do not rely on ML. Second, by building upon the insights gained, a new method was developed with Attribute Label Ranking (ALR) using attribute instances and names to learn mappings. Both methods were evaluated using actual product data from integration processes of an online marketplace for antibodies.&#13;
The results show the potential of the ML methods. The recognition rate of mappings of text-based attributes improves by up to 0.5 in precision, recall and F-score compared to similar methods from different application areas. Achieved values for recommendation metrics show that the methods can be used as a recommendation system to support manual work. Furthermore, ALR enables fully automatic schema mappings under specific conditions.
open access
Schmidts, Oliver Michael
2023-12-08
IX, 199, xxiii Seiten
Kassel, Universit&auml;t Kassel, Fachbereich Elektrotechnik / Informatiik
Fohry, Claudia (Prof. Dr.)
Kraft, Bodo (Prof. Dr.)
Produktdaten
Datenintegration
Elektronischer Produktkatalog
Maschinelles Lernen
Schema &lt;Informatik&gt;
Matching
publishedVersion
false
true
</resource>

The following license files are associated with this item:

Creative Commons

Except where otherwise noted, this item's license is described as Attribution-NonCommercial-NoDerivatives 4.0 International

View/Open

Date

Author

Subject

URI

Metadata