Date
2023Author
Schmidts, Oliver MichaelSubject
004 Data processing and computer science 330 Economics ProduktdatenDatenintegrationElektronischer ProduktkatalogMaschinelles LernenSchema <Informatik>MatchingMetadata
Show full item record
Dissertation
Effektive Integration von heterogenen Produktkatalogen im schnelllebigen Umfeld des E-Commerce
Abstract
Online-Marktplätze generieren von Jahr zu Jahr einen größeren Anteil des Einzelhandelsumsatzes. Ein wichtiger Faktor für den Erfolg von Online-Marktplätzen ist die korrekte Darstellung der Produktdaten für ihre Kunden. Diese Daten werden häufig von Zulieferern in Form von Produktkatalogen zur Verfügung gestellt, die in den Online-Marktplatz integriert werden müssen. Um dies zu erreichen, sind insbesondere kleine und mittelständische Unternehmen häufig auf aufwändige manuelle Arbeitsschritte bei der Datenintegration angewiesen. Ein solcher Schritt bei der Datenintegration ist die Ermittlung von Zuordnungen zwischen den Benennungsschemata der Produktattribute der Zulieferer und dem Benennungsschema des Marktplatzes. Der Schritt ist aufwändig, da Zulieferer individuelle und häufig wechselnde Benennungsstrategien verwenden. Jede manuelle Katalogintegration erzeugt Paare von Produktkatalogen vor und nach dem Integrationsprozess. Bisher wurden diese Daten nicht genutzt, obwohl sie das Potenzial besitzen, die Schemazuordnung zu vereinfachen. Diese Arbeit widmet sich daher der Frage, inwieweit die im Rahmen eines Integrationsprozesses anfallenden Daten genutzt werden können, um das Bestimmen der Zuordnungen zu automatisieren oder zumindest die manuelle Zuordnung durch ein Empfehlungssystem zu unterstützen.
Zwei grundlegende Ansätze wurden verfolgt. Zunächst wurden ausschließlich die Attributnamen der Schemata für die Schemazuordnung verwendet. Dazu wurden mehrere Verfahren des maschinellen Lernens (ML) in Kombination mit verschiedenen Vektorisierungsstrategien für Attributnamen mit Verfahren verglichen, die ohne ML auskommen. Aufbauend auf den dabei gewonnenen Erkenntnissen wurde dann mit Attribut Label Ranking (ALR) ein neues Verfahren entwickelt, das neben Attributnamen auch Attributinstanzen zum Lernen von Zuordnungen verwendet. Die Evaluation der Verfahren erfolgte jeweils anhand von Produktdaten aus Integrationsprozessen eines Online-Marktplatzes für Antikörper. Die Ergebnisse zeigen das Potenzial der ML-Verfahren. Anhand von üblichen Vergleichsmetriken konnte die Erkennungsrate von Zuordnungen textbasierter Attribute im Vergleich zu ähnlichen Verfahren aus anderen Anwendungsbereichen um bis zu 0.5 verbessert werden. Erreichte Werte für Empfehlungsmetriken zeigen, dass die Verfahren als Empfehlungssystem zur Unterstützung der manuellen Arbeit eingesetzt werden können. Darüber hinaus ermöglicht ALR unter bestimmten Voraussetzungen eine vollautomatische Erkennung der Zuordnungen.
Zwei grundlegende Ansätze wurden verfolgt. Zunächst wurden ausschließlich die Attributnamen der Schemata für die Schemazuordnung verwendet. Dazu wurden mehrere Verfahren des maschinellen Lernens (ML) in Kombination mit verschiedenen Vektorisierungsstrategien für Attributnamen mit Verfahren verglichen, die ohne ML auskommen. Aufbauend auf den dabei gewonnenen Erkenntnissen wurde dann mit Attribut Label Ranking (ALR) ein neues Verfahren entwickelt, das neben Attributnamen auch Attributinstanzen zum Lernen von Zuordnungen verwendet. Die Evaluation der Verfahren erfolgte jeweils anhand von Produktdaten aus Integrationsprozessen eines Online-Marktplatzes für Antikörper. Die Ergebnisse zeigen das Potenzial der ML-Verfahren. Anhand von üblichen Vergleichsmetriken konnte die Erkennungsrate von Zuordnungen textbasierter Attribute im Vergleich zu ähnlichen Verfahren aus anderen Anwendungsbereichen um bis zu 0.5 verbessert werden. Erreichte Werte für Empfehlungsmetriken zeigen, dass die Verfahren als Empfehlungssystem zur Unterstützung der manuellen Arbeit eingesetzt werden können. Darüber hinaus ermöglicht ALR unter bestimmten Voraussetzungen eine vollautomatische Erkennung der Zuordnungen.
Online marketplaces generate a larger share of retail sales every year. An important factor for the success of online marketplaces is the correct presentation of product data to their customers. Suppliers often provide this data through product catalogs that the online marketplace needs to integrate into their web shop. In order to achieve this, small and medium-sized enterprises, in particular, often have to rely on time-consuming manual steps in data integration. One such step in data integration is the determination of mappings between the supplier naming schemes for product attributes and the marketplace naming scheme. This step is time-consuming because suppliers use individual naming strategies that can also change frequently. Every manual catalog integration creates pairs of product catalogs before and after the integration process. So far, this data has not yet been used, although it has the potential to simplify schema mapping. This work is dedicated to the question of how the data generated during an integration process can be used to automate the determination of schema mappings or, at least, to support the manual mapping process through a recommendation system.
This work employed two main approaches. First, only the attribute names of the schemas were used for schema mapping. For this purpose, several machine learning (ML) methods in combination with different vectorization strategies for attribute names were compared with methods that do not rely on ML. Second, by building upon the insights gained, a new method was developed with Attribute Label Ranking (ALR) using attribute instances and names to learn mappings. Both methods were evaluated using actual product data from integration processes of an online marketplace for antibodies.
The results show the potential of the ML methods. The recognition rate of mappings of text-based attributes improves by up to 0.5 in precision, recall and F-score compared to similar methods from different application areas. Achieved values for recommendation metrics show that the methods can be used as a recommendation system to support manual work. Furthermore, ALR enables fully automatic schema mappings under specific conditions.
This work employed two main approaches. First, only the attribute names of the schemas were used for schema mapping. For this purpose, several machine learning (ML) methods in combination with different vectorization strategies for attribute names were compared with methods that do not rely on ML. Second, by building upon the insights gained, a new method was developed with Attribute Label Ranking (ALR) using attribute instances and names to learn mappings. Both methods were evaluated using actual product data from integration processes of an online marketplace for antibodies.
The results show the potential of the ML methods. The recognition rate of mappings of text-based attributes improves by up to 0.5 in precision, recall and F-score compared to similar methods from different application areas. Achieved values for recommendation metrics show that the methods can be used as a recommendation system to support manual work. Furthermore, ALR enables fully automatic schema mappings under specific conditions.
Citation
@phdthesis{doi:10.17170/kobra-202401019303,
author={Schmidts, Oliver Michael},
title={Effektive Integration von heterogenen Produktkatalogen im schnelllebigen Umfeld des E-Commerce},
school={Kassel, Universität Kassel, Fachbereich Elektrotechnik / Informatiik},
year={2023}
}
0500 Oax 0501 Text $btxt$2rdacontent 0502 Computermedien $bc$2rdacarrier 1100 2023$n2023 1500 1/ger 2050 ##0##http://hdl.handle.net/123456789/15343 3000 Schmidts, Oliver Michael 4000 Effektive Integration von heterogenen Produktkatalogen im schnelllebigen Umfeld des E-Commerce / Schmidts, Oliver Michael 4030 4060 Online-Ressource 4085 ##0##=u http://nbn-resolving.de/http://hdl.handle.net/123456789/15343=x R 4204 \$dDissertation 4170 5550 {{Produktdaten}} 5550 {{Datenintegration}} 5550 {{Elektronischer Produktkatalog}} 5550 {{Maschinelles Lernen}} 5550 {{Schema <Informatik>}} 5550 {{Matching}} 7136 ##0##http://hdl.handle.net/123456789/15343
2024-01-05T09:33:58Z 2024-01-05T09:33:58Z 2023 doi:10.17170/kobra-202401019303 http://hdl.handle.net/123456789/15343 ger Attribution-NonCommercial-NoDerivatives 4.0 International http://creativecommons.org/licenses/by-nc-nd/4.0/ Produktdaten Datenintegration Produktkataloge Machine Learning Schema-Matching 004 330 Effektive Integration von heterogenen Produktkatalogen im schnelllebigen Umfeld des E-Commerce Dissertation Online-Marktplätze generieren von Jahr zu Jahr einen größeren Anteil des Einzelhandelsumsatzes. Ein wichtiger Faktor für den Erfolg von Online-Marktplätzen ist die korrekte Darstellung der Produktdaten für ihre Kunden. Diese Daten werden häufig von Zulieferern in Form von Produktkatalogen zur Verfügung gestellt, die in den Online-Marktplatz integriert werden müssen. Um dies zu erreichen, sind insbesondere kleine und mittelständische Unternehmen häufig auf aufwändige manuelle Arbeitsschritte bei der Datenintegration angewiesen. Ein solcher Schritt bei der Datenintegration ist die Ermittlung von Zuordnungen zwischen den Benennungsschemata der Produktattribute der Zulieferer und dem Benennungsschema des Marktplatzes. Der Schritt ist aufwändig, da Zulieferer individuelle und häufig wechselnde Benennungsstrategien verwenden. Jede manuelle Katalogintegration erzeugt Paare von Produktkatalogen vor und nach dem Integrationsprozess. Bisher wurden diese Daten nicht genutzt, obwohl sie das Potenzial besitzen, die Schemazuordnung zu vereinfachen. Diese Arbeit widmet sich daher der Frage, inwieweit die im Rahmen eines Integrationsprozesses anfallenden Daten genutzt werden können, um das Bestimmen der Zuordnungen zu automatisieren oder zumindest die manuelle Zuordnung durch ein Empfehlungssystem zu unterstützen. Zwei grundlegende Ansätze wurden verfolgt. Zunächst wurden ausschließlich die Attributnamen der Schemata für die Schemazuordnung verwendet. Dazu wurden mehrere Verfahren des maschinellen Lernens (ML) in Kombination mit verschiedenen Vektorisierungsstrategien für Attributnamen mit Verfahren verglichen, die ohne ML auskommen. Aufbauend auf den dabei gewonnenen Erkenntnissen wurde dann mit Attribut Label Ranking (ALR) ein neues Verfahren entwickelt, das neben Attributnamen auch Attributinstanzen zum Lernen von Zuordnungen verwendet. Die Evaluation der Verfahren erfolgte jeweils anhand von Produktdaten aus Integrationsprozessen eines Online-Marktplatzes für Antikörper. Die Ergebnisse zeigen das Potenzial der ML-Verfahren. Anhand von üblichen Vergleichsmetriken konnte die Erkennungsrate von Zuordnungen textbasierter Attribute im Vergleich zu ähnlichen Verfahren aus anderen Anwendungsbereichen um bis zu 0.5 verbessert werden. Erreichte Werte für Empfehlungsmetriken zeigen, dass die Verfahren als Empfehlungssystem zur Unterstützung der manuellen Arbeit eingesetzt werden können. Darüber hinaus ermöglicht ALR unter bestimmten Voraussetzungen eine vollautomatische Erkennung der Zuordnungen. Online marketplaces generate a larger share of retail sales every year. An important factor for the success of online marketplaces is the correct presentation of product data to their customers. Suppliers often provide this data through product catalogs that the online marketplace needs to integrate into their web shop. In order to achieve this, small and medium-sized enterprises, in particular, often have to rely on time-consuming manual steps in data integration. One such step in data integration is the determination of mappings between the supplier naming schemes for product attributes and the marketplace naming scheme. This step is time-consuming because suppliers use individual naming strategies that can also change frequently. Every manual catalog integration creates pairs of product catalogs before and after the integration process. So far, this data has not yet been used, although it has the potential to simplify schema mapping. This work is dedicated to the question of how the data generated during an integration process can be used to automate the determination of schema mappings or, at least, to support the manual mapping process through a recommendation system. This work employed two main approaches. First, only the attribute names of the schemas were used for schema mapping. For this purpose, several machine learning (ML) methods in combination with different vectorization strategies for attribute names were compared with methods that do not rely on ML. Second, by building upon the insights gained, a new method was developed with Attribute Label Ranking (ALR) using attribute instances and names to learn mappings. Both methods were evaluated using actual product data from integration processes of an online marketplace for antibodies. The results show the potential of the ML methods. The recognition rate of mappings of text-based attributes improves by up to 0.5 in precision, recall and F-score compared to similar methods from different application areas. Achieved values for recommendation metrics show that the methods can be used as a recommendation system to support manual work. Furthermore, ALR enables fully automatic schema mappings under specific conditions. open access Schmidts, Oliver Michael 2023-12-08 IX, 199, xxiii Seiten Kassel, Universität Kassel, Fachbereich Elektrotechnik / Informatiik Fohry, Claudia (Prof. Dr.) Kraft, Bodo (Prof. Dr.) Produktdaten Datenintegration Elektronischer Produktkatalog Maschinelles Lernen Schema <Informatik> Matching publishedVersion false true
The following license files are associated with this item: