De-duplication for product master data records using machine learning techniques
Loading...
Date
2021
Authors
Director
Journal Title
Journal ISSN
Volume Title
Publisher
Pontificia Universidad Javeriana Cali
Abstract
Con la transformación digital de las organizaciones, específicamente en grandes empresas como plataformas de comercio electrónico y marketplaces, los datos de productos han crecido exponencialmente para alcanzar los objetivos y necesidades comerciales. Para respaldar esto, tanto los profesionales como los académicos han reconocido la importancia de los datos maestros como recurso fundamental de la organización, y a su vez han identificado que la administración de datos maestros es un proceso independiente de la aplicación que lo describe, posee y administra. Con el fin de medir si este recurso es "apto para el uso", se han desarrollado metodologías, técnicas y artefactos de calidad de datos, definiendo los cuatro KPI clave: "completitud, exactitud, unicidad y oportunidad". Actualmente, las plataformas de software MDM proporcionan medios para lograr la medición y gestión correctas de los KPI descritos anteriormente. Por lo tanto, en el proceso de gestión, la interacción humana siempre es necesaria, específicamente cuando los algoritmos de deduplicación actuales deben ajustarse en función de los datos etiquetados que muestran si dos o más entidades son o no duplicados. Esta investigación aborda este problema específico utilizando técnicas de aprendizaje automático, en las cuales diseñamos, construimos y probamos un modelo que de-duplica los registros de datos maestros de productos dentro de un corpus de datos de productos públicos.
Como resultado de la investigación, se han propuesto cinco (5) modelos de de-duplicación. Los modelos utilizan dos (2) tipos diferentes en arquitecturas de redes neuronales, Perceptrón Multicapa y LSTM, con dos (2) técnicas de pre-procesamiento de datos diferentes. Luego, todos los modelos han sido entrenados y probados utilizando los registros de pares de datos maestros de producto del corpus de datos seleccionado como parte de los objetivos de la investigación. Para evaluar el desempeño de cada modelo se han propuesto KPI's cuantitativos como F1 Score, entre otros, y KPI's cualitativos para clasificar la eficiencia de cada uno. Asimismo, se ha propuesto un árbol de decisión para seleccionar el modelo más adecuado según los objetivos de negocio y los recursos disponibles. Por último, se presentan las conclusiones y posible ampliación de la propuesta de investigación.
Description
item.page.descriptioneng
With digital transformation of organizations, specifically in companies as large enterprises as eCommerce and marketplaces platforms, product data has grown exponentially in order to achieve the business goals and needs. To support this, both practitioners and academics have shed light on the importance of master data as an enterprise resource and master data management as an application-independent process which describes, owns and manages it. In order to measure its “fit for use”, data quality methodologies, technics and artifacts have been developed, defining the four key KPI’s: “accuracy, completeness, uniqueness and timeliness”. Currently, MDM software platforms provide means to achieve the correct measurement and management of the KPI’s described above. Thus, in the process human interaction is always necessary, specifically when current deduplication algorithms need to be adjusted and fine-tuned based on labeled data that shows if two or more entities are or are not duplicates. This investigation approaches this specific problem using machine learning techniques, in which we design, build and test a model that de-duplicates product master data records within a public product data corpus.
As result of the investigation, five (5) de-duplication models have been proposed. The models use two (2) different types on neural network architectures, Multilayer Perceptron and LSTM, with two (2) different data pre-processing techniques. Then all the models have been trained and tested using the data corpus product master data pair records selected as part of the investigation objectives. To evaluate each model performance quantitative KPI’s as F1 Score, among others, and qualitative KPI’s have been proposed to rank the efficiency of each one. Also, as decision tree to select the most suited model according to the business objectives and resources available has been proposed. Last, the conclusions and possible investigation proposal extension are presented.
Keywords
Gestión de datos maestros, Calidad de datos, Resolución de de-duplicación de entidades, Aprendizaje automático, Redes neuronales profundas, LSTM redes de memoria corto plazo a largo plazo, Perceptrón Multicapa MLP