De-duplication for product master data records  using machine learning techniques

Hallo Larrea, Julio Xavier

De-duplication for product master data records using machine learning techniques

dc.contributor.advisor	Álvarez Vargas, Gloria Inés
dc.contributor.author	Hallo Larrea, Julio Xavier
dc.date.accessioned	2024-06-11T16:33:33Z
dc.date.available	2024-06-11T16:33:33Z
dc.date.issued	2021
dc.description.abstract	Con la transformación digital de las organizaciones, específicamente en grandes empresas como plataformas de comercio electrónico y marketplaces, los datos de productos han crecido exponencialmente para alcanzar los objetivos y necesidades comerciales. Para respaldar esto, tanto los profesionales como los académicos han reconocido la importancia de los datos maestros como recurso fundamental de la organización, y a su vez han identificado que la administración de datos maestros es un proceso independiente de la aplicación que lo describe, posee y administra. Con el fin de medir si este recurso es "apto para el uso", se han desarrollado metodologías, técnicas y artefactos de calidad de datos, definiendo los cuatro KPI clave: "completitud, exactitud, unicidad y oportunidad". Actualmente, las plataformas de software MDM proporcionan medios para lograr la medición y gestión correctas de los KPI descritos anteriormente. Por lo tanto, en el proceso de gestión, la interacción humana siempre es necesaria, específicamente cuando los algoritmos de deduplicación actuales deben ajustarse en función de los datos etiquetados que muestran si dos o más entidades son o no duplicados. Esta investigación aborda este problema específico utilizando técnicas de aprendizaje automático, en las cuales diseñamos, construimos y probamos un modelo que de-duplica los registros de datos maestros de productos dentro de un corpus de datos de productos públicos. Como resultado de la investigación, se han propuesto cinco (5) modelos de de-duplicación. Los modelos utilizan dos (2) tipos diferentes en arquitecturas de redes neuronales, Perceptrón Multicapa y LSTM, con dos (2) técnicas de pre-procesamiento de datos diferentes. Luego, todos los modelos han sido entrenados y probados utilizando los registros de pares de datos maestros de producto del corpus de datos seleccionado como parte de los objetivos de la investigación. Para evaluar el desempeño de cada modelo se han propuesto KPI's cuantitativos como F1 Score, entre otros, y KPI's cualitativos para clasificar la eficiencia de cada uno. Asimismo, se ha propuesto un árbol de decisión para seleccionar el modelo más adecuado según los objetivos de negocio y los recursos disponibles. Por último, se presentan las conclusiones y posible ampliación de la propuesta de investigación.
dc.description.abstracteng	With digital transformation of organizations, specifically in companies as large enterprises as eCommerce and marketplaces platforms, product data has grown exponentially in order to achieve the business goals and needs. To support this, both practitioners and academics have shed light on the importance of master data as an enterprise resource and master data management as an application-independent process which describes, owns and manages it. In order to measure its “fit for use”, data quality methodologies, technics and artifacts have been developed, defining the four key KPI’s: “accuracy, completeness, uniqueness and timeliness”. Currently, MDM software platforms provide means to achieve the correct measurement and management of the KPI’s described above. Thus, in the process human interaction is always necessary, specifically when current deduplication algorithms need to be adjusted and fine-tuned based on labeled data that shows if two or more entities are or are not duplicates. This investigation approaches this specific problem using machine learning techniques, in which we design, build and test a model that de-duplicates product master data records within a public product data corpus. As result of the investigation, five (5) de-duplication models have been proposed. The models use two (2) different types on neural network architectures, Multilayer Perceptron and LSTM, with two (2) different data pre-processing techniques. Then all the models have been trained and tested using the data corpus product master data pair records selected as part of the investigation objectives. To evaluate each model performance quantitative KPI’s as F1 Score, among others, and qualitative KPI’s have been proposed to rank the efficiency of each one. Also, as decision tree to select the most suited model according to the business objectives and resources available has been proposed. Last, the conclusions and possible investigation proposal extension are presented.
dc.format.extent	136 p.
dc.format.mimetype	application/pdf
dc.identifier.doi	https://doi.org/10.71618/1ars-z402
dc.identifier.uri	http://hdl.handle.net/11522/2181
dc.language.iso	eng
dc.publisher	Pontificia Universidad Javeriana Cali
dc.rights.accessrights	http://purl.org/coar/access_right/c_abf2
dc.rights.creativecommons	https://creativecommons.org/licenses/by-nc-nd/4.0/
dc.rights.uri	https://creativecommons.org/licenses/by-nc-nd/4.0/
dc.subject	Gestión de datos maestros
dc.subject	Calidad de datos
dc.subject	Resolución de de-duplicación de entidades
dc.subject	Aprendizaje automático
dc.subject	Redes neuronales profundas
dc.subject	LSTM redes de memoria corto plazo a largo plazo
dc.subject	Perceptrón Multicapa MLP
dc.thesis.discipline	Facultad de Ingeniería y Ciencias. Maestría en Ingeniería
dc.thesis.grantor	Pontificia Universidad Javeriana Cali
dc.thesis.level	Maestría
dc.title	De-duplication for product master data records using machine learning techniques	eng
dc.type.coar	http://purl.org/coar/resource_type/c_bdcc
dc.type.local	Tesis/Trabajo de grado - Monografía - Maestría
dc.type.redcol	https://purl.org/redcol/resource_type/TM