De-duplication for product master data records using machine learning techniques

dc.contributor.advisorÁlvarez Vargas, Gloria Inés
dc.contributor.authorHallo Larrea, Julio Xavier
dc.date.accessioned2024-06-11T16:33:33Z
dc.date.available2024-06-11T16:33:33Z
dc.date.issued2021
dc.description.abstractCon la transformación digital de las organizaciones, específicamente en grandes empresas como plataformas de comercio electrónico y marketplaces, los datos de productos han crecido exponencialmente para alcanzar los objetivos y necesidades comerciales. Para respaldar esto, tanto los profesionales como los académicos han reconocido la importancia de los datos maestros como recurso fundamental de la organización, y a su vez han identificado que la administración de datos maestros es un proceso independiente de la aplicación que lo describe, posee y administra. Con el fin de medir si este recurso es "apto para el uso", se han desarrollado metodologías, técnicas y artefactos de calidad de datos, definiendo los cuatro KPI clave: "completitud, exactitud, unicidad y oportunidad". Actualmente, las plataformas de software MDM proporcionan medios para lograr la medición y gestión correctas de los KPI descritos anteriormente. Por lo tanto, en el proceso de gestión, la interacción humana siempre es necesaria, específicamente cuando los algoritmos de deduplicación actuales deben ajustarse en función de los datos etiquetados que muestran si dos o más entidades son o no duplicados. Esta investigación aborda este problema específico utilizando técnicas de aprendizaje automático, en las cuales diseñamos, construimos y probamos un modelo que de-duplica los registros de datos maestros de productos dentro de un corpus de datos de productos públicos. Como resultado de la investigación, se han propuesto cinco (5) modelos de de-duplicación. Los modelos utilizan dos (2) tipos diferentes en arquitecturas de redes neuronales, Perceptrón Multicapa y LSTM, con dos (2) técnicas de pre-procesamiento de datos diferentes. Luego, todos los modelos han sido entrenados y probados utilizando los registros de pares de datos maestros de producto del corpus de datos seleccionado como parte de los objetivos de la investigación. Para evaluar el desempeño de cada modelo se han propuesto KPI's cuantitativos como F1 Score, entre otros, y KPI's cualitativos para clasificar la eficiencia de cada uno. Asimismo, se ha propuesto un árbol de decisión para seleccionar el modelo más adecuado según los objetivos de negocio y los recursos disponibles. Por último, se presentan las conclusiones y posible ampliación de la propuesta de investigación.
dc.description.abstractengWith digital transformation of organizations, specifically in companies as large enterprises as eCommerce and marketplaces platforms, product data has grown exponentially in order to achieve the business goals and needs. To support this, both practitioners and academics have shed light on the importance of master data as an enterprise resource and master data management as an application-independent process which describes, owns and manages it. In order to measure its “fit for use”, data quality methodologies, technics and artifacts have been developed, defining the four key KPI’s: “accuracy, completeness, uniqueness and timeliness”. Currently, MDM software platforms provide means to achieve the correct measurement and management of the KPI’s described above. Thus, in the process human interaction is always necessary, specifically when current deduplication algorithms need to be adjusted and fine-tuned based on labeled data that shows if two or more entities are or are not duplicates. This investigation approaches this specific problem using machine learning techniques, in which we design, build and test a model that de-duplicates product master data records within a public product data corpus. As result of the investigation, five (5) de-duplication models have been proposed. The models use two (2) different types on neural network architectures, Multilayer Perceptron and LSTM, with two (2) different data pre-processing techniques. Then all the models have been trained and tested using the data corpus product master data pair records selected as part of the investigation objectives. To evaluate each model performance quantitative KPI’s as F1 Score, among others, and qualitative KPI’s have been proposed to rank the efficiency of each one. Also, as decision tree to select the most suited model according to the business objectives and resources available has been proposed. Last, the conclusions and possible investigation proposal extension are presented.
dc.format.extent136 p.
dc.format.mimetypeapplication/pdf
dc.identifier.urihttps://vitela.javerianacali.edu.co/handle/11522/2181
dc.language.isoeng
dc.publisherPontificia Universidad Javeriana Cali
dc.rights.accessrightshttp://purl.org/coar/access_right/c_abf2
dc.rights.creativecommonshttps://creativecommons.org/licenses/by-nc-nd/4.0/
dc.rights.urihttps://creativecommons.org/licenses/by-nc-nd/4.0/
dc.subjectGestión de datos maestros
dc.subjectCalidad de datos
dc.subjectResolución de de-duplicación de entidades
dc.subjectAprendizaje automático
dc.subjectRedes neuronales profundas
dc.subjectLSTM redes de memoria corto plazo a largo plazo
dc.subjectPerceptrón Multicapa MLP
dc.thesis.disciplineFacultad de Ingeniería y Ciencias. Maestría en Ingeniería
dc.thesis.grantorPontificia Universidad Javeriana Cali
dc.thesis.levelMaestría
dc.titleDe-duplication for product master data records using machine learning techniqueseng
dc.type.coarhttp://purl.org/coar/resource_type/c_bdcc
dc.type.localTesis/Trabajo de grado - Monografía - Maestría
dc.type.redcolhttps://purl.org/redcol/resource_type/TM
Files
Original bundle
Now showing 1 - 2 of 2
Loading...
Thumbnail Image
Name:
Tesis_Maestria_Ing_Julio_Hallo_201020022065_Final.pdf
Size:
10.37 MB
Format:
Adobe Portable Document Format
No Thumbnail Available
Name:
LICENCIA FINAL_jxhallo.pdf
Size:
100.64 KB
Format:
Adobe Portable Document Format
License bundle
Now showing 1 - 1 of 1
No Thumbnail Available
Name:
license.txt
Size:
1.71 KB
Format:
Item-specific license agreed to upon submission
Description: