Desarrollo de un modelo de aprendizaje automático para la asignación de códigos de producto por sociedades comisionistas de la bolsa mercantil de Colombia a partir de descripciones de productos en supermercados
Loading...
Date
2024
Authors
Journal Title
Journal ISSN
Volume Title
Publisher
Pontificia Universidad Javeriana Cali
Abstract
Este proyecto presenta el desarrollo de un modelo de aprendizaje automático para la asignación automática de códigos de productos en la Bolsa Mercantil de Colombia (BMC) a partir de descripciones proporcionadas por sus Sociedades Comisionistas (SC). Utilizando técnicas avanzadas de procesamiento de lenguaje natural (NLP) y aprendizaje profundo, se busca mejorar la precisión y eficiencia del proceso actual de asignación manual. Las técnicas implementadas incluyen word embeddings con Word2Vec, modelos preentrenados de spaCy, la combinación de métricas de similitud como Jaccard y coseno, y redes siamesas (SBERT) para la comparación semántica de oraciones. A lo largo del proyecto, se identificaron varias limitaciones en el corpus de datos, como la variabilidad y calidad de las descripciones, errores ortográficos y léxicos, y la falta de metadatos adicionales. Los resultados mostraron que los modelos preentrenados y las redes siamesas proporcionaron mejoras significativas en la precisión de la asignación en comparación con los modelos entrenados únicamente con nuestro corpus. La combinación de métricas de similitud también demostró ser efectiva para mejorar el alineamiento de descripciones. El estudio concluye que la integración de datos adicionales y el ajuste fino continuo de los modelos pueden llevar a mejoras adicionales en la precisión y eficiencia de este proyecto.
Description
item.page.descriptioneng
This project presents the development of a machine learning model for the automatic assignment of product codes in the Colombian Mercantile Exchange (BMC) based on descriptions provided by its Brokerage Firms (SC). Using advanced natural language processing (NLP) and deep learning techniques, the aim is to improve the accuracy and efficiency of the current manual assignment process. The implemented techniques include word embeddings with Word2Vec, pre-trained spaCy models, the combination of similarity metrics such as Jaccard and cosine, and Siamese networks (SBERT) for semantic sentence comparison. Throughout the project, several limitations were identified in the data corpus, such as the variability and quality of the descriptions, orthographic and lexical errors, and the lack of additional metadata. The results showed that pre-trained models and Siamese networks provided significant improvements in assignment accuracy compared to models trained solely on our corpus. The combination of similarity metrics also proved effective in improving description alignment. The study concludes that the integration of additional data and continuous fine-tuning of the models can lead to further improvements in accuracy and efficiency.
Keywords
Aprendizaje automático, Procesamiento de lenguaje natural, Redes siamesas, Bolsa mercantil de Colombia, Asignación de códigos de productos, Machine learning, Natural language processing, Siamese networks, SBERT, Colombian mercantile exchange, Product code assignment