Repository logo
  • Communities & Collections
  • All of DSpace
  • English
  • Español
  • Log In
    New user? Click here to register.Have you forgotten your password?
  1. Home
  2. Browse by Subject

Browsing by Subject "Calidad de datos"

Now showing 1 - 2 of 2
Results Per Page
Sort Options
  • Loading...
    Thumbnail Image
    Item
    De-duplication for product master data records using machine learning techniques
    (Pontificia Universidad Javeriana Cali, 2021) Hallo Larrea, Julio Xavier; Álvarez Vargas, Gloria Inés
    Con la transformación digital de las organizaciones, específicamente en grandes empresas como plataformas de comercio electrónico y marketplaces, los datos de productos han crecido exponencialmente para alcanzar los objetivos y necesidades comerciales. Para respaldar esto, tanto los profesionales como los académicos han reconocido la importancia de los datos maestros como recurso fundamental de la organización, y a su vez han identificado que la administración de datos maestros es un proceso independiente de la aplicación que lo describe, posee y administra. Con el fin de medir si este recurso es "apto para el uso", se han desarrollado metodologías, técnicas y artefactos de calidad de datos, definiendo los cuatro KPI clave: "completitud, exactitud, unicidad y oportunidad". Actualmente, las plataformas de software MDM proporcionan medios para lograr la medición y gestión correctas de los KPI descritos anteriormente. Por lo tanto, en el proceso de gestión, la interacción humana siempre es necesaria, específicamente cuando los algoritmos de deduplicación actuales deben ajustarse en función de los datos etiquetados que muestran si dos o más entidades son o no duplicados. Esta investigación aborda este problema específico utilizando técnicas de aprendizaje automático, en las cuales diseñamos, construimos y probamos un modelo que de-duplica los registros de datos maestros de productos dentro de un corpus de datos de productos públicos. Como resultado de la investigación, se han propuesto cinco (5) modelos de de-duplicación. Los modelos utilizan dos (2) tipos diferentes en arquitecturas de redes neuronales, Perceptrón Multicapa y LSTM, con dos (2) técnicas de pre-procesamiento de datos diferentes. Luego, todos los modelos han sido entrenados y probados utilizando los registros de pares de datos maestros de producto del corpus de datos seleccionado como parte de los objetivos de la investigación. Para evaluar el desempeño de cada modelo se han propuesto KPI's cuantitativos como F1 Score, entre otros, y KPI's cualitativos para clasificar la eficiencia de cada uno. Asimismo, se ha propuesto un árbol de decisión para seleccionar el modelo más adecuado según los objetivos de negocio y los recursos disponibles. Por último, se presentan las conclusiones y posible ampliación de la propuesta de investigación.
  • Loading...
    Thumbnail Image
    Item
    Modelo de predicción para el número de especies de Coleoptera en el Departamento de Antioquia
    (Pontificia Universidad Javeriana Cali, 2025) Marentes Herrera, Esteban; Mora Cardona, Mario Julián
    Colombia es un país megadiverso, pero el número de especies conocidas está subestimado debido a la falta de información, en especial para grupos poco estudiados y difíciles de muestrear e identificar como los coleópteros. No es posible obtener el número exacto de especies para este grupo a través de métodos convencionales, debido a su diversidad y falta de recursos para investigación en taxonomía, por este motivo una opción es utilizar técnicas y modelos predictivos procedentes de la ciencia de datos, junto a registros biológicos y variables climáticas para realizar una predicción de manera indirecta. El objetivo principal fue estimar el número de especies de coleópteros en el Departamento de Antioquia, debido a que es el Departamento con mayor cantidad de datos disponibles y tienen una gran variedad de hábitats representativos. Para esto se realizó una búsqueda en la literatura de las variables que afectan la distribución de los coleópteros y las técnicas más utilizadas para predecir el número de especies, luego se realizó una implementación de algunas de estas en Python, que fueron evaluadas a través de métricas numéricas y de una elicitación experta de entomólogos. Finalmente se realizó la predicción del número de especies para el país y para el departamento de Antioquia utilizando el modelo que obtuvo el mejor rendimiento. Las variables más relevantes identificadas fueron: velocidad del viento, humedad relativa, precipitación, radiación solar, temperatura, ecosistemas, elevación y las especies de plantas cercanas a los coleópteros, estas se utilizaron junto a los registros biológicos de coleópteros descargados de GBIF para entrenar los modelos, anotando la información a nivel de familia con las listas de chequeo publicadas por expertos. Para la predicción se utilizaron cuatro tipos de modelos diferentes de regresión, regresión lineal múltiple, perceptrón multicapa, redes neuronales profundas y random forest, que fueron identificados en la literatura como los que tenían mejores resultados. Las redes neuronales profundas tuvieron el mejor desempeño, con un R2 de 0.98, MSE de 92.6 y MAE de 4.07, con este se estimó que el número de especies del departamento está entre un mínimo de 2.007 y un máximo de 9.381, con un promedio de 4.210 especies y fue compartida con los expertos que estimaron que el valor real probablemente está cerca del límite superior. Esta información va a permitir tomar decisiones informadas de conservación y la divulgación con el público general sobre la diversidad del grupo.
logo-javeriana

Pontificia Universidad Javeriana Cali

Calle 18 No 118-250 Cali, Colombia

Teléfono:(+57) 602-321-82-00/602-485-64-00 - Línea gratuita nacional 01-8000-180556

Contacto repositorio Vitela: vitela@javerianacali.edu.co

  • Cookie settings
  • Privacy policy
  • End User Agreement
  • Send Feedback