Sistema de generación automática de resúmenes académicos: una aplicación de aprendizaje automático
Loading...
Date
2025
Director
Journal Title
Journal ISSN
Volume Title
Publisher
Pontificia Universidad Javariana Cali
Abstract
Este proyecto de investigación se centró en el desarrollo de un sistema de generación automática de resúmenes académicos basado en técnicas de aprendizaje automático, con el objetivo de evaluar su capacidad para sintetizar información de textos extensos en el ámbito académico. El problema central radicaba en diseñar un modelo que pudiera capturar y condensar las ideas principales de los documentos. Nuestro enfoque implicó la implementación y comparación de varios métodos, incluyendo modelos extractivos como Luhn y K-Means, y el modelo abstractivo Seq2Seq. Las fases iniciales del desarrollo estuvieron enfocadas en el preprocesamiento de datos provenientes de artículos académicos de arXiv, así como en la exploración de configuraciones preliminares para identificar técnicas y parámetros adecuados.Los experimentos exploraron combinaciones específicas de hiperparámetros, como el tamaño del batch, la cantidad de épocas y las dimensiones de los embeddings, cada una ajustando variables como EPOCHS, BATCH_SIZE y LATENT_DIM. Además, los modelos se evaluaron empleando métricas ROUGE, que miden precisión, recuperación y F1-Score para validar la calidad de los resúmenes generados, y BERTScore, que utiliza representaciones semánticas para evaluar la similitud entre los resúmenes generados y las referencias.En conclusión sistemas de generación de resúmenes, subrayando la importancia de un diseño sistemático y la posibilidad de futuras optimizaciones para mejorar su rendimiento en contextos académicos
Description
item.page.descriptioneng
This research project focused on the development of an automatic academic abstract generation system based on machine learning techniques, with the aim of evaluating its ability to synthesize information from long academic texts. The central problem was to design a model that could capture and condense the main ideas of the papers. Our approach involved the implementation and comparison of several methods, including extractive models such as Luhn and K-Means, and the abstractive model Seq2Seq. The initial phases of development focused on preprocessing data from academic papers on arXiv, as well as exploring preliminary configurations to identify suitable techniques and parameters. The experiments explored specific combinations of hyperparameters, such as batch size, number of epochs, and embedding dimensions, each by tuning variables such as EPOCHS, BATCH_SIZE, and LATENT_DIM. In addition, the models were evaluated using ROUGE metrics, which measure precision, recall and F1-Score to validate the quality of the generated summaries, and BERTScore, which uses semantic representations to assess the similarity between the generated summaries and the references.In conclusion, the models were evaluated using summary generation systems, highlighting the importance of a systematic design and the possibility of future optimizations to improve their performance in academic contexts.
Keywords
Resumen de textos, Aprendizaje automático, Enfoque Extractivo, Aprendizaje profundo, Enfoque Abstractivo, Text Summarization, Machine Learning Extractive Approach, Deep Learning, Enfoque, Abstractive Approac