Generación automática de resúmenes de documentos financieros usando técnicas basadas en grafos
No Thumbnail Available
Date
2024
Journal Title
Journal ISSN
Volume Title
Publisher
Pontificia Universidad Javeriana Cali
Abstract
La generación automática de resúmenes es un área de creciente interés que busca facilitar la comprensión eficiente de grandes volúmenes de información textual. Este proyecto aborda el problema combinando técnicas extractivas y abstractivas mediante un enfoque mixto y el uso de algoritmos de grafos. El sistema automatizado desarrollado incluye la preparación y limpieza de textos financieros, vectorización con TF-IDF y modelos de embeddings como Cohere y Jina AI, cálculo de similitud coseno, creación de grafos, y selección de oraciones relevantes mediante el algoritmo MMR. El código fuente del proyecto, desarrollado en Python, está disponible en un repositorio con instrucciones de instalación y ejecución.
Description
item.page.descriptioneng
The automatic generation of summaries is an area of growing interest that seeks to facilitate the efficient understanding of large volumes of textual information. This project addresses the problem by combining extractive and abstractive techniques through a mixed approach and the use of graph algorithms. The automated system developed includes the preparation and cleaning of financial texts, vectorization with TF-IDF and embedding models such as Cohere and Jina AI, cosine similarity calculation, graph creation, and selection of relevant sentences using the MMR algorithm. The source code of the project, developed in Python, is available in a repository with installation and execution instructions.
Keywords
Generación automática de resúmenes, Investigación y análisis de información, NLP (Natural Language Processing), Machine Learning (ML), Técnicas extractivas y abstractivas, Algoritmos de grafos, Texto financiero, Preparación y limpieza de textos, Automatic generation of summaries, Research and analysis of information, Extractive and abstractive techniques, Graph algorithms, Financial text, Preparation and cleaning of texts