Análisis de polaridad de tweets sobre contexto político colombiano usando técnicas de aprendizaje no supervisado

Pizarro Rivera, Francisco

Análisis de polaridad de tweets sobre contexto político colombiano usando técnicas de aprendizaje no supervisado

Files

4.LICENCIA DE USO - TG.pdf (205.09 KB)

240418_DocumentoGradoFranciscoPizarro.pdf (4.79 MB)

Date

2024

Authors

Pizarro Rivera, Francisco

Director

Pabón, María Constanza

Publisher

Pontificia Universidad Javeriana Cali

Share

Abstract

El análisis de polaridad u orientación semántica es una de las ramas del Natural Language Processing que ha tenido más crecimiento en el última década, con amplias aplicaciones a nivel académico y comercial. En este proyecto de grado se realizó una exploración sobre la aplicación de modelos de Machine Learning de carácter Auto Supervisado y No Supervisado para realizar el análisis de polaridad en tweets escritos por los usuarios de la red social X específicamente escritos sobre el contexto político colombiano. Se exploró el uso de un enfoque con modelos híbridos, en los cuales se hace un preproceso de pseudo etiquetado por medio de un modelo basado en lexicones (modelo VADER) para luego entrenar modelos supervisados como SVM, Logistic Regression y Multinomial Naive Bayes. El segundo enfoque constó de usar el modelo No Supervisado de K-Means, obteniendo un performance superior en la ejecución del modelo hibrido. Este trabajo tiene también por output la exportación a modo de prototipo del modelo con mejor performance y su vectorizador entrenado con el vocabulario de los 4.830 tweets recolectados de manera manual para ser desplegado en posibles ambientes de producción para el desarrollo de herramientas de análisis de orientación semántica aplicada a textos de redes sociales, pero en específico a tweets relacionados con el contexto político colombiano.