Identificación de lenguaje ofensivo en mensajes de texto, utilizando técnicas de aprendizaje automático

Abstract
Este proyecto de investigación se centró en el estudio y desarrollo de modelos de aprendizaje automático supervisado, incluyendo variantes de Naive Bayes, máquinas de soporte vectorial y redes neuronales convolucionales, con el propósito de identificar y clasificar tweets como ofensivos o no ofensivos. A lo largo de esta investigación, se siguieron varios pasos fundamentales que desempeñaron un papel importante en la creación de los modelos finales. Los diversos procesos experimentales desarrollados a lo largo de la investigación arrojaron resultados de relevancia. Inicialmente, se implementaron modelos base predeterminados disponibles en las librerías. A medida que avanzábamos e iteramos, además de la constante incorporación de métodos y técnicas más avanzadas que permitían enriquecer y perfeccionar los modelos. Al concluir la investigación tanto los modelos de Naive Bayes, junto con el modelo de máquinas de soporte vectorial, arrojaron resultados excelentes durante las fases de entrenamiento, pero al momento de comprobar con la fase de prueba los resultados fueron deficientes. A pesar de implementar diversas estrategias, métodos y técnicas para mejorar su eficacia en el proceso de la clasificación de tweets, no se logró un desempeño satisfactorio debido a problemas de sobreajuste. Además, el modelo de redes neuronales, junto con las técnicas implementadas para optimizar su rendimiento, demostró ser efectivo al proporcionar resultados satisfactorios. En resumen, este estudio facilitó la exploración de diversos métodos y técnicas en el desarrollo de modelos de clasificación, destacando la relevancia de la iteración continua para el constante perfeccionamiento de la investigación.
Description
item.page.descriptioneng
Social networks are digital applications or platforms that allow the exchange of information between individuals, the creation of communities, sites of expression, among others. Thanks to them, people have a means to share their ideas or opinions on a particular topic, thus exercising their universal right to free expression. These include websites such as Twitter, where users can express themselves through text, audiovisual content, images or emojis. Due to the freedom they offer, the anonymity and the increasingly marked polarization in society, they give rise to the use of offensive language and toxic or negative content that some subjects generate towards others with the inten tion of offending, hurting or discriminating. This is why sentiment analysis, in conjunction with machine learning, is presented as an area of study and a very useful tool to detect and counteract this problem. Techniques are used to determine the type of intention that has the content shared by people in this social network, distinguishing between positive or negative. In particular, our project seeks, through the use of this previously mentioned system, to develop models that allow classifying text messages coming from Twitter (tweets) into offensive and non-offensive, using sentiment analysis.
Keywords
Redes sociales, Libertad de expresión, Lenguaje ofensivo, Análisis de sentimientos, Aprendizaje automático, Clasificación
Citation