Álvarez Bustos, AbelRamírez Ovalle, Carlos ErnestoHernández Moreno, Bryan StevenCoronado Cobos, Samuel AndrésGonzález Ipuz, José Luis2025-11-072025-11-072025http://hdl.handle.net/11522/5069Este estudio aplicó técnicas de ciencia de datos y procesamiento de lenguaje natural (NLP) para analizar la percepción mediática sobre la reforma a la salud en Colombia (2022-2024), abordando una brecha en la literatura al examinar diferencias regionales en la cobertura periodística. Partiendo del rol del periodismo en la formación de opinión pública especialmente en temas críticos como la salud, se recolectaron 1.401 noticias mediante web scraping de fuentes confiables (SCImago) en las regiones Andina, Caribe y Pacífica, siguiendo criterios de inclusión rigurosos (periodo 2022-2024, idioma español, relevancia temática). Los datos se preprocesaron con técnicas de NLP (tokenización, lematización, eliminación de stopwords y publicidad) y se depuraron mediante análisis estadístico (excluyendo 39 noticias atípicas por IQR). Para el análisis, se implementaron modelos de similitud (TF-IDF, Doc2Vec, MPNet) y clasificación de sentimientos (BETO, RoBERTa y ChatGPT-4o), este último como contraste. Los modelos fine tuned (BETO: 91.29% accuracy; RoBERTa: 89.18%) superaron significativamente a ChatGPT-4o (67.29%), demostrando la importancia del ajuste especializado para contextos periodísticos en español. El etiquetado manual (26.43% del corpus) permitió validar los resultados, destacando tendencias regionales: neutralidad en la cobertura Andina (asociada a enfoques institucionales), mayor positividad en el Caribe y predominio de narrativas negativas en el Pacífico (vinculadas a críticas locales). Los hallazgos confirman que: Las diferencias geopolíticas y socioculturales moldean narrativas mediáticas, pese a cierta homogeneidad discursiva intrarregional (validada por métricas de similitud). El fine-tuning de modelos de NLP es crucial para análisis de sentimientos en dominios especializados, siendo BETO óptimo para español. La metodología propuesta integrando web scraping, NLP y visualización interactiva (Power BI) ofrece un marco replicable para estudios de percepción mediática en políticas públicas.This study applied data science and natural language processing (NLP) techniques to analyze media perception of the health reform in Colombia (2022–2024), addressing a gap in the literature by examining regional differences in journalistic coverage. Starting from the role of journalism in shaping public opinion—especially on critical issues such as health—1,401 news articles were collected via web scraping from reliable sources (SCImago) in the Andean, Caribbean, and Pacific regions, following strict inclusion criteria (2022–2024 period, Spanish language, thematic relevance). The data were preprocessed using NLP techniques (tokenization, lemmatization, removal of stopwords and advertisements) and cleaned through statistical analysis (excluding 39 outlier articles based on IQR). For the analysis, similarity models (TF-IDF, Doc2Vec, MPNet) and sentiment classification models (BETO, RoBERTa, and ChatGPT-4o) were implemented, with the latter used as a benchmark. Fine-tuned models (BETO: 91.29% accuracy; RoBERTa: 89.18%) significantly outperformed ChatGPT-4o (67.29%), demonstrating the importance of specialized tuning for journalistic contexts in Spanish. Manual labeling (26.43% of the corpus) validated the results, highlighting regional trends: neutrality in Andean coverage (linked to institutional approaches), greater positivity in the Caribbean, and a predominance of negative narratives in the Pacific (associated with local criticism). Findings confirm that geopolitical and sociocultural differences shape media narratives, despite some intraregional discursive homogeneity (validated by similarity metrics). Fine-tuning NLP models is crucial for sentiment analysis in specialized domains, with BETO being optimal for Spanish. The proposed methodology—integrating web scraping, NLP, and interactive visualization (Power BI)—offers a replicable framework for media perception studies in public policy.91 p.application/pdfspaNLPAnálisis de sentimientoAprendizaje automáticoSaludReformaSentiment analysisMachine learningHealthReformAnálisis comparativo de la percepción mediática de la reforma a la salud en Colombia usando técnicas NLPmaster thesishttps://creativecommons.org/licenses/by-nc-sa/4.0/http://purl.org/coar/access_right/c_abf2