Maestría en Ciencia de Datos
Permanent URI for this collection
Browse
Browsing Maestría en Ciencia de Datos by Author "Álvarez Bustos, Abel"
Now showing 1 - 3 of 3
Results Per Page
Sort Options
Item Análisis comparativo de la percepción mediática de la reforma a la salud en Colombia usando técnicas NLP(Pontificia Universidad Javeriana Cali, 2025) Hernández Moreno, Bryan Steven; Coronado Cobos, Samuel Andrés; González Ipuz, José Luis; Álvarez Bustos, Abel; Ramírez Ovalle, Carlos ErnestoEste estudio aplicó técnicas de ciencia de datos y procesamiento de lenguaje natural (NLP) para analizar la percepción mediática sobre la reforma a la salud en Colombia (2022-2024), abordando una brecha en la literatura al examinar diferencias regionales en la cobertura periodística. Partiendo del rol del periodismo en la formación de opinión pública especialmente en temas críticos como la salud, se recolectaron 1.401 noticias mediante web scraping de fuentes confiables (SCImago) en las regiones Andina, Caribe y Pacífica, siguiendo criterios de inclusión rigurosos (periodo 2022-2024, idioma español, relevancia temática). Los datos se preprocesaron con técnicas de NLP (tokenización, lematización, eliminación de stopwords y publicidad) y se depuraron mediante análisis estadístico (excluyendo 39 noticias atípicas por IQR). Para el análisis, se implementaron modelos de similitud (TF-IDF, Doc2Vec, MPNet) y clasificación de sentimientos (BETO, RoBERTa y ChatGPT-4o), este último como contraste. Los modelos fine tuned (BETO: 91.29% accuracy; RoBERTa: 89.18%) superaron significativamente a ChatGPT-4o (67.29%), demostrando la importancia del ajuste especializado para contextos periodísticos en español. El etiquetado manual (26.43% del corpus) permitió validar los resultados, destacando tendencias regionales: neutralidad en la cobertura Andina (asociada a enfoques institucionales), mayor positividad en el Caribe y predominio de narrativas negativas en el Pacífico (vinculadas a críticas locales). Los hallazgos confirman que: Las diferencias geopolíticas y socioculturales moldean narrativas mediáticas, pese a cierta homogeneidad discursiva intrarregional (validada por métricas de similitud). El fine-tuning de modelos de NLP es crucial para análisis de sentimientos en dominios especializados, siendo BETO óptimo para español. La metodología propuesta integrando web scraping, NLP y visualización interactiva (Power BI) ofrece un marco replicable para estudios de percepción mediática en políticas públicas.Item Desarrollo de un indicador de percepción de paz mediante análisis de sentimiento en publicaciones digitales(Pontificia Universidad Javariana Cali, 2024) Losada Sandoval, Laura Natalia; Gazabón Mora, Melanie Michelle; Álvarez Bustos, Abel; Ramírez Ovalle, Carlos ErnestoMedir la percepción del concepto de paz enmarca una complejidad intrínseca a su naturaleza, ya que se relaciona con aspectos objetivos y subjetivos, aspectos objetivos como la ausencia de conflicto armado, y subjetivos, como la sensación de seguridad. Esta dualidad hace que los métodos convencionales de medición sean insuficientes para capturar la verdadera percepción de la paz en una comunidad. En este contexto, este proyecto titulado “Desarrollo de un Indicador de Percepción de Paz mediante Análisis de Sentimiento en Publicaciones Digitales” se basa en la creciente participación de los periódicos digitales, que reflejan sus opiniones y perspectivas. Desarrolla un indicador para medir la percepción de paz en Bogotá utilizando un modelo de procesamiento de lenguaje natural y análisis de sentimiento, basado específicamente en BERT. Este enfoque permite cuantificar la percepción de paz mediante la categorización de expresiones relacionadas con este concepto, extraídas de publicaciones en periódicos digitales, capturando matices semánticos y emocionales esenciales para comprender el contexto sociocultural de la ciudad. Aquí es donde radica la importancia del proyecto, puesto que se trata del desarrollo de un método de medición que puede capturar la percepción de paz a partir de datos subjetivos. Como resultado, se obtuvo un listado de temas clave con los que los periódicos digitales relacionan la paz, un modelo de categorización de expresiones y un indicador que cuantifica la percepción de paz derivado de la categorización de expresiones. Este indicador, centrado en la caracterización cuantitativa y medible de la noción de paz, se considera una herramienta útil para la formulación de políticas públicas informadas, permitiendo a los responsables de la toma de decisiones, entender mejor las necesidades y percepciones de la población. Con este proyecto se pretende sentar las bases para el desarrollo de un instrumento aplicable en la evaluación de políticas públicas específicas para promover entornos pacíficos basados no solo en indicadores objetivos, sino también en la percepción real de la población.Item Redes neuronales y procesamiento de lenguaje para la evaluación de la investigación colombiana en el contexto de los ODS(Pontificia Universidad Javeriana Cali, 2025) Riaño Díaz, John Agustín; Ramírez Ovalle, Carlos Ernesto; Álvarez Bustos, AbelEste proyecto se centra en el análisis de la producción científica en Colombia y su vinculación con los Objetivos de Desarrollo Sostenible (ODS) establecidos por la Organización de las Naciones Unidas. A pesar del crecimiento de la producción científica en el país, no existía una caracterización sistemática que evidenciara su alineación temática con los ODS, lo que dificultaba la identificación de tendencias, brechas y áreas de oportunidad en investigación. La investigación planteó como objetivo general desarrollar un modelo de análisis que, mediante técnicas de procesamiento de lenguaje natural y redes neuronales, permitiera clasificar resúmenes de artículos científicos de las áreas de ingeniería y medicina en función de su relación con los ODS. Para ello, se realizó un proceso de recopilación de datos a partir de artículos indexados en Scopus, correspondientes al año 2018 a 2024, seguido de la selección de una muestra representativa mediante muestreo estratificado. Posteriormente, se efectuó un etiquetado manual de los resúmenes en función de su correspondencia con los ODS, con base al contenido temático y su potencial contribución al desarrollo sostenible. Esta muestra etiquetada fue empleada para entrenar modelos supervisados, particularmente utilizando la arquitectura BERT, con el fin de optimizar la clasificación automática de nuevos documentos. Adicionalmente, se implementaron estrategias de balanceo de clases mediante técnicas de traducción y parafraseo, dada la baja representación de algunos ODS en los datos recopilados. El proyecto incorporó un proceso de validación cruzada para evaluar el desempeño de los modelos entrenados en tareas de clasificación, utilizando métricas como exactitud, precisión, recall y F1-score. Los resultados obtenidos permitieron caracterizar la producción investigativa colombiana, diferenciada por áreas de conocimiento, y establecer patrones de alineación con los ODS más representativos. Asimismo, se identificaron vacíos temáticos y áreas de fortalecimiento en la agenda científica nacional. El modelo desarrollado constituye una herramienta replicable que puede ser utilizada por instituciones académicas, entidades gubernamentales y organizaciones del sector privado para orientar estrategias de investigación, asignación de recursos y formulación de políticas públicas enfocadas en el cumplimiento de la Agenda 2030.