Modelo multivariado para predecir la localización de la población a partir de factores sociodemográficos en Colombia

Valbuena Acosta, Carlos

Modelo multivariado para predecir la localización de la población a partir de factores sociodemográficos en Colombia

Files

Tesis Valbuena_MCD_2024.pdf (5.39 MB)

LICENCIA DE USO.pdf (211.73 KB)

Date

2024

Authors

Valbuena Acosta, Carlos

Director

Mora Cardona, Mario Julián

Publisher

Pontificia Universidad Javeriana Cali

Share

Abstract

El objetivo de este proyecto era determinar cuáles son los factores que inciden sobre la localización de un individuo en Colombia. Para lograrlo, implementó el algoritmo Propensity Score Matching con base en los datos del Censo 2018 para la población del Valle del Cauca, en los módulos de personas, hogares, viviendas y marco de georreferenciación, con un universo de 3,2 millones de registros y 40 variables seleccionadas. Para cumplir el objetivo del proyecto, se construyeron 3 bases de datos con sus grupos de tratamiento y control, así: el primero con datos urbanos de Cali y los demás municipios, el segundo, solo con registro urbanos de Cali y el tercero, con registros del área urbana y centros poblados de Cali. Sobre estos algoritmos se entrenó el PSM, partiendo de una preparación de los datos, luego se realizó la estimación del propensity score que es la determinación del problema binario, es decir, la obtención de la probabilidad que un individuo se ubique en un grupo u otro para hacer las muestras comparables, seleccionando los Conjuntos 1 y 2 con el mejor nivel de accuracy con 61% y 50% respectivamente debido a la alta variabilidad que reviste una base como el Censo; con estos dos conjuntos se dio paso a la fase de emparejamiento a través de vecinos más cercanos – KNN, donde el conjunto 1 de Cali y los demás municipios obtiene las menores diferencias en las variables observables luego del emparejamiento. Posteriormente, para predecir la manzana geográfica como unidad mínima de granularidad que ubica al individuo dentro de los Shapes del Censo-DANE, se implementó el clasificador Random Forest, el cual mostró dificultades para predecir la ubicación en una categoría compuesta por 22 caracteres, alcanzando un accuracy de 32 %, luego se hicieron unas transformaciones en la variable a predecir sin afectar su origen, logrando un mejor resultado del 39% con la predicción de los últimos 8 campos de la localización de los individuos de Cali, pero debido al alto costo computacional este modelo no se pudo replicar para datos nuevos provenientes de SISBEN. Finalmente, se espera que este proyecto contribuya a profundizar los análisis económicos que desarrolle el Centro de Investigación Aplicada Riqueza Completa, mediante la implementación de algoritmos de emparejamiento como el PSM, especialmente dentro del uso de variables sociodemográficas como el Censo y su potencial capacidad para determinar la localización de un individuo a partir de estas.

item.page.descriptioneng

The objective of this project was to determine the factors influencing an individual's location in Colombia. To achieve this, the Propensity Score Matching algorithm was implemented based on the 2018 Census data for the population of Valle del Cauca, in the modules of individuals, households, housing, and georeferencing framework, with a universe of 3.2 million records and 40 selected variables. To fulfill the project's objective, three databases were constructed with their treatment and control groups: the first with urban data from Cali and other municipalities, the second with only urban records from Cali, and the third with records from the urban area and populated centers of Cali. The PSM was trained on these algorithms, starting from data preparation, followed by the estimation of the propensity score, which is the determination of the binary problem, that is, obtaining the probability that an individual falls into one group or another to make the samples comparable, selecting Sets 1 and 2 with the best accuracy level at 61% and 50%, respectively, due to the high variability inherent in a database like the Census; with these two sets, the matching phase through nearest neighbors - KNN was initiated, where Set 1 from Cali and other municipalities achieved the smallest differences in observable variables after matching. Subsequently, to predict the geographic block as the minimum unit of granularity that locates the individual within the Census-DANE Shapes, the Random Forest classifier was implemented, which showed difficulties in predicting the location in a category composed of 22 characters, reaching an accuracy of 32%. Transformations were then made to the variable to predict without affecting its origin, achieving a better result of 39% with the prediction of the last 8 fields of the individuals' location in Cali, but due to the high computational cost, this model could not be replicated for new data from SISBEN. Finally, it is expected that this project will contribute to deepening the economic analyses developed by the Center for Applied Research Complete Wealth, through the implementation of matching algorithms like the PSM, especially within the use of sociodemographic variables such as the Census and its potential capacity to determine an individual's location based on these.