Mora Cardona, Mario JuliánValbuena Acosta, Carlos2024-10-162024-10-162024https://vitela.javerianacali.edu.co/handle/11522/4076El objetivo de este proyecto era determinar cuáles son los factores que inciden sobre la localización de un individuo en Colombia. Para lograrlo, implementó el algoritmo Propensity Score Matching con base en los datos del Censo 2018 para la población del Valle del Cauca, en los módulos de personas, hogares, viviendas y marco de georreferenciación, con un universo de 3,2 millones de registros y 40 variables seleccionadas. Para cumplir el objetivo del proyecto, se construyeron 3 bases de datos con sus grupos de tratamiento y control, así: el primero con datos urbanos de Cali y los demás municipios, el segundo, solo con registro urbanos de Cali y el tercero, con registros del área urbana y centros poblados de Cali. Sobre estos algoritmos se entrenó el PSM, partiendo de una preparación de los datos, luego se realizó la estimación del propensity score que es la determinación del problema binario, es decir, la obtención de la probabilidad que un individuo se ubique en un grupo u otro para hacer las muestras comparables, seleccionando los Conjuntos 1 y 2 con el mejor nivel de accuracy con 61% y 50% respectivamente debido a la alta variabilidad que reviste una base como el Censo; con estos dos conjuntos se dio paso a la fase de emparejamiento a través de vecinos más cercanos – KNN, donde el conjunto 1 de Cali y los demás municipios obtiene las menores diferencias en las variables observables luego del emparejamiento. Posteriormente, para predecir la manzana geográfica como unidad mínima de granularidad que ubica al individuo dentro de los Shapes del Censo-DANE, se implementó el clasificador Random Forest, el cual mostró dificultades para predecir la ubicación en una categoría compuesta por 22 caracteres, alcanzando un accuracy de 32 %, luego se hicieron unas transformaciones en la variable a predecir sin afectar su origen, logrando un mejor resultado del 39% con la predicción de los últimos 8 campos de la localización de los individuos de Cali, pero debido al alto costo computacional este modelo no se pudo replicar para datos nuevos provenientes de SISBEN. Finalmente, se espera que este proyecto contribuya a profundizar los análisis económicos que desarrolle el Centro de Investigación Aplicada Riqueza Completa, mediante la implementación de algoritmos de emparejamiento como el PSM, especialmente dentro del uso de variables sociodemográficas como el Censo y su potencial capacidad para determinar la localización de un individuo a partir de estas.43 p.application/pdfspaGeorreferenciaciónAlgoritmosVariables sociodemográficasModelos predictivosGeoreferencingAlgorithmsSociodemographic variablesPredictive modelsModelo multivariado para predecir la localización de la población a partir de factores sociodemográficos en Colombiahttp://purl.org/coar/resource_type/c_bdcchttps://creativecommons.org/licenses/by-nc-nd/4.0/http://purl.org/coar/access_right/c_abf2