Diseño de una arquitectura resiliente de referencia en la nube de AWS aplicando el Well-Architected Framework para la excelencia operativa, fiabilidad y rendimiento
Loading...
Date
2025
Authors
Director
Journal Title
Journal ISSN
Volume Title
Publisher
Pontificia Universidad Javeriana Cali
Share
Abstract
Este proyecto de grado tiene como propósito el diseño de una arquitectura resiliente de referencia en la nube de Amazon Web Services (AWS), aplicando los principios del Well Architected Framework, con énfasis en los pilares de excelencia operativa, fiabilidad y rendimiento. En la era en la que la mayoría de las organizaciones dependen de los servicios digitales, la resiliencia es una cualidad esencial para ayudar a una organización a sobrevivir a fallos, ataques o simplemente sobrecargas. Existen mejores prácticas y patrones de diseño de AWS, pero no hay arquitecturas de referencia que se centren puntualmente en la resiliencia, lo que deja a los equipos técnicos a la deriva sobre lo que se necesita para tener un entorno resiliente. Con el fin de abordar esta problemática, se propuso el diseño de arquitectura basada en servicios nativos de AWS, integrando atributos clave como fiabilidad, disponibilidad, seguridad, robustez y rapidez de recuperación. La propuesta fue diseñada con enfoque modular y multirregional, utilizando componentes como Lambda, SQS, DynamoDB, CloudFront, WAF y Route 53, los cuales se organizaron en capas funcionales y fueron validados mediante una prueba de concepto. Las pruebas contenían diferentes escenarios controlados como fallos regionales, errores en el procesamiento, verificación de idempotencia y conmutación por error automática, demostrando que la arquitectura propuesta es capaz de seguir funcionando, incluso sin interacción manual, dentro de los límites de RTO y RPO establecidos. Entre las lecciones aprendidas se destaca que la resiliencia debe ser diseñada como una 'preocupación transversal' desde el inicio del sistema; el desacoplamiento y la automatización son clave para responder a los fallos; y el propio WAF proporciona una base útil, pero requiere una mayor adaptación para lograr una cobertura completa de diseños resilientes. También se evidenció el valor de realizar pruebas orientadas a escenarios de fallo, incluso en entornos controlados, como mecanismo para validar el diseño. En resumen, el trabajo presentado aquí proporciona una guía práctica y replicable para arquitectos de nube e ingenieros de infraestructura, y constituye un avance técnico y académico en la creación formalizada de soluciones resilientes en la nube pública.
item.page.abstract.eng
This thesis project aims to design a resilient reference architecture in the Amazon Web Services (AWS) cloud, applying the principles of the Well-Architected Framework with an emphasis on the pillars of operational excellence, reliability, and performance. In an era where most organizations depend on digital services, resilience is an essential quality to help an organization withstand failures, attacks, or even overloads. While AWS offers best practices and design patterns, there are no reference architectures focused specifically on resilience, leaving technical teams uncertain about what is needed to achieve a resilient environment. To address this issue, the proposed architecture is based on AWS native services, integrating key attributes such as reliability, availability, security, robustness, and rapid recovery. The design follows a modular and multi-regional approach, using components such as Lambda, SQS, DynamoDB, CloudFront, WAF, and Route 53, organized into functional layers and validated through a proof of concept. The tests included controlled scenarios such as regional failures, processing errors, idempotency verification, and automatic failover, demonstrating that the proposed architecture can continue operating—even without manual intervention—within the established RTO and RPO limits. Lessons learned highlight that resilience must be designed as a ‘cross-cutting concern’ from the start; decoupling and automation are key to responding to failures; and while the Well-Architected Framework provides a useful foundation, it requires further adaptation to achieve full coverage of resilient designs. The value of conducting failure-oriented tests, even in controlled environments, was also evident as a mechanism to validate the design. In summary, this work provides a practical and replicable guide for cloud architects and infrastructure engineers and represents a technical and academic advancement in the formalized creation of resilient solutions in the public cloud.