728x90
반응형

장애대응 3

Resilience Engineering Framework (REF)

개요디지털 전환이 가속화되며 시스템은 점점 더 복잡해지고, 단일 장애가 전체 운영에 미치는 영향도 커지고 있습니다. 이에 따라 시스템, 조직, 인프라 전반의 회복탄력성(Resilience) 확보가 핵심 과제로 부상하고 있습니다. **Resilience Engineering Framework (REF)**는 다양한 복잡계 시스템에서 장애, 위기, 불확실성에 유연하게 대응하고 신속하게 회복할 수 있도록 설계된 통합 프레임워크입니다. 이 글에서는 REF의 개념, 구성, 기술 요소, 적용 사례 등을 통해 복원력 중심 시스템 구축 전략을 소개합니다.1. 개념 및 정의**Resilience Engineering Framework (REF)**는 시스템이 실패나 변화, 외부 충격에 직면했을 때도 기능을 유지하거나 회..

Topic 2025.08.30

Chaos Monkey

개요Chaos Monkey는 Netflix에서 개발한 장애 시나리오 실험 도구로, 프로덕션 환경의 인스턴스를 무작위로 종료시켜 시스템의 회복력(Resilience)과 자가 치유(Self-Healing) 능력을 검증하는 목적을 가집니다. 의도적으로 혼란을 유발함으로써, 장애에 강한 분산 시스템 설계를 장려하고 DevOps/SRE 문화에서 실질적인 안정성 확보 수단으로 사용됩니다.1. 개념 및 정의 항목 설명 정의무작위로 클라우드 인프라 인스턴스를 종료시켜, 장애 내성을 실시간으로 테스트하는 혼돈 공학 도구출처Netflix Chaos Engineering Team (2011)연계 모델Chaos Engineering, Gremlin, Litmus, Kubernetes Chaos Toolkit 등Chaos M..

Topic 2025.06.13

SRE(Site Reliability Engineering)

개요SRE(Site Reliability Engineering)는 대규모 시스템의 안정성과 가용성을 확보하면서도 빠른 배포와 확장을 가능하게 하는 운영 엔지니어링 프레임워크입니다. 구글(Google)에서 시작된 이 방식은 전통적인 시스템 운영과 소프트웨어 개발 간의 경계를 허물며, 코드 기반의 자동화된 운영과 지속적인 개선을 핵심 가치로 삼습니다.1. 개념 및 정의SRE는 ‘운영을 소프트웨어 엔지니어링 관점에서 접근’하는 방식입니다. 개발팀과 운영팀 간의 충돌을 줄이고, 시스템 안정성과 신속한 제품 개선을 동시에 달성하는 것을 목표로 합니다.핵심 개념:SLI(SLI: Service Level Indicator): 측정 지표 (예: 가용성, 오류율, 응답 시간)SLO(SLO: Service Level Ob..

Topic 2025.04.05
728x90
반응형