728x90
반응형

장애대응 2

Chaos Monkey

개요Chaos Monkey는 Netflix에서 개발한 장애 시나리오 실험 도구로, 프로덕션 환경의 인스턴스를 무작위로 종료시켜 시스템의 회복력(Resilience)과 자가 치유(Self-Healing) 능력을 검증하는 목적을 가집니다. 의도적으로 혼란을 유발함으로써, 장애에 강한 분산 시스템 설계를 장려하고 DevOps/SRE 문화에서 실질적인 안정성 확보 수단으로 사용됩니다.1. 개념 및 정의 항목 설명 정의무작위로 클라우드 인프라 인스턴스를 종료시켜, 장애 내성을 실시간으로 테스트하는 혼돈 공학 도구출처Netflix Chaos Engineering Team (2011)연계 모델Chaos Engineering, Gremlin, Litmus, Kubernetes Chaos Toolkit 등Chaos M..

Topic 2025.06.13

SRE(Site Reliability Engineering)

개요SRE(Site Reliability Engineering)는 대규모 시스템의 안정성과 가용성을 확보하면서도 빠른 배포와 확장을 가능하게 하는 운영 엔지니어링 프레임워크입니다. 구글(Google)에서 시작된 이 방식은 전통적인 시스템 운영과 소프트웨어 개발 간의 경계를 허물며, 코드 기반의 자동화된 운영과 지속적인 개선을 핵심 가치로 삼습니다.1. 개념 및 정의SRE는 ‘운영을 소프트웨어 엔지니어링 관점에서 접근’하는 방식입니다. 개발팀과 운영팀 간의 충돌을 줄이고, 시스템 안정성과 신속한 제품 개선을 동시에 달성하는 것을 목표로 합니다.핵심 개념:SLI(SLI: Service Level Indicator): 측정 지표 (예: 가용성, 오류율, 응답 시간)SLO(SLO: Service Level Ob..

Topic 2025.04.05
728x90
반응형