개요SRE(Site Reliability Engineering)는 대규모 시스템의 안정성과 가용성을 확보하면서도 빠른 배포와 확장을 가능하게 하는 운영 엔지니어링 프레임워크입니다. 구글(Google)에서 시작된 이 방식은 전통적인 시스템 운영과 소프트웨어 개발 간의 경계를 허물며, 코드 기반의 자동화된 운영과 지속적인 개선을 핵심 가치로 삼습니다.1. 개념 및 정의SRE는 ‘운영을 소프트웨어 엔지니어링 관점에서 접근’하는 방식입니다. 개발팀과 운영팀 간의 충돌을 줄이고, 시스템 안정성과 신속한 제품 개선을 동시에 달성하는 것을 목표로 합니다.핵심 개념:SLI(SLI: Service Level Indicator): 측정 지표 (예: 가용성, 오류율, 응답 시간)SLO(SLO: Service Level Ob..