728x90
반응형

prometheus 12

VictoriaMetrics

개요VictoriaMetrics는 대규모 타임시리즈 데이터를 효율적으로 저장하고 조회하기 위한 고성능 오픈소스 타임시리즈 데이터베이스(TSDB)입니다. 고압축률, 빠른 읽기/쓰기, 낮은 리소스 사용량을 특징으로 하며, Prometheus, Grafana 등과의 호환성과 뛰어난 확장성으로 인해 클라우드 네이티브 모니터링 환경에서 각광받고 있습니다.1. 개념 및 정의 항목 내용 정의고성능 타임시리즈 수집, 저장, 분석을 위한 오픈소스 TSDB목적모니터링 및 관측 데이터의 저장 최적화와 고속 조회 지원필요성데이터 볼륨 증가에 따른 저장 효율성과 쿼리 성능 확보 필요2. 주요 특징특징설명장점고압축률 저장독자적인 데이터 구조와 인덱싱 기술저장 비용 절감빠른 쿼리 처리수십억 레코드 대상 고속 응답실시간 모니터링 ..

Topic 2026.02.06

Grafana Mimir

개요Grafana Mimir는 Prometheus 호환형 대규모 시계열(Time-Series) 데이터 저장소로, 클라우드 및 온프레미스 환경에서 수십억 개의 메트릭을 효율적으로 저장하고 조회할 수 있도록 설계된 오픈소스 솔루션입니다. 기존 Cortex 프로젝트를 기반으로 확장되어, 고가용성(HA), 멀티테넌시(Multi-tenancy), 장기 보존(Long-term Retention) 기능을 제공하며, Grafana와의 완벽한 통합을 지원합니다.1. 개념 및 정의 항목 내용 비고 정의Prometheus 데이터를 수평 확장 가능한 아키텍처로 저장·조회하는 분산형 시계열 데이터베이스Grafana Labs 개발, CNCF 프로젝트목적대규모 Observability 데이터의 안정적 수집 및 보존장기 모니터링..

Topic 2025.12.21

Thanos

개요Thanos는 Prometheus 기반의 분산형 모니터링 및 장기 스토리지 솔루션으로, 다수의 Prometheus 인스턴스를 통합 관리하고 장기 보관 및 글로벌 쿼리를 지원하는 오픈소스 프로젝트입니다. Kubernetes 및 클라우드 네이티브 환경에서 안정적이고 확장 가능한 모니터링 인프라를 구축하기 위한 핵심 기술로 사용됩니다.1. 개념 및 정의 항목 내용 비고 정의Prometheus 데이터를 글로벌 수준에서 집계 및 저장하는 분산형 모니터링 시스템CNCF Graduated 프로젝트목적다중 Prometheus 인스턴스 통합 및 장기 데이터 저장Observability 강화필요성Prometheus의 지역적 한계 및 단기 데이터 보관 문제 해결클라우드 네이티브 확장성 제공2. 특징항목내용비고글로벌 ..

Topic 2025.12.20

Sloth (SLO-as-Code)

개요Sloth는 SRE 관점에서 서비스 수준 목표(SLO, Service Level Objective)를 선언적으로 정의하고 자동으로 모니터링 규칙과 알림 정책을 생성하는 오픈소스 도구이다. Prometheus 및 Grafana와 같은 모니터링 시스템과 통합되어, SLO 관리를 코드 기반으로 자동화할 수 있는 SLO-as-Code 접근 방식을 실현한다.1. 개념 및 정의 항목 내용 비교 개념SLO를 YAML 또는 JSON 형식으로 정의하여 자동화하는 시스템수동 설정 기반 SLO 관리 대체목적신뢰성 목표를 코드로 관리하여 지속적인 품질 유지CI/CD 및 GitOps와 통합필요성서비스 복잡성 증가에 따른 SLO 관리 자동화대규모 SRE 환경 필수2. 특징특징설명비교SLO-as-CodeSLO를 선언적 구성..

Topic 2025.11.10

Grafana Faro

개요Grafana Faro는 Grafana Labs에서 개발한 오픈소스 원격 측정(telemetry) SDK로, 프론트엔드 애플리케이션에서 로그, 메트릭, 트레이스를 수집하여 Grafana Observability 스택과 통합할 수 있도록 지원합니다. 웹 애플리케이션과 브라우저 환경에서 성능, 오류, 사용자 이벤트를 모니터링하고 분석하는 데 최적화된 도구입니다.1. 개념 및 정의 항목 설명 정의Grafana Faro는 프론트엔드 원격 측정 데이터를 수집하고 Grafana와 통합하는 SDK입니다.목적프론트엔드 및 애플리케이션의 상태를 실시간으로 모니터링필요성사용자 경험(UX) 개선을 위해 브라우저 기반 데이터 수집 및 분석 필요프론트엔드 가시성을 높여 DevOps와 SRE의 문제 해결을 가속화합니다.2...

Topic 2025.10.01

Parca

개요Parca는 오픈소스 기반의 지속적 프로파일링(Continuous Profiling) 도구로, 클라우드 네이티브 환경에서 애플리케이션과 시스템의 성능 데이터를 실시간으로 수집하고 분석하는 기능을 제공합니다. CPU, 메모리, 리소스 사용량을 장기적으로 추적할 수 있어 비용 최적화, 성능 개선, 문제 해결에 중요한 역할을 합니다.1. 개념 및 정의구분내용정의Parca는 애플리케이션 실행 중 발생하는 성능 데이터를 지속적으로 수집, 저장, 분석하는 오픈소스 프로파일러입니다.목적운영 환경에서 성능 병목 지점 확인 및 리소스 최적화 지원필요성클라우드 네이티브 환경은 동적 확장과 분산 구조로 인해 전통적 모니터링만으로는 성능 문제를 식별하기 어려움Parca는 CNCF 프로젝트로 클라우드 네이티브 모니터링 생태..

Topic 2025.09.18

Keptn

개요Keptn은 클라우드 네이티브 애플리케이션의 배포, 테스트, 모니터링, 피드백 루프를 자동화하여 신뢰성 높은 소프트웨어 전달을 가능하게 해주는 오픈소스 플랫폼입니다. 특히 SLO(Service Level Objective)를 기반으로 하는 평가 및 자동 롤백, 슬로우 배포 전략 등을 통합적으로 지원합니다.DevOps 및 SRE 문화를 구현하고자 하는 조직에서 Keptn은 지속적인 품질 확보와 자율 운영을 가능하게 하는 핵심 도구로 각광받고 있습니다.1. 개념 및 정의 항목 설명 정의Keptn은 이벤트 기반 제어와 SLO 중심 평가를 통해 애플리케이션 라이프사이클을 자동화하는 플랫폼입니다.목적배포 안정성 향상, 서비스 품질 보장, 자동화된 운영 흐름 구현필요성마이크로서비스 확산에 따른 운영 복잡성 및..

Topic 2025.09.04

Cilium Flow Metrics (CFM)

개요Cilium Flow Metrics(CFM)는 Cilium에서 제공하는 네트워크 흐름 기반 메트릭 수집 기능으로, 쿠버네티스 클러스터 내의 네트워크 트래픽 흐름을 실시간으로 수집·분석·시각화하는 데 사용된다. eBPF 기술을 기반으로 하며, 마이크로서비스 간 통신, 보안 정책 적용 상태, 서비스 메쉬 수준의 흐름 추적 등 다양한 정보를 정밀하게 수집할 수 있다.1. 개념 및 정의 항목 설명 정의Cilium Flow Metrics는 네트워크 패킷의 흐름을 기반으로 Cilium이 수집하는 메트릭 지표목적쿠버네티스 클러스터 내부 통신을 실시간으로 모니터링하고 보안·성능 이슈를 조기에 탐지필요성기존 L3/L4 기반 모니터링의 한계를 극복하고, L7까지의 네트워크 가시성을 확보하기 위함2. 특징특징설명차별점..

Topic 2025.07.17

SLO-Driven Auto-Scaler

개요SLO-Driven Auto-Scaler는 CPU, 메모리와 같은 리소스 지표가 아닌 SLO(Service Level Objective)에 기반하여 애플리케이션의 자동 스케일링 결정을 내리는 진화된 오토스케일링 방식입니다. 이는 사용자의 체감 품질(QoE)에 직접적인 영향을 주는 지표(예: 응답 시간, 에러율)를 기준으로 동작하며, SRE(Site Reliability Engineering)와 클라우드 네이티브 환경에서의 효율적인 운영을 가능하게 합니다.1. 개념 및 정의 항목 설명 정의SLO 기반 메트릭(예: 응답 시간 99%)을 기준으로 서비스의 Auto Scaling을 트리거하는 기법목적사용자 경험 최적화 및 리소스 과소/과잉 사용 방지연계 기술Prometheus, KEDA, Kubernet..

Topic 2025.06.12

RED Method

개요RED Method는 Google SRE(Site Reliability Engineering)에서 제시한 모니터링 프레임워크 중 하나로, **Rate(요청률), Errors(오류율), Duration(응답시간)**의 세 가지 핵심 지표를 중심으로 마이크로서비스와 API 기반 시스템의 성능을 관찰합니다. 이는 인프라 중심의 지표보다 사용자 경험을 보다 직접적으로 반영하여 운영 안정성과 서비스 품질 향상에 기여합니다.1. 개념 및 정의 항목 설명 비고 정의마이크로서비스 기반 시스템에서 트래픽 중심의 3대 지표를 활용한 관찰 전략RED = Rate, Errors, Duration목적사용자 경험 기반의 성능 이슈 조기 감지 및 개선SRE/DevOps 환경에 최적화적용 대상HTTP API, gRPC 서비스..

Topic 2025.06.08

OpenCost

개요OpenCost는 Kubernetes 기반 클라우드 네이티브 환경에서 워크로드별 리소스 소비와 비용을 정확하게 측정하고 분석하는 오픈소스 프로젝트입니다. FinOps 문화 확산과 함께, 개발팀과 운영팀이 리소스 사용과 비용에 대한 투명성을 확보하고, 최적화 전략을 수립하는 데 필수적인 인프라로 주목받고 있습니다.1. 개념 및 정의 항목 내용 정의Kubernetes 클러스터 내 리소스 사용량 및 비용을 워크로드 단위로 분석, 보고하는 오픈소스 프로젝트목적클라우드 네이티브 인프라의 비용 가시성 확보 및 최적화 지원필요성클라우드 과금 복잡성 증가와 비용 통제 불투명성 문제 해결OpenCost는 비용 인식(Cost Awareness)을 DevOps/SRE 프로세스에 자연스럽게 통합합니다.2. 특징항목Ope..

Topic 2025.05.04

Seldon Core(셀던 코어)

개요Seldon Core는 머신러닝 모델을 Kubernetes 환경에 안정적이고 확장 가능하게 배포(서빙)할 수 있도록 지원하는 오픈소스 MLOps 플랫폼입니다. REST/gRPC API, A/B 테스트, Canary 배포, 모델 해석성(Explainability) 등 다양한 기능을 제공하며, 다양한 프레임워크와 언어의 모델을 통합 관리할 수 있습니다. 본 글에서는 Seldon Core의 핵심 기능, 아키텍처, 활용 전략을 소개합니다.1. 개념 및 정의Seldon Core는 컨테이너화된 머신러닝 모델을 Kubernetes 상에서 배포하고, 서빙하며, 운영할 수 있는 MLOps 인프라입니다. 모델을 마이크로서비스로 감싸고, 서비스 메쉬 및 모니터링 도구와 통합하여 프로덕션 수준의 배포 자동화, 트래픽 제어..

Topic 2025.04.09
728x90
반응형