728x90
반응형

스트리밍분석 2

t-digest

개요t-digest는 실수 값으로 이루어진 데이터에서 분위수(percentile), 백분위, 중위수(median), Value-at-Risk 등을 빠르고 정확하게 추정하기 위한 자료구조입니다. Ted Dunning이 고안한 이 구조는 대규모 데이터 스트림 환경에서도 고정된 메모리로 높은 정밀도를 유지하며, 특히 tail(꼬리) 영역에서의 정확도에 강점을 갖습니다.1. 개념 및 정의 항목 설명 정의분위수 계산을 위한 확률 밀도 추정용 데이터 요약 구조목적중위수, 분위수 계산을 메모리 효율적으로 수행필요성전체 데이터를 저장하지 않고 정확한 분위수 추정 필요t-digest는 평균값이 아닌 분포 형태를 요약해 통계적으로 의미 있는 추정을 가능하게 함2. 특징특징설명비교메모리 효율성수백만 건도 수백 KB 이내 ..

Topic 2026.01.29

패스트데이터(Fast Data)

개요패스트데이터(Fast Data)는 빅데이터의 ‘크기’ 중심 패러다임에서 ‘속도’ 중심으로 진화한 개념입니다. 즉, 대용량 데이터를 쌓아 분석하는 것이 아니라, 데이터가 생성되자마자 바로 처리하고 활용하는 실시간 분석 기술 및 전략을 말합니다. 실시간 모니터링, 즉시 대응, 스트리밍 분석이 요구되는 산업 전반에서 패스트데이터는 핵심 경쟁력으로 부상하고 있습니다.1. 패스트데이터란? 항목 설명 정의데이터가 생성되자마자 저장 전에 실시간으로 처리·분석하는 데이터 흐름 처리 방식특징초저지연성, 이벤트 기반, 실시간 스트리밍, 짧은 수명 데이터 중심관련 기술Kafka, Flink, Spark Streaming, Apache Pulsar, Apache Beam, Redis Streams패스트데이터는 ‘데이터 ..

Topic 2025.04.21
728x90
반응형