728x90
반응형

Flink 8

t-digest

개요t-digest는 실수 값으로 이루어진 데이터에서 분위수(percentile), 백분위, 중위수(median), Value-at-Risk 등을 빠르고 정확하게 추정하기 위한 자료구조입니다. Ted Dunning이 고안한 이 구조는 대규모 데이터 스트림 환경에서도 고정된 메모리로 높은 정밀도를 유지하며, 특히 tail(꼬리) 영역에서의 정확도에 강점을 갖습니다.1. 개념 및 정의 항목 설명 정의분위수 계산을 위한 확률 밀도 추정용 데이터 요약 구조목적중위수, 분위수 계산을 메모리 효율적으로 수행필요성전체 데이터를 저장하지 않고 정확한 분위수 추정 필요t-digest는 평균값이 아닌 분포 형태를 요약해 통계적으로 의미 있는 추정을 가능하게 함2. 특징특징설명비교메모리 효율성수백만 건도 수백 KB 이내 ..

Topic 2026.01.29

CALM Theorem (Consistency And Logical Monotonicity Theorem)

개요CALM Theorem은 분산 시스템에서 일관성을 보장하면서도 동기화 없이 계산이 가능한 조건을 정의하는 이론입니다. 이 정리는 분산 데이터 처리에서 일관성과 확장성을 동시에 달성하기 위한 기반을 제공하며, 특히 스트림 처리, 데이터베이스, 이벤트 기반 시스템의 설계에 중요한 통찰을 제공합니다. Berkeley 대학 Joseph Hellerstein 교수가 주도한 연구 결과로, 실용적 시스템 구현에 영향을 주고 있습니다.1. 개념 및 정의 항목 내용 비고 정의**논리적 단조성(logical monotonicity)**이 있는 계산은 분산 환경에서도 동기화 없이 일관된 결과를 생성할 수 있다는 정리Consistency And Logical Monotonicity목적동기화 비용 없이 정확한 결과를 생..

Topic 2025.12.29

Apache SeaTunnel

개요Apache SeaTunnel(이전명 Waterdrop)은 대규모 데이터 통합(Data Integration) 및 실시간 스트리밍 처리를 위한 오픈소스 플랫폼입니다. 다양한 데이터 소스와 싱크(Sink)를 연결하여 배치 및 스트리밍 데이터를 효율적으로 처리하며, Spark, Flink 등 분산 처리 엔진 위에서 동작합니다. 단순한 설정 기반으로 복잡한 ETL(Extract, Transform, Load) 파이프라인을 구성할 수 있어 클라우드 및 데이터레이크 환경에서 폭넓게 활용됩니다.1. 개념 및 정의 항목 내용 비고 정의실시간 및 배치 데이터 통합을 위한 오픈소스 데이터 파이프라인 플랫폼Apache Software Foundation 프로젝트목적다양한 데이터 소스를 연결하여 효율적인 데이터 전송 및..

Topic 2025.11.12

Apache Beam

개요Apache Beam은 배치와 스트리밍 처리를 모두 지원하는 통합 데이터 처리 모델을 제공하는 오픈소스 프레임워크입니다. 다양한 실행 엔진(Spark, Flink, Dataflow 등)에서 동일한 파이프라인을 실행할 수 있는 추상화 계층을 제공하여, 데이터 처리 워크플로우의 이식성과 유연성을 극대화합니다.1. 개념 및 정의 항목 설명 비고 정의배치와 스트리밍을 지원하는 데이터 파이프라인 추상화 프레임워크Apache Software Foundation 프로젝트목적실행 엔진에 종속되지 않는 데이터 처리 파이프라인 제공멀티 엔진 지원필요성다양한 분산 엔진 환경에서 동일한 코드 실행 가능클라우드/온프레미스 환경 최적화데이터 처리 파이프라인의 표준화 모델입니다.2. 특징특징설명비교실행 엔진 독립성Spark..

Topic 2025.10.17

Streaming HTAP(Hybrid Transactional and Analytical Processing)

개요Streaming HTAP(Hybrid Transactional and Analytical Processing)은 트랜잭션 처리(OLTP)와 실시간 분석(OLAP)을 단일 데이터 경로에서 통합하는 아키텍처로, 특히 Kafka, Pulsar, Flink 등 스트리밍 데이터 인프라 기반에서 구현되는 차세대 데이터 처리 모델입니다. 데이터 복제나 ETL 없이도 실시간 분석과 의사결정을 가능하게 하여, 실시간 인사이트와 반응성을 동시에 추구하는 조직에게 최적화된 데이터 플랫폼 전략입니다.1. 개념 및 정의HTAP: OLTP + OLAP을 결합한 데이터 처리 모델Streaming HTAP: 스트리밍 입력 기반으로 트랜잭션과 분석을 동시에 수행하는 실시간 아키텍처기반 요소: Kafka/Flink 스트림, CDC..

Topic 2025.07.07

One Table (Lakehouse Multi-Engine Table Spec)

개요One Table은 Lakehouse 아키텍처에서 다양한 데이터 처리 엔진과 분석 플랫폼이 하나의 테이블 형식으로 읽고 쓸 수 있도록 지원하는 다중 엔진 호환 테이블 사양(Multi-Engine Table Spec)이다. Apache Iceberg와 Delta Lake 포맷을 상호 운용 가능하게 만드는 사양으로, 개방성과 호환성, 확장성 측면에서 데이터 생태계에 중요한 전환점을 제공한다.1. 개념 및 정의One Table은 데이터가 저장된 단일 테이블을 Iceberg, Delta Lake, Apache Spark, Trino, Flink, Hive, Dremio, Snowflake 등 다양한 엔진이 동일한 규격으로 읽고 쓸 수 있도록 중재하는 메타데이터 구조 및 포맷 인터페이스다. 구성 요소 설명 ..

Topic 2025.06.24

Streaming DB

개요Streaming DB는 정적 데이터를 대상으로 하는 전통적인 RDBMS와 달리, 연속적으로 발생하는 실시간 데이터를 처리·분석·저장하는 데이터베이스 시스템입니다. IoT 센서, 실시간 사용자 이벤트, 금융 거래, 로그 스트림 등 고속·고빈도 데이터에 적합하며, Kafka, Pulsar 등의 메시지 브로커와 통합되어, 지연 없이 SQL 기반 실시간 질의 처리를 수행합니다. Flink, Materialize, RisingWave, ksqlDB 등이 대표적입니다.1. 개념 및 정의 항목 설명 정의Streaming DB는 스트림 형태의 데이터에 대해 SQL 또는 DSL 기반 연속 질의를 수행하며, 결과를 실시간으로 갱신하는 데이터베이스입니다.목적이벤트가 발생하는 즉시 분석과 반응을 가능하게 하여, 의사결..

Topic 2025.05.16

패스트데이터(Fast Data)

개요패스트데이터(Fast Data)는 빅데이터의 ‘크기’ 중심 패러다임에서 ‘속도’ 중심으로 진화한 개념입니다. 즉, 대용량 데이터를 쌓아 분석하는 것이 아니라, 데이터가 생성되자마자 바로 처리하고 활용하는 실시간 분석 기술 및 전략을 말합니다. 실시간 모니터링, 즉시 대응, 스트리밍 분석이 요구되는 산업 전반에서 패스트데이터는 핵심 경쟁력으로 부상하고 있습니다.1. 패스트데이터란? 항목 설명 정의데이터가 생성되자마자 저장 전에 실시간으로 처리·분석하는 데이터 흐름 처리 방식특징초저지연성, 이벤트 기반, 실시간 스트리밍, 짧은 수명 데이터 중심관련 기술Kafka, Flink, Spark Streaming, Apache Pulsar, Apache Beam, Redis Streams패스트데이터는 ‘데이터 ..

Topic 2025.04.21
728x90
반응형