Topic

Pravega

JackerLab 2025. 11. 14. 08:55
728x90
반응형

개요

Pravega는 Dell Technologies(EMC)와 오픈소스 커뮤니티가 공동 개발한 스트리밍 데이터 저장소 및 처리 플랫폼이다. Apache Kafka와 유사하지만, 장기 저장(Persistent Storage)과 스트림 재생 기능을 통합하여 데이터 스트리밍과 스토리지의 경계를 허무는 차세대 스트림 플랫폼으로 주목받고 있다.


1. 개념 및 정의

항목 내용 비교
개념 실시간 스트림 데이터를 저장, 처리, 재생할 수 있는 통합 플랫폼 Kafka + Object Storage 통합 구조
목적 데이터 파이프라인의 단순화 및 통합 메시징 + 스토리지 일원화
필요성 장기 보관이 필요한 스트리밍 워크로드 증가 IoT, 금융 거래, AI 학습 데이터

2. 특징

특징 설명 비교
Durable Stream Storage 데이터를 장기 보관 가능 Kafka는 일반적으로 단기 보관
Transaction Support 원자적 데이터 처리 보장 Exactly-once 처리 지원
Dynamic Scaling 파티션을 자동으로 확장/축소 수동 관리 불필요
Tiered Storage 핫/콜드 데이터 분리 저장 비용 효율적 구조

3. 구성 요소

구성 요소 설명 예시
Stream 데이터의 논리적 흐름 단위 Kafka의 Topic과 유사
Segment Store 데이터를 영구 저장하는 핵심 컴포넌트 Tiered Storage 구성
Controller 스트림 메타데이터 관리 및 자동 스케일링 클러스터 조정 기능
Client API 스트림 생성/소비 인터페이스 ReaderGroup, Writer API

4. 기술 요소

기술 설명 예시
Segment Architecture 스트림을 세그먼트 단위로 분할 저장 분산 처리 및 확장성 보장
BookKeeper Integration 메타데이터 및 로그 관리 Apache BookKeeper 기반
Tiered Storage 핫데이터는 SSD, 콜드데이터는 오브젝트 스토리지 S3, Azure Blob 등 연동
Event Time Ordering 이벤트 타임 기반 순서 보장 정렬된 스트림 재생 가능

5. 장점 및 이점

구분 설명 예시
통합 플랫폼 메시징과 저장소 기능을 통합 Kafka + S3 구조 대체
확장성 수평 확장이 가능한 분산 아키텍처 수천 노드까지 확장 가능
고가용성 BookKeeper 기반 데이터 복제 장애 시 데이터 손실 방지
비용 효율성 Tiered Storage로 저장 비용 절감 장기 데이터 보관에 유리

6. 주요 활용 사례 및 고려사항

활용 사례 설명 고려사항
IoT 스트림 데이터 관리 센서 데이터 수집 및 장기 저장 이벤트 타임 기반 처리 필요
AI/ML 데이터 피드 모델 학습용 실시간 데이터 파이프라인 재생 기능 활용 가능
금융 트랜잭션 로그 정확한 이벤트 순서 보장 Exactly-once 설정 필수
하이브리드 클라우드 데이터 스트리밍 온프레미스 + 클라우드 통합 처리 스토리지 티어 구성 관리 필요

7. 결론

Pravega는 데이터 스트리밍과 스토리지를 통합한 혁신적인 오픈소스 플랫폼으로, Kafka의 실시간 처리 능력과 오브젝트 스토리지의 지속성을 결합한다. 이를 통해 대규모 IoT, 금융, AI 데이터 환경에서 안정적이고 효율적인 스트리밍 데이터 관리가 가능하며, 차세대 데이터 파이프라인의 핵심 솔루션으로 자리 잡고 있다.

728x90
반응형

'Topic' 카테고리의 다른 글

픽스내핑 (Pixnapping)  (0) 2025.11.14
Kafka Connect  (0) 2025.11.13
Apache SeaTunnel  (0) 2025.11.12
Kafka Streams  (0) 2025.11.12
KRaft (Kafka Raft Metadata Mode)  (0) 2025.11.11