'데이터웨어하우스' 태그의 글 목록

Apache ORC(Optimized Row Columnar)

개요Apache ORC는 하둡(Hadoop) 기반의 대규모 데이터 처리에 최적화된 컬럼 지향(Columar) 저장 포맷으로, 빠른 압축률과 고속 읽기 성능을 제공하는 것이 특징입니다. Hive, Spark, Trino 등의 빅데이터 처리 엔진에서 널리 활용되며, 데이터 분석 효율성과 저장 공간 최적화에 중점을 둡니다.1. 개념 및 정의 항목 설명 정의컬럼 단위로 데이터를 저장하고 압축하는 고성능 파일 포맷목적대규모 데이터 분석의 성능 최적화필요성텍스트 기반 포맷(CSV, JSON)의 비효율 해소 및 컬럼 기반 처리 개선ORC는 대용량의 정형 데이터를 대상으로 한 효율적인 저장과 처리에 적합2. 특징특징설명비교컬럼 지향 포맷컬럼 단위로 데이터 저장Row 기반보다 빠른 질의 성능고압축률Zlib, Snapp..

Topic 2026.01.28

StarRocks

개요StarRocks는 오픈소스 기반의 실시간 분석(Real-Time Analytics)에 최적화된 MPP(Massively Parallel Processing) SQL 데이터베이스로, 빠른 쿼리 처리와 대규모 데이터 분석을 동시에 지원합니다. OLAP(Online Analytical Processing) 워크로드를 위해 설계되어, 데이터 웨어하우스와 데이터 레이크의 통합 분석을 구현하며, 기존 Apache Doris 프로젝트에서 파생되어 성능 및 확장성을 강화한 차세대 분석 플랫폼입니다.1. 개념 및 정의 항목 내용 비고 정의대규모 데이터에 대해 초저지연 실시간 분석을 제공하는 MPP SQL 엔진Apache Doris 기반목적실시간 BI, 대시보드, 사용자 행동 분석 등 고속 쿼리 수행고성능 분석 ..

Topic 2025.12.17

Trino

개요Trino(구 PrestoSQL)는 대규모 데이터셋에 대해 빠른 SQL 쿼리 처리를 제공하는 오픈소스 분산 SQL 쿼리 엔진이다. 데이터 레이크, 데이터 웨어하우스, 클라우드 스토리지, RDBMS 등 다양한 데이터 소스를 대상으로 단일 SQL 인터페이스를 통해 질의할 수 있어, 데이터 분석 및 BI 환경에서 핵심 플랫폼으로 자리잡고 있다.1. 개념 및 정의 항목 내용 설명 정의Trino오픈소스 분산 SQL 쿼리 엔진목적다양한 데이터 소스 통합 질의데이터 이동 없는 고속 분석필요성빅데이터 환경 확산이기종 데이터 환경 단일 분석 요구Trino는 데이터 복제 없이 원본 데이터 소스에 직접 쿼리를 실행하여 초고속 분석 성능을 제공한다.2. 특징특징설명비고분산 SQL 엔진대규모 클러스터 기반 병렬 처리빅데..

Topic 2025.10.07

Reverse ETL

개요Reverse ETL은 데이터 웨어하우스에 저장된 데이터를 CRM, 마케팅 플랫폼, 협업 툴 등 외부 비즈니스 애플리케이션으로 추출·전송하는 프로세스를 의미합니다. 이는 전통적인 ETL(Extract, Transform, Load)과 방향이 반대이며, 데이터 웨어하우스를 '단순 저장소'가 아닌 '실시간 실행 중심 허브'로 전환시키는 현대적 데이터 아키텍처 항목 설명 비고 정의데이터 웨어하우스에서 데이터를 추출하여 비즈니스 앱으로 전송하는 프로세스ETL의 반대 방향목적운영 시스템에서 직접 데이터 활용 가능하게 함실시간 실행 기반 전환주요 용도마케팅 자동화, 고객 세분화, 영업 데이터 강화 등CDP(Customer Data Platform)와 연계 가능데이터 중심 전략에서 '활용 중심 전략'으로의 패러다..

Topic 2025.06.08

Materialized View Logs (MVL)

개요Materialized View Logs(MVL)는 데이터베이스에서 **물리화된 뷰(Materialized View, MV)**의 동기화를 최적화하기 위해 원본 테이블의 변경 사항을 추적하는 로그 테이블입니다. MVL은 특히 MV를 Fast Refresh 모드로 업데이트할 때 필요한 정보만 빠르게 찾아 반영할 수 있도록 해주며, **전체 테이블 스캔 없이도 효율적인 증분 갱신(incremental update)**이 가능하게 합니다.1. 개념 및 정의Materialized View는 질의 결과를 디스크에 저장해 놓은 뷰로, 성능 향상을 위해 자주 사용됩니다. MVL은 다음과 같은 구조적 목적을 가집니다:원본 테이블의 DML(Insert/Update/Delete) 변경 사항을 기록MV Fast Refr..

Topic 2025.05.09

데이터 저장 기술(Data Storage Technologies)

개요데이터가 폭발적으로 증가하면서, 다양한 형태의 데이터를 안정적이고 확장 가능하게 저장하는 기술이 점점 더 중요해지고 있습니다. 텍스트, 이미지, 센서, 로그, 트랜잭션 등 이질적인 데이터를 저장하기 위해 기존의 RDBMS를 넘어서 객체 저장소, NoSQL, 데이터 레이크, 파일 시스템 등 다양한 저장 기술이 등장했습니다. 이 글에서는 현대 데이터 환경에서 사용되는 주요 저장 기술과 그 특징, 선택 전략을 정리합니다.1. 데이터 저장이란? 항목 설명 정의생성된 데이터를 일정 기간 안정적으로 보존하고, 조회·분석할 수 있게 저장하는 기술적 기반목적데이터 보존, 처리 성능 확보, 검색 용이성, 보안·복구주요 고려 요소데이터 유형, 저장 용량, 확장성, 접근 속도, 비용, 정합성저장은 데이터 라이프사이클의..

Topic 2025.04.21

Column-oriented DB(열 지향 데이터베이스)

개요Column-oriented DB(열 지향 데이터베이스)는 데이터를 행(row)이 아닌 열(column) 단위로 저장하는 데이터베이스 관리 방식입니다. 이 구조는 주로 대용량 데이터 분석과 OLAP(Online Analytical Processing) 환경에서 사용되며, 빠른 집계 연산과 효율적인 압축이 가능한 것이 특징입니다. 본 글에서는 열 지향 DB의 개념, 구조, 장단점 및 주요 활용 사례를 살펴봅니다.1. 개념 및 정의열 지향 데이터베이스는 데이터를 저장할 때, 테이블의 각 열을 별도의 저장 공간에 나누어 저장하는 방식입니다. 기존의 전통적 RDBMS는 행 단위로 데이터를 저장하지만, 열 지향 방식은 분석 쿼리에 최적화되어 있어 특정 열에 대한 조회 및 연산 성능이 매우 뛰어납니다.2. 특징..

Topic 2025.04.09

일	월	화	수	목	금	토
	1	2	3	4	5	6
7	8	9	10	11	12	13
14	15	16	17	18	19	20
21	22	23	24	25	26	27
28	29	30

ITPE * JackerLab

데이터웨어하우스 7

티스토리툴바