728x90
반응형

데이터압축 4

Apache ORC(Optimized Row Columnar)

개요Apache ORC는 하둡(Hadoop) 기반의 대규모 데이터 처리에 최적화된 컬럼 지향(Columar) 저장 포맷으로, 빠른 압축률과 고속 읽기 성능을 제공하는 것이 특징입니다. Hive, Spark, Trino 등의 빅데이터 처리 엔진에서 널리 활용되며, 데이터 분석 효율성과 저장 공간 최적화에 중점을 둡니다.1. 개념 및 정의 항목 설명 정의컬럼 단위로 데이터를 저장하고 압축하는 고성능 파일 포맷목적대규모 데이터 분석의 성능 최적화필요성텍스트 기반 포맷(CSV, JSON)의 비효율 해소 및 컬럼 기반 처리 개선ORC는 대용량의 정형 데이터를 대상으로 한 효율적인 저장과 처리에 적합2. 특징특징설명비교컬럼 지향 포맷컬럼 단위로 데이터 저장Row 기반보다 빠른 질의 성능고압축률Zlib, Snapp..

Topic 2026.01.28

Zstandard (Zstd)

개요Zstandard(Zstd)는 Facebook(현 Meta)이 개발한 범용 압축 알고리즘으로, 높은 압축률과 빠른 압축/복원 속도를 동시에 제공하는 것이 특징이다. Zstd는 기존의 zlib, gzip, LZ4 등을 대체하거나 보완하기 위해 설계되었으며, 대용량 로그, 데이터베이스 백업, 네트워크 전송 등 다양한 분야에서 활용되고 있다.1. 개념 및 정의Zstandard는 LZ77 계열의 압축 알고리즘으로, 허프만 부호화(Huffman Coding)와 Finite State Entropy(FSE) 기술을 결합해 높은 압축 효율을 달성한다. 또한, 압축 레벨을 조정할 수 있어 사용자는 속도 중심(LZ4 수준) 또는 압축률 중심(Zlib 수준)의 모드를 선택할 수 있다.Zstd는 빠른 스트리밍 처리, 딕..

Topic 2025.11.29

Suffix Tree

개요Suffix Tree(접미사 트리)는 문자열의 모든 접미사(suffix)를 트리 형태로 표현한 자료구조로, 문자열 검색, 부분 문자열 탐색, 반복 패턴 찾기 등 다양한 텍스트 알고리즘 문제를 O(m) 또는 **O(n)**의 시간 복잡도로 해결할 수 있도록 지원합니다. 특히 생물정보학, 텍스트 편집기, 데이터 압축 등 빠른 문자열 탐색이 필요한 분야에서 필수적인 자료구조입니다.1. 개념 및 정의Suffix Tree는 문자열 S의 모든 접미사를 루트에서부터 하위 노드로 이어지는 경로로 표현한 트라이(Trie) 기반의 압축 트리입니다. 다음과 같은 특징을 가집니다:각 경로는 S의 한 접미사를 나타냄리프 노드는 문자열의 각 접미사의 시작 인덱스를 저장내부 노드는 공통 접두사를 공유하는 부분 문자열을 표현※ ..

Topic 2025.05.08

샤논의 정보 용량 이론(Information Capacity Theory)

개요샤논의 정보 용량 이론은 정보 이론(Information Theory)의 창시자인 클로드 E. 샤논(Claude E. Shannon)이 1948년 발표한 논문에서 제안한 개념으로, **통신 채널을 통해 오류 없이 전달할 수 있는 정보의 최대량(채널 용량)**을 정의합니다. 이 이론은 디지털 통신, 데이터 압축, 암호화 등 현대 정보 기술의 핵심 수학적 기반을 제공합니다.1. 개념 및 정의샤논의 정보 용량 이론은 노이즈가 존재하는 채널에서도 일정 수준 이하의 오류 확률로 정보를 안정적으로 전송할 수 있다는 사실을 수학적으로 증명합니다.정의: 정보 채널의 최대 전송 속도는 노이즈 수준과 대역폭에 의해 제한되며, 이 한계치를 '채널 용량(Channel Capacity)'이라고 함공식: C = B log₂(..

Topic 2025.04.20
728x90
반응형