728x90
반응형

hive 2

Apache ORC(Optimized Row Columnar)

개요Apache ORC는 하둡(Hadoop) 기반의 대규모 데이터 처리에 최적화된 컬럼 지향(Columar) 저장 포맷으로, 빠른 압축률과 고속 읽기 성능을 제공하는 것이 특징입니다. Hive, Spark, Trino 등의 빅데이터 처리 엔진에서 널리 활용되며, 데이터 분석 효율성과 저장 공간 최적화에 중점을 둡니다.1. 개념 및 정의 항목 설명 정의컬럼 단위로 데이터를 저장하고 압축하는 고성능 파일 포맷목적대규모 데이터 분석의 성능 최적화필요성텍스트 기반 포맷(CSV, JSON)의 비효율 해소 및 컬럼 기반 처리 개선ORC는 대용량의 정형 데이터를 대상으로 한 효율적인 저장과 처리에 적합2. 특징특징설명비교컬럼 지향 포맷컬럼 단위로 데이터 저장Row 기반보다 빠른 질의 성능고압축률Zlib, Snapp..

Topic 2026.01.28

YARN (Yet Another Resource Negotiator)

개요YARN(Yet Another Resource Negotiator)은 Apache Hadoop 생태계의 핵심 컴포넌트로, 분산 클러스터 환경에서 컴퓨팅 리소스(CPU, 메모리 등)를 효율적으로 관리하고 여러 애플리케이션(Job) 간 자원을 동적으로 할당하는 리소스 관리 프레임워크입니다. MapReduce, Spark, Tez 등 다양한 데이터 처리 엔진이 공통적으로 사용할 수 있는 범용 리소스 관리 계층을 제공합니다.1. 개념 및 정의 항목 내용 비고 정의클러스터 내 자원을 동적으로 관리하고 스케줄링하는 Hadoop의 리소스 관리 시스템Apache Hadoop Core 구성요소목적분산 환경에서 리소스 활용 극대화 및 애플리케이션 간 공정한 자원 분배효율적 클러스터 운영필요성MapReduce의 고정..

Topic 2025.12.23
728x90
반응형