728x90
반응형

Hadoop 7

Snappy

개요Snappy는 Google에서 개발한 경량 고속 무손실 압축 알고리즘으로, 속도를 최우선으로 설계되었습니다. 압축률보다 압축/해제 속도를 중시하며, 로그 수집, 빅데이터 처리, 데이터베이스 등 고처리량 환경에 적합합니다. 다양한 언어와 플랫폼에서 사용되며, 특히 Hadoop, Kafka, Cassandra 등에서 널리 채택되고 있습니다.1. 개념 및 정의 항목 설명 정의매우 빠른 압축 및 해제를 지원하는 무손실 압축 알고리즘목적실시간/고속 처리 환경에서의 병목 제거필요성zlib 등 고압축 알고리즘의 느린 속도를 대체Snappy는 CPU 사용률이 낮고 압축/해제 속도가 매우 빠르며, 평균 압축률은 중간 수준2. 특징특징설명비교초고속 압축/해제250MB/s~500MB/s 수준zlib 대비 3~5배 빠름..

Topic 2026.01.29

Apache Avro

개요Apache Avro는 Apache Hadoop 생태계에서 널리 사용되는 데이터 직렬화 프레임워크로, 구조화된 데이터를 효율적으로 저장하고 교환하기 위한 이식성과 성능 중심의 포맷입니다. JSON 기반의 명시적 스키마(schema)와 바이너리 직렬화를 결합하여 빠른 처리, 작은 크기, 언어 간 호환성을 제공합니다.1. 개념 및 정의항목설명정의JSON 기반 스키마를 사용하는 데이터 직렬화 시스템목적데이터 저장, 전송, RPC를 위한 효율적 포맷 제공필요성스키마 명시와 변경 가능성이 높은 환경에서의 데이터 정합성 유지Avro는 스키마와 데이터를 함께 저장하여, 데이터 자체만으로도 의미 해석이 가능함2. 특징특징설명비교스키마 명시데이터 구조를 명확히 기술Protobuf, Thrift 등과 유사스키마 진화 ..

Topic 2026.01.28

YARN (Yet Another Resource Negotiator)

개요YARN(Yet Another Resource Negotiator)은 Apache Hadoop 생태계의 핵심 컴포넌트로, 분산 클러스터 환경에서 컴퓨팅 리소스(CPU, 메모리 등)를 효율적으로 관리하고 여러 애플리케이션(Job) 간 자원을 동적으로 할당하는 리소스 관리 프레임워크입니다. MapReduce, Spark, Tez 등 다양한 데이터 처리 엔진이 공통적으로 사용할 수 있는 범용 리소스 관리 계층을 제공합니다.1. 개념 및 정의 항목 내용 비고 정의클러스터 내 자원을 동적으로 관리하고 스케줄링하는 Hadoop의 리소스 관리 시스템Apache Hadoop Core 구성요소목적분산 환경에서 리소스 활용 극대화 및 애플리케이션 간 공정한 자원 분배효율적 클러스터 운영필요성MapReduce의 고정..

Topic 2025.12.23

Apache Atlas

개요Apache Atlas는 엔터프라이즈 환경에서 메타데이터를 효율적으로 관리하고 데이터 거버넌스를 구현하기 위한 오픈소스 프레임워크입니다. 주로 Hadoop 에코시스템을 위한 메타데이터 관리 도구로 시작되었으나, 현재는 다양한 데이터 플랫폼과 연동되어 메타데이터 수집, 분류, 계보 추적(Lineage), 보안 정책 적용 등 폭넓은 기능을 지원합니다.1. 개념 및 정의 항목 내용 정의메타데이터 수집, 관리, 검색, 시각화를 통해 데이터 자산을 통합 관리하는 프레임워크목적데이터 자산에 대한 가시성 확보, 거버넌스, 컴플라이언스 대응필요성분산된 데이터 환경에서 메타데이터 일관성 유지와 규정 준수 보장 필요2. 주요 특징특징설명효과메타데이터 저장소다양한 소스의 기술/비즈니스 메타데이터 통합통합 관리 기반 제..

Topic 2025.12.19

Apache HBase

개요Apache HBase는 Hadoop 생태계의 일부로, HDFS(Hadoop Distributed File System) 위에 구축된 오픈소스 NoSQL 데이터베이스이다. 대량의 데이터를 실시간으로 읽고 쓰기 위한 분산형 컬럼 지향(column-oriented) 스토리지로, Google의 Bigtable 설계를 기반으로 개발되었다. 대규모 데이터 웨어하우스 및 IoT, 로그 분석 등 실시간 처리가 필요한 시스템에서 널리 사용된다.1. 개념 및 정의 항목 내용 비교 데이터 모델키-값(Key-Value) 기반의 컬럼 패밀리(Column Family) 구조RDBMS는 Row 기반 구조저장 방식HDFS 위에 데이터 분산 저장단일 노드 대비 확장성 우수접근 방식API 또는 REST, Thrift 인터페이스..

Topic 2025.11.16

빅데이터 분석도구 선택 원칙(Big Data Analytics Tool Selection Principles)

개요빅데이터 분석은 방대한 데이터로부터 인사이트를 도출하여 비즈니스 의사결정을 지원하는 핵심 활동이다. 이를 위해 다양한 분석 도구가 활용되며, 각 도구는 기능, 성능, 사용 용이성, 확장성 등에서 차이를 보인다. 분석 목적과 조직의 기술 환경에 따라 최적의 도구를 선택하는 것은 데이터 프로젝트의 성패를 좌우할 수 있다. 본 글에서는 빅데이터 분석도구 선택 시 고려해야 할 주요 원칙과 평가 기준을 정리한다.1. 개념 및 정의빅데이터 분석도구는 구조적/비정형 데이터를 수집, 저장, 처리, 분석 및 시각화하는 데 사용되는 소프트웨어 플랫폼 및 프레임워크를 의미한다.목적: 대용량 데이터를 신속하고 정확하게 분석하여 가치 창출필요성: 데이터 기반 의사결정, 예측 모델링, 고객 통찰 확보 등의 활용 증대유형: 배..

Topic 2025.04.21

빅데이터 프레임워크 (Hadoop, Spark)

개요빅데이터 프레임워크는 대용량 데이터를 저장, 처리 및 분석하기 위한 분산 컴퓨팅 기술입니다. 대표적인 빅데이터 프레임워크로는 Apache Hadoop과 Apache Spark가 있으며, 이들은 데이터 웨어하우스, 머신러닝, 실시간 데이터 분석 등 다양한 분야에서 활용됩니다. Hadoop은 배치 처리(Batch Processing)에 최적화된 분산 저장 및 연산 기술을 제공하며, Spark는 메모리 기반의 고속 데이터 처리를 지원하여 실시간 분석을 가능하게 합니다.1. 빅데이터 프레임워크란?빅데이터 프레임워크는 대량의 데이터를 분산된 환경에서 효과적으로 저장하고 처리할 수 있도록 설계된 시스템입니다. **전통적인 데이터베이스 시스템(RDBMS)**과는 달리, 수십~수백 테라바이트(TB) 이상의 데이터를..

Topic 2025.03.05
728x90
반응형