728x90
반응형

ai 데이터 처리 2

K-Means Clustering vs DBSCAN

개요K-Means Clustering과 DBSCAN(Density-Based Spatial Clustering of Applications with Noise)은 데이터를 그룹화하는 대표적인 군집화(Clustering) 알고리즘이다. K-Means는 사전 정의된 클러스터 수를 기반으로 데이터를 분류하는 반면, DBSCAN은 데이터 밀도를 활용하여 자동으로 클러스터를 형성한다. 본 글에서는 K-Means와 DBSCAN의 개념, 구성 요소, 장단점 및 활용 사례를 비교 분석한다.1. K-Means Clustering이란?K-Means Clustering은 사전에 정해진 개수(K)의 클러스터로 데이터를 나누는 군집화 알고리즘이다. 클러스터 중심(centroid)을 기준으로 데이터를 분류하며, 반복적인 업데이트..

Topic 2025.03.19

빅데이터 프레임워크 (Hadoop, Spark)

개요빅데이터 프레임워크는 대용량 데이터를 저장, 처리 및 분석하기 위한 분산 컴퓨팅 기술입니다. 대표적인 빅데이터 프레임워크로는 Apache Hadoop과 Apache Spark가 있으며, 이들은 데이터 웨어하우스, 머신러닝, 실시간 데이터 분석 등 다양한 분야에서 활용됩니다. Hadoop은 배치 처리(Batch Processing)에 최적화된 분산 저장 및 연산 기술을 제공하며, Spark는 메모리 기반의 고속 데이터 처리를 지원하여 실시간 분석을 가능하게 합니다.1. 빅데이터 프레임워크란?빅데이터 프레임워크는 대량의 데이터를 분산된 환경에서 효과적으로 저장하고 처리할 수 있도록 설계된 시스템입니다. **전통적인 데이터베이스 시스템(RDBMS)**과는 달리, 수십~수백 테라바이트(TB) 이상의 데이터를..

Topic 2025.03.05
728x90
반응형