728x90
반응형

KNN 3

KNN (K-Nearest Neighbors)

개요KNN(K-Nearest Neighbors)은 데이터 간의 ‘거리’를 기반으로 가장 가까운 이웃(K개)을 참고하여 분류 또는 회귀를 수행하는 머신러닝 알고리즘이다. 모델 학습 과정이 거의 없고, 새로운 데이터가 들어올 때마다 기존 데이터와의 유사도를 계산하여 결과를 도출하는 Lazy Learning 방식이 특징이다. 단순하면서도 직관적인 구조로 인해 입문용 알고리즘이자 실무에서도 여전히 활용되는 대표적인 기법이다.1. 개념 및 정의KNN은 새로운 데이터 포인트가 주어졌을 때, 기존 데이터 중 가장 가까운 K개의 데이터를 기준으로 다수결 또는 평균을 통해 결과를 예측하는 알고리즘이다.2. 특징구분설명비교/차별점거리 기반데이터 간 유사도 계산모델 기반 알고리즘 대비 직관적Lazy Learning사전 학습..

Topic 2026.06.01

KD-Tree(K-Dimensional Tree)

개요KD-Tree(K-Dimensional Tree)는 다차원(K차원) 데이터에서 효율적인 검색을 가능하게 하는 공간 분할 기반의 이진 탐색 트리입니다. 특히 2D/3D 공간 탐색, 최근접 이웃 검색(Nearest Neighbor Search), 범위 질의(Range Query) 등에 최적화되어 있어 컴퓨터 그래픽스, 머신러닝, 로보틱스 등에서 널리 활용됩니다.1. 개념 및 정의KD-Tree는 K차원 데이터를 표현하기 위한 **이진 분할 트리(Binary Space Partitioning Tree)**입니다. 각 노드는 하나의 축을 기준으로 데이터를 이진 분할하며, 축은 트리의 깊이에 따라 반복적으로 선택됩니다.차원 기반 트리: 트리 깊이 d에서 분할 축은 d mod k로 결정구성 원리: 중간값 기준으로..

Topic 2025.05.06

데이터 임퓨테이션(Data Imputation)

개요데이터 임퓨테이션(Data Imputation)은 결측값(Missing Value)을 보완하여 분석의 정확성을 높이기 위한 필수 전처리 과정입니다. 머신러닝, 통계 분석, 비즈니스 인텔리전스 등 다양한 분야에서 정확한 분석과 예측 모델 구축을 위해 반드시 수행되어야 합니다. 본 포스트에서는 데이터 임퓨테이션의 개념, 종류, 적용 기법, 실제 사례 등을 전문가 수준으로 정리합니다.1. 개념 및 정의데이터 임퓨테이션은 결측된 데이터를 삭제하지 않고, 예측이나 통계적 방법 등을 통해 적절한 값으로 대체하는 기법입니다. 이 과정은 분석의 신뢰성을 확보하고, 데이터 손실을 최소화하는 데 목적이 있습니다.결측값(Missing Value): 수집되지 않았거나 손실된 데이터 포인트임퓨테이션: 결측값을 합리적 방법으..

Topic 2025.04.20
728x90
반응형