728x90
반응형

데이터전처리 3

데이터 랭글링(Data Wrangling)

개요데이터 랭글링(Data Wrangling)은 분석, 머신러닝, 시각화 등의 목적에 맞게 원시 데이터를 정제하고 구조화하는 일련의 전처리 과정을 의미합니다. 종종 '데이터 머시징(Data Munging)'이라고도 불리며, 실제 데이터 분석에서 가장 많은 시간을 차지하는 단계로 알려져 있습니다. 품질 좋은 분석 결과와 AI 모델 성능 확보를 위해 신뢰할 수 있는 데이터 준비 과정으로 필수적인 기술입니다.1. 개념 및 정의데이터 랭글링은 비정형, 불완전, 오류가 포함된 데이터를 수집·정리하여 분석에 적합한 형식으로 변환하는 작업입니다. 이에는 데이터 정리(cleaning), 구조 변환(structuring), 형식 통일(normalizing), 결측치 처리, 이상값 제거 등 다양한 작업이 포함됩니다.2. ..

Topic 2025.04.26

데이터 전처리 기술(Data Preprocessing Techniques)

개요데이터 전처리는 원시(raw) 데이터를 분석 가능한 형태로 정제하고 구조화하는 과정으로, 머신러닝, 데이터 분석, 시각화의 전 단계이자 가장 중요한 품질 확보 절차입니다. 정확한 전처리는 모델 성능을 극대화하며, 잘못된 전처리는 잘 만든 알고리즘조차 무용지물로 만들 수 있습니다. 이 글에서는 전처리의 정의, 핵심 기법, 적용 도구, 실무 전략을 정리합니다.1. 데이터 전처리란? 항목 설명 정의원시 데이터를 분석 또는 학습에 적합한 형태로 변환하는 일련의 정제 작업목적노이즈 제거, 일관성 확보, 결측 보완, 형식 정렬을 통해 모델 성능 향상대상정형 데이터(테이블), 비정형 데이터(텍스트, 로그, 이미지 등) 모두 포함전처리는 ‘모델 학습을 위한 데이터 품질 확보 단계’입니다.2. 주요 전처리 기법분류..

Topic 2025.04.21

데이터 임퓨테이션(Data Imputation)

개요데이터 임퓨테이션(Data Imputation)은 결측값(Missing Value)을 보완하여 분석의 정확성을 높이기 위한 필수 전처리 과정입니다. 머신러닝, 통계 분석, 비즈니스 인텔리전스 등 다양한 분야에서 정확한 분석과 예측 모델 구축을 위해 반드시 수행되어야 합니다. 본 포스트에서는 데이터 임퓨테이션의 개념, 종류, 적용 기법, 실제 사례 등을 전문가 수준으로 정리합니다.1. 개념 및 정의데이터 임퓨테이션은 결측된 데이터를 삭제하지 않고, 예측이나 통계적 방법 등을 통해 적절한 값으로 대체하는 기법입니다. 이 과정은 분석의 신뢰성을 확보하고, 데이터 손실을 최소화하는 데 목적이 있습니다.결측값(Missing Value): 수집되지 않았거나 손실된 데이터 포인트임퓨테이션: 결측값을 합리적 방법으..

Topic 2025.04.20
728x90
반응형