728x90
반응형

데이터수집 2

웹 크롤링(Web Crawling) & 스크래핑(Web Scraping)

개요웹은 가장 방대한 데이터 원천 중 하나이며, 이를 자동화된 방식으로 수집하는 기법이 바로 **웹 크롤링(Web Crawling)**과 **웹 스크래핑(Web Scraping)**입니다. 둘은 종종 혼용되지만 목적과 처리 범위, 기술 방식에서 뚜렷한 차이가 있습니다. 본 글에서는 웹 크롤링과 스크래핑의 정의, 차이점, 기술 도구, 법적 이슈, 실무 적용 전략 등을 비교·정리합니다.1. 정의 및 차이점 구분 웹 크롤링 (Web Crawling) 웹 스크래핑 (Web Scraping) 목적전체 웹사이트 구조 탐색 및 URL 수집특정 페이지의 데이터 추출작동 방식링크를 따라가며 페이지를 순차적으로 수집정해진 요소에서 정보만 추출출력 대상HTML 전체, URL 목록구조화된 데이터 (JSON, CSV 등)활..

Topic 2025.04.21

데이터 수집 기술(Data Ingestion Technologies)

개요데이터 기반 시스템의 출발점은 '수집'입니다. 어떤 데이터를 어떻게, 얼마나 빠르게, 어떤 형식으로 수집할 수 있는가에 따라 분석 품질, 실시간성, 대응력이 결정됩니다. 데이터 수집 기술은 IoT, 웹, 로그, 메시지, API, 배치/실시간 등 다양한 형태로 진화하고 있으며, 이에 따라 수집 아키텍처와 도구 또한 다변화되고 있습니다. 이 글에서는 대표적인 수집 기술과 아키텍처 유형, 적용 전략을 체계적으로 정리합니다.1. 데이터 수집이란? 항목 설명 정의다양한 출처에서 데이터를 수신, 추출, 적재하기 위한 기술적 처리 과정목적데이터 분석·모델링을 위한 원천 확보, 실시간 반응 시스템 기반 확보수집 유형배치 수집(Batch), 실시간 스트리밍(Stream), 이벤트 기반, CDC(Change Data..

Topic 2025.04.21
728x90
반응형