728x90
반응형

cleanlab 2

Cleanlab

개요Cleanlab은 머신러닝 모델 학습에 사용되는 데이터셋의 품질을 진단하고, 라벨 오류(Label Error)를 자동으로 탐지하고 보정하는 오픈소스 프레임워크입니다. 모델 예측 결과를 활용해 라벨의 신뢰도를 통계적으로 평가함으로써, 라벨링 오류, 혼동 클래스, 이상값 등을 체계적으로 식별할 수 있도록 돕습니다.1. 개념 및 정의 항목 설명 정의학습 데이터의 라벨 품질을 자동으로 분석하고 오류를 탐지하는 Python 기반 프레임워크목적모델 성능 향상을 위한 데이터 정제 자동화필요성수작업 라벨링 오류로 인한 성능 저하 및 불안정성 개선Cleanlab은 신뢰도 기반 필터링과 클래스 혼동 행렬 기반 진단 기능을 제공함2. 특징특징설명비교모델 예측 기반사전 학습된 모델의 softmax 출력 활용예측 확률로 ..

Topic 2026.01.30

Data-Centric AI

개요Data-Centric AI는 인공지능 시스템의 성능을 향상시키는 데 있어 모델 아키텍처보다는 데이터 품질을 핵심 변수로 삼는 접근 방식입니다. 이는 기존의 모델 중심(Model-Centric) 접근과 달리, 데이터의 정확성, 일관성, 다양성, 레이블링 품질 등을 개선하여 AI 성능을 높이는 전략입니다. Andrew Ng 교수의 제안으로 주목받은 이 패러다임은 특히 소규모 데이터셋, 레이블 오류, 편향된 데이터 분포가 문제인 분야에서 효과적입니다.1. 개념 및 정의 항목 설명 정의Data-Centric AI는 모델은 고정한 상태에서 데이터를 개선함으로써 AI 성능을 향상시키는 전략입니다.목적데이터 품질 최적화를 통해 모델 학습의 효율성과 정확도를 높임필요성고성능 모델이 보편화된 시대에 진짜 차별화 ..

Topic 2025.05.14
728x90
반응형