Topic

MoCo, SimCLR (자기지도 학습)

JackerLab 2025. 4. 6. 17:15
728x90
반응형

개요

MoCo(Momentum Contrast)와 SimCLR(Simple Framework for Contrastive Learning of Visual Representations)는 이미지 데이터를 레이블 없이도 학습할 수 있게 해주는 대표적인 자기지도 학습(self-supervised learning) 프레임워크입니다. 두 모델은 모두 대규모 데이터에 대한 강력한 시각 표현(Visual Representation)을 사전 학습(pretraining) 하여, 소수의 라벨만으로도 강력한 다운스트림 성능을 보여줍니다. 특히 레이블이 부족한 환경이나 전이 학습이 필요한 경우 핵심 기술로 자리잡고 있습니다.


1. 개념 및 정의

MoCo와 SimCLR은 모두 Contrastive Learning(대조 학습) 기반 자기지도 학습 방법입니다. 핵심 아이디어는 ‘같은 이미지에서 생성된 두 개의 변형은 서로 가깝게, 다른 이미지에서 생성된 변형은 멀게 임베딩’하는 것입니다.

  • Anchor, Positive, Negative 샘플 간의 관계 학습
  • 임베딩 공간에서 유사도 기반 학습 수행 (예: Cosine Similarity)
  • 사전 학습된 백본(backbone) 네트워크 사용 (ResNet 등)

2. 특징 비교

항목 MoCo SimCLR
구조 Key Encoder + Momentum 업데이트 Symmetric Encoder 구조
메모리 사용 Memory Queue 사용 Large Batch 필요
업데이트 방식 EMA 기반 업데이트 일반 Backprop 기반 학습
하드웨어 요구 상대적으로 적음 많은 GPU 필요 (e.g. 4096 batch size)

SimCLR은 대규모 연산 환경에서 효율적, MoCo는 적은 리소스로도 좋은 성능을 보입니다.


3. 핵심 구성 요소

구성 요소 설명 예시
Data Augmentation 이미지의 다양한 변형 생성 Crop, Color Jitter, Gaussian Blur 등
Encoder (f) 이미지 임베딩 생성 ResNet-50 등 사용
Projection Head 학습을 위한 잠재 벡터 매핑 MLP 구조 (SimCLR, MoCo v2)
Contrastive Loss positive/negative 간 유사도 조절 InfoNCE Loss 사용
Queue or Batch Negative 샘플 집합 생성 방식 MoCo는 Queue, SimCLR은 Batch

이 구조를 통해 모델은 의미론적 이미지 표현을 학습할 수 있게 됩니다.


4. 주요 알고리즘 흐름

단계 MoCo SimCLR
1. 데이터 증강 쌍의 이미지 변형 생성 쌍의 이미지 변형 생성
2. 인코딩 Query: online encoder / Key: momentum encoder 두 인코더 공유 (Symmetric)
3. 임베딩 계산 Query-Key 유사도 계산 모든 positive/negative 간 거리 계산
4. Loss 계산 InfoNCE with queue InfoNCE with batch
5. 업데이트 Query만 Backprop, Key는 EMA 양방향 업데이트 수행

5. 장점 및 이점

장점 설명 효과
레이블 불필요 비지도 사전 학습 데이터 준비 비용 절감
강력한 전이 학습 다양한 다운스트림 태스크에 적용 가능 분류, 탐색, 객체 검출 등
고성능 표현 학습 ImageNet linear eval에서도 우수 성능 라벨 수 적은 환경에서 효과적

SimCLR은 Google, MoCo는 Facebook/Meta에서 각각 개발되어 오픈소스로도 널리 사용됩니다.


6. 활용 사례 및 고려사항

분야 활용 사례 고려사항
컴퓨터 비전 대규모 이미지 사전 학습 다양한 증강 기법 설계 필요
의료 영상 라벨 부족한 CT/MRI 표현 학습 민감 데이터 증강 전략 중요
위성/항공 이미지 라벨 없는 지역 클러스터링 위치 정보 활용 가능
로봇 비전 주변 환경 인식 학습 실시간 연산을 위한 경량화 고려

메모리 효율, 하이퍼파라미터 튜닝(temperature, batch size), 증강 강도 등이 성능에 큰 영향을 미칩니다.


7. 결론

MoCo와 SimCLR은 비지도 환경에서 고성능 표현 학습을 가능하게 한 대표적인 자기지도 학습 기술입니다. 라벨 의존도를 줄이고 학습 일반화를 극대화할 수 있는 이 기술들은 사전 학습 기반 AI의 필수 도구로 자리매김하고 있으며, 향후 Vision-Language 모델, 멀티모달 학습, 경량화된 모바일 모델 등 다양한 응용으로 확장될 것입니다.

728x90
반응형