Topic

SwAV (Swapping Assignments Between Multiple Views)

JackerLab 2025. 4. 6. 19:16
728x90
반응형

개요

SwAV(Swapping Assignments Between Views)은 Facebook AI(현재 Meta AI)가 제안한 비교 학습(contrastive learning) 없이 클러스터링 기반으로 자기지도 학습을 수행하는 혁신적인 방식입니다. 기존의 SimCLR, MoCo 등은 positive-negative 쌍을 기반으로 학습하는 데 비해, SwAV는 온라인 클러스터링과 다중 뷰(view) 간의 임베딩 정렬을 통해 라벨 없는 학습을 가능하게 합니다. 이는 학습 효율성과 하드웨어 요구 사항 측면에서도 매우 뛰어난 성능을 보입니다.


1. 개념 및 정의

SwAV는 입력 이미지의 다양한 증강 뷰들 사이에서 클러스터 할당을 서로 교환(swapping assignment) 하면서 학습합니다. 각 뷰는 공유된 클러스터링 프로토타입(prototype)에 매핑되며, 한 뷰의 클러스터링 결과가 다른 뷰의 예측 대상(target)이 됩니다.

  • Online Clustering: 학습 중 클러스터 중심(prototype)을 동적으로 업데이트
  • View Swapping: 서로 다른 증강 이미지들 간 클러스터링 일관성 유지 학습
  • Contrastive 없이도 표현 학습 가능

2. 특징

항목 설명 비고
Contrastive-Free Negative 샘플 없이도 표현 학습 InfoNCE 없이 학습 가능
Online Prototype Clustering EMA 기반 프로토타입 갱신 Sinkhorn-Knopp 알고리즘 사용
Low Compute 대규모 배치, queue 불필요 SimCLR보다 메모리 효율적

SwAV는 특히 단일 GPU에서도 고성능 사전학습이 가능한 효율성이 강점입니다.


3. 핵심 구성 요소

구성 요소 설명 예시
Data Augmentation 여러 개의 이미지 뷰 생성 Crop, Resize, Flip 등
Encoder 각 뷰를 임베딩 공간으로 매핑 ResNet, Vision Transformer 등
Projection Head 프로토타입과의 비교를 위한 임베딩 압축 MLP 구조 사용
Prototypes 학습 가능한 클러스터 중심 클러스터 개수: 3000~6000개 권장
Swapping Assignment Loss 뷰 간 클러스터링 일관성 손실 Cross Entropy + Soft Assignment

4. 알고리즘 흐름

  1. 입력 이미지로부터 N개의 증강 뷰 생성
  2. 각 뷰를 Encoder → Projection Head에 통과하여 임베딩 생성
  3. 일부 뷰에서 온라인 클러스터링(Sinkhorn) 을 수행해 soft assignment 도출
  4. 다른 뷰에서의 예측값을 해당 soft target으로 학습 (Swapping)
  5. 프로토타입 업데이트 및 반복 학습 진행

SwAV는 대조 쌍 구성의 어려움을 극복하며 성능과 효율을 모두 달성했습니다.


5. 장점 및 이점

장점 설명 효과
Contrastive 불필요 Negative 샘플 없이도 표현 분리 가능 구현 복잡도 감소
적은 하드웨어 요구 대규모 배치·메모리 불필요 단일 GPU에서도 학습 가능
클러스터 기반 학습 의미 있는 시맨틱 구조 학습 전이 학습 및 탐색 태스크에 효과적

SwAV는 self-supervised pretraining의 경량화된 대안으로 각광받고 있습니다.


6. 주요 활용 사례 및 고려사항

분야 활용 사례 고려사항
이미지 분류 대규모 사전 학습 후 Linear Evaluation 프로토타입 수 조절 중요
비전 전이학습 의료 영상, 위성 사진 등의 표현 추출 다양한 뷰 확보 필수
멀티모달 사전학습 이미지-텍스트 클러스터 정렬 기반 Text Encoder 연동 고려
모바일 경량 AI 고성능 대비 가벼운 사전 학습 학습-추론 분리 가능

Sinkhorn 알고리즘은 temperature 조절, 정규화 안정성 등에 민감할 수 있습니다.


7. 결론

SwAV는 기존 대조학습 방식의 한계를 넘어서 온라인 클러스터링을 활용한 새로운 자기지도 학습 패러다임을 제시합니다. 적은 자원으로도 고품질 표현을 학습할 수 있으며, 다양한 비전 태스크에 효과적으로 전이됩니다. 앞으로는 멀티모달 학습, 클러스터 기반 검색, 비전-언어 정렬 등으로도 폭넓게 확장될 것입니다.

728x90
반응형