Performer (FAVOR+)

Topic

Performer (FAVOR+)

JackerLab 2025. 6. 14. 15:18

728x90

개요

Performer는 기존 Transformer의 연산 병목을 해결하기 위해 고안된 선형 복잡도 어텐션 알고리즘이다. 특히 FAVOR+ (Fast Attention Via Positive Orthogonal Random features)는 Self-Attention의 계산량을 O(N²)에서 O(N)으로 줄여 대규모 입력 처리에서 속도와 메모리 사용을 획기적으로 개선한다. 본 글에서는 Performer의 핵심 개념, FAVOR+의 수학적 원리, 기술적 장점과 다양한 활용 사례를 상세히 소개한다.

1. 개념 및 정의

항목	설명
정의	Performer는 Self-Attention을 근사하는 선형 어텐션 기반 트랜스포머 구조로, FAVOR+ 기법을 핵심으로 사용
목적	트랜스포머 구조의 연산량을 선형 수준으로 낮춰 확장성과 효율성 확보
필요성	긴 입력 시 Transformer의 O(N²) 복잡도로 인한 연산/메모리 한계 극복 필요

2. 특징

특징	설명	기존 Transformer와 비교
선형 시간 복잡도	Self-Attention의 계산을 선형화	기존: O(N²), Performer: O(N)
임의 특성 근사	Kernelized Attention으로 QKᵀ를 확률적으로 근사	Softmax 대신 Random Feature 사용
양의 직교 특성	FAVOR+는 ReLU 유사 활성함수 기반 양의 직교 랜덤 기저 사용	일반 랜덤 특성 대비 정확도 향상

FAVOR+는 수학적 기법으로 Self-Attention을 빠르고 안정적으로 근사한다.

3. 구성 요소

구성 요소	설명	기술 예시
Random Feature Map	Query와 Key를 고차원 임베딩으로 매핑	FAVOR+에서 Gaussian Kernel 근사 수행
Kernelized Dot-product Attention	Softmax를 사용하지 않고 inner product 근사	FastTransformer 구조
Positive Orthogonal Features	음수값 없이 안정적인 값 유지	ReLU 기반, numerical stability 확보

이 구성 덕분에 Performer는 큰 입력 길이에서도 일관된 성능을 유지한다.

4. 기술 요소

기술 요소	설명	적용 예시
FAVOR+ 알고리즘	Query와 Key를 양의 랜덤 기저로 변환해 선형 근사 수행	NLP, Vision 트랜스포머 등에 적용
Random Feature Sampling	평균 보존 및 variance 제어	Monte Carlo 추정 기반 학습 안정성 강화
Pre-normalization 구조	LayerNorm을 Attention 전 적용	깊은 구조에서도 gradient vanishing 방지

FAVOR+는 Performer의 학습 효율성과 일반화 능력을 동시에 향상시킨다.

5. 장점 및 이점

장점	설명	기대 효과
연산량 감소	Self-Attention을 O(N)으로 간소화	GPU 메모리 50% 이상 절감 가능
장기 의존성 모델링	긴 시퀀스 입력에도 성능 유지	문서 요약, DNA 서열 분석에 유리
정확도 유지	Softmax 기반 Transformer와 유사한 정확도 보장	성능 대비 효율성 극대화

특히 장문의 입력이나 고해상도 비전 모델에서 유리하다.

6. 주요 활용 사례 및 고려사항

사례	설명	고려사항
자연어 문서 분석	긴 텍스트를 빠르게 처리하는 LLM 구성	문맥 보존을 위한 positional encoding 조정 필요
생물정보학	DNA/RNA 긴 서열 분석에 Performer 적용	생물학적 연관성 유지 필요
비전 트랜스포머	이미지 고해상도 입력에서도 선형 어텐션 구현	Spatial locality 정보 보완 필요

모델 적용 시 random feature의 차원 수와 kernel 선택이 핵심 튜닝 포인트이다.

7. 결론

Performer (FAVOR+)는 트랜스포머의 병목 구조를 혁신적으로 해소한 구조로, 선형 어텐션을 통해 학습 및 추론의 확장성과 속도를 모두 만족시킨다. 자연어 처리, 컴퓨터 비전, 생물정보학 등 다양한 분야에서 장기 시퀀스를 처리하는 핵심 대안으로 부상하고 있으며, LLM의 차세대 구조로서의 가능성도 크다.

728x90