개요
LongNet은 Microsoft Research Asia가 2023년 발표한 초장기 시퀀스 대응 Transformer 모델로, **선형 시퀀스 확장성(linear scalability)**과 최대 1백만 토큰 이상의 입력 처리가 가능한 구조를 실현한 최신 아키텍처입니다. 기존 Transformer는 self-attention의 O(N²) 연산 비용으로 인해 시퀀스가 길어질수록 비효율이 커지는데, LongNet은 dilated attention 메커니즘을 활용하여 O(N) 복잡도를 달성하고도 강력한 표현력을 유지합니다.
1. 개념 및 정의
항목 | 설명 |
정의 | LongNet은 dilated attention을 기반으로 self-attention 연산의 복잡도를 줄이면서도 긴 문맥을 처리할 수 있는 Transformer 확장 구조입니다. |
목적 | LLM의 문맥 창(window)을 수천~수십만 단어 이상으로 확장함으로써 더 많은 입력을 처리할 수 있도록 함 |
필요성 | 기존 Transformer는 4K~16K 토큰 이상의 입력에 대해 비효율적이며 GPU memory 제한도 심각함 |
LongNet은 “Scaling Transformers to 1M tokens and beyond”를 목표로 설계되었습니다.
2. 핵심 기술: Dilated Attention
개념 | 설명 | 효과 |
Dilated Attention | 입력 토큰 간의 간격을 두고(attention dilation) 계산하여 전체 범위를 커버함 | 연산량 감소 + 글로벌 문맥 보존 |
Hierarchical Attention | 레이어별로 dilation rate를 다르게 하여 정보 확산 범위를 조절 | Local → Global 점진적 문맥 통합 |
Positional Encoding | Rotary Embedding, NTK 등 다양한 위치 인코딩과 호환 가능 | 긴 문맥에서 위치 정보 손실 방지 |
Dilated Attention은 CNN의 dilated convolution 개념을 self-attention에 도입한 것입니다.
3. 성능 비교
항목 | LongNet | GPT-3 / LLaMA 등 |
최대 입력 토큰 수 | 1M 이상 | 4K~32K 수준 |
Attention 복잡도 | O(N) | O(N²) |
압축 성능 | 매우 좋음 (10배 압축에도 의미 유지) | Token 수 증가 시 정보 희석 심화 |
추론 속도 | 매우 빠름 | 시퀀스 길이 증가에 따라 급격히 느려짐 |
LongNet은 특히 long-context summarization, genomic data, log 분석 등에 강력합니다.
4. 구조 및 작동 원리
- 입력 토큰을 multi-resolution 수준에서 분할
- 각 블록 내에서 local attention → sparse global attention 적용
- Dilated rate를 점진적으로 늘려가며 정보 통합
- 최종적으로 전체 시퀀스 정보를 통합하여 출력 생성
이러한 구조는 attention mask 설계와 학습 안정성을 동시에 고려해야 합니다.
5. 활용 분야 및 기대 효과
분야 | 적용 사례 | 효과 |
초장기 문서 요약 | 수십만 단어의 법률 문서 요약 | 문서 전체를 한 번에 입력 가능 |
생물학 유전체 분석 | 10⁵~10⁶ 길이의 DNA 염기열 분석 | sequence-to-sequence 정확도 향상 |
로그 기반 이상 탐지 | 대규모 시스템 로그 분석 | 장기적 패턴 탐지 가능 |
교육 및 검색 | 논문, 책 전체를 단일 질의 기반으로 분석 | 컨텍스트 전 범위 검색 대응 |
LongNet은 데이터 단위가 ‘문서’가 아닌 ‘라이브러리’일 때 가장 빛나는 아키텍처입니다.
6. 장점과 한계
장점 | 설명 |
선형 확장성 | 10⁶ 토큰까지도 memory-efficient하게 처리 가능 |
학습 효율성 | batch size 제한 없이 학습 가능, 더 긴 문맥 학습 가능 |
다양한 인코딩 호환 | 기존 위치 인코딩과 함께 사용 가능 |
한계 | 설명 |
학습 안정성 | 긴 문맥에서 gradient 소실 가능성 존재 |
모델 일반화 | 일반적 QA/추론 성능은 기존 모델보다 우위 없음 |
구현 난이도 | attention mask 설계 및 dilation rate 조정 복잡함 |
7. 결론
LongNet은 Transformer 아키텍처의 가장 큰 제약이었던 문맥 창 제한(context window limit) 문제를 근본적으로 해결하려는 혁신적 접근입니다. 특히 LLM이 현실 데이터(문서, 로그, 유전체 등)를 단일 시퀀스로 다뤄야 하는 환경에서는 대체 불가능한 기술로 부상하고 있으며, LLaMA, GPT 등 기존 모델들과 통합하거나 downstream fine-tuning을 통해 활용성이 더욱 확대될 것입니다.
'Topic' 카테고리의 다른 글
LSM-Tree (Log-Structured Merge-Tree) (0) | 2025.05.16 |
---|---|
FIM (Fill-In-the-Middle) Pre-training (0) | 2025.05.16 |
FlashAttention (0) | 2025.05.16 |
Mo’s Algorithm (0) | 2025.05.16 |
Link-Cut Tree (0) | 2025.05.15 |