Topic

LongNet

JackerLab 2025. 5. 16. 02:51
728x90
반응형

개요

LongNet은 Microsoft Research Asia가 2023년 발표한 초장기 시퀀스 대응 Transformer 모델로, **선형 시퀀스 확장성(linear scalability)**과 최대 1백만 토큰 이상의 입력 처리가 가능한 구조를 실현한 최신 아키텍처입니다. 기존 Transformer는 self-attention의 O(N²) 연산 비용으로 인해 시퀀스가 길어질수록 비효율이 커지는데, LongNet은 dilated attention 메커니즘을 활용하여 O(N) 복잡도를 달성하고도 강력한 표현력을 유지합니다.


1. 개념 및 정의

항목 설명
정의 LongNet은 dilated attention을 기반으로 self-attention 연산의 복잡도를 줄이면서도 긴 문맥을 처리할 수 있는 Transformer 확장 구조입니다.
목적 LLM의 문맥 창(window)을 수천~수십만 단어 이상으로 확장함으로써 더 많은 입력을 처리할 수 있도록 함
필요성 기존 Transformer는 4K~16K 토큰 이상의 입력에 대해 비효율적이며 GPU memory 제한도 심각함

LongNet은 “Scaling Transformers to 1M tokens and beyond”를 목표로 설계되었습니다.


2. 핵심 기술: Dilated Attention

개념 설명 효과
Dilated Attention 입력 토큰 간의 간격을 두고(attention dilation) 계산하여 전체 범위를 커버함 연산량 감소 + 글로벌 문맥 보존
Hierarchical Attention 레이어별로 dilation rate를 다르게 하여 정보 확산 범위를 조절 Local → Global 점진적 문맥 통합
Positional Encoding Rotary Embedding, NTK 등 다양한 위치 인코딩과 호환 가능 긴 문맥에서 위치 정보 손실 방지

Dilated Attention은 CNN의 dilated convolution 개념을 self-attention에 도입한 것입니다.


3. 성능 비교

항목 LongNet GPT-3 / LLaMA 등
최대 입력 토큰 수 1M 이상 4K~32K 수준
Attention 복잡도 O(N) O(N²)
압축 성능 매우 좋음 (10배 압축에도 의미 유지) Token 수 증가 시 정보 희석 심화
추론 속도 매우 빠름 시퀀스 길이 증가에 따라 급격히 느려짐

LongNet은 특히 long-context summarization, genomic data, log 분석 등에 강력합니다.


4. 구조 및 작동 원리

  1. 입력 토큰을 multi-resolution 수준에서 분할
  2. 각 블록 내에서 local attention → sparse global attention 적용
  3. Dilated rate를 점진적으로 늘려가며 정보 통합
  4. 최종적으로 전체 시퀀스 정보를 통합하여 출력 생성

이러한 구조는 attention mask 설계와 학습 안정성을 동시에 고려해야 합니다.


5. 활용 분야 및 기대 효과

분야 적용 사례 효과
초장기 문서 요약 수십만 단어의 법률 문서 요약 문서 전체를 한 번에 입력 가능
생물학 유전체 분석 10⁵~10⁶ 길이의 DNA 염기열 분석 sequence-to-sequence 정확도 향상
로그 기반 이상 탐지 대규모 시스템 로그 분석 장기적 패턴 탐지 가능
교육 및 검색 논문, 책 전체를 단일 질의 기반으로 분석 컨텍스트 전 범위 검색 대응

LongNet은 데이터 단위가 ‘문서’가 아닌 ‘라이브러리’일 때 가장 빛나는 아키텍처입니다.


6. 장점과 한계

장점 설명
선형 확장성 10⁶ 토큰까지도 memory-efficient하게 처리 가능
학습 효율성 batch size 제한 없이 학습 가능, 더 긴 문맥 학습 가능
다양한 인코딩 호환 기존 위치 인코딩과 함께 사용 가능
한계 설명
학습 안정성 긴 문맥에서 gradient 소실 가능성 존재
모델 일반화 일반적 QA/추론 성능은 기존 모델보다 우위 없음
구현 난이도 attention mask 설계 및 dilation rate 조정 복잡함

7. 결론

LongNet은 Transformer 아키텍처의 가장 큰 제약이었던 문맥 창 제한(context window limit) 문제를 근본적으로 해결하려는 혁신적 접근입니다. 특히 LLM이 현실 데이터(문서, 로그, 유전체 등)를 단일 시퀀스로 다뤄야 하는 환경에서는 대체 불가능한 기술로 부상하고 있으며, LLaMA, GPT 등 기존 모델들과 통합하거나 downstream fine-tuning을 통해 활용성이 더욱 확대될 것입니다.

728x90
반응형

'Topic' 카테고리의 다른 글

LSM-Tree (Log-Structured Merge-Tree)  (0) 2025.05.16
FIM (Fill-In-the-Middle) Pre-training  (0) 2025.05.16
FlashAttention  (0) 2025.05.16
Mo’s Algorithm  (0) 2025.05.16
Link-Cut Tree  (0) 2025.05.15