LongNet

Topic

LongNet

JackerLab 2025. 5. 16. 02:51

728x90

개요

LongNet은 Microsoft Research Asia가 2023년 발표한 초장기 시퀀스 대응 Transformer 모델로, **선형 시퀀스 확장성(linear scalability)**과 최대 1백만 토큰 이상의 입력 처리가 가능한 구조를 실현한 최신 아키텍처입니다. 기존 Transformer는 self-attention의 O(N²) 연산 비용으로 인해 시퀀스가 길어질수록 비효율이 커지는데, LongNet은 dilated attention 메커니즘을 활용하여 O(N) 복잡도를 달성하고도 강력한 표현력을 유지합니다.

1. 개념 및 정의

항목	설명
정의	LongNet은 dilated attention을 기반으로 self-attention 연산의 복잡도를 줄이면서도 긴 문맥을 처리할 수 있는 Transformer 확장 구조입니다.
목적	LLM의 문맥 창(window)을 수천~수십만 단어 이상으로 확장함으로써 더 많은 입력을 처리할 수 있도록 함
필요성	기존 Transformer는 4K~16K 토큰 이상의 입력에 대해 비효율적이며 GPU memory 제한도 심각함

LongNet은 “Scaling Transformers to 1M tokens and beyond”를 목표로 설계되었습니다.

2. 핵심 기술: Dilated Attention

개념	설명	효과
Dilated Attention	입력 토큰 간의 간격을 두고(attention dilation) 계산하여 전체 범위를 커버함	연산량 감소 + 글로벌 문맥 보존
Hierarchical Attention	레이어별로 dilation rate를 다르게 하여 정보 확산 범위를 조절	Local → Global 점진적 문맥 통합
Positional Encoding	Rotary Embedding, NTK 등 다양한 위치 인코딩과 호환 가능	긴 문맥에서 위치 정보 손실 방지

Dilated Attention은 CNN의 dilated convolution 개념을 self-attention에 도입한 것입니다.

3. 성능 비교

항목	LongNet	GPT-3 / LLaMA 등
최대 입력 토큰 수	1M 이상	4K~32K 수준
Attention 복잡도	O(N)	O(N²)
압축 성능	매우 좋음 (10배 압축에도 의미 유지)	Token 수 증가 시 정보 희석 심화
추론 속도	매우 빠름	시퀀스 길이 증가에 따라 급격히 느려짐

LongNet은 특히 long-context summarization, genomic data, log 분석 등에 강력합니다.

4. 구조 및 작동 원리

입력 토큰을 multi-resolution 수준에서 분할
각 블록 내에서 local attention → sparse global attention 적용
Dilated rate를 점진적으로 늘려가며 정보 통합
최종적으로 전체 시퀀스 정보를 통합하여 출력 생성

이러한 구조는 attention mask 설계와 학습 안정성을 동시에 고려해야 합니다.

5. 활용 분야 및 기대 효과

분야	적용 사례	효과
초장기 문서 요약	수십만 단어의 법률 문서 요약	문서 전체를 한 번에 입력 가능
생물학 유전체 분석	10⁵~10⁶ 길이의 DNA 염기열 분석	sequence-to-sequence 정확도 향상
로그 기반 이상 탐지	대규모 시스템 로그 분석	장기적 패턴 탐지 가능
교육 및 검색	논문, 책 전체를 단일 질의 기반으로 분석	컨텍스트 전 범위 검색 대응

LongNet은 데이터 단위가 ‘문서’가 아닌 ‘라이브러리’일 때 가장 빛나는 아키텍처입니다.

6. 장점과 한계

장점	설명
선형 확장성	10⁶ 토큰까지도 memory-efficient하게 처리 가능
학습 효율성	batch size 제한 없이 학습 가능, 더 긴 문맥 학습 가능
다양한 인코딩 호환	기존 위치 인코딩과 함께 사용 가능

한계	설명
학습 안정성	긴 문맥에서 gradient 소실 가능성 존재
모델 일반화	일반적 QA/추론 성능은 기존 모델보다 우위 없음
구현 난이도	attention mask 설계 및 dilation rate 조정 복잡함

7. 결론

LongNet은 Transformer 아키텍처의 가장 큰 제약이었던 문맥 창 제한(context window limit) 문제를 근본적으로 해결하려는 혁신적 접근입니다. 특히 LLM이 현실 데이터(문서, 로그, 유전체 등)를 단일 시퀀스로 다뤄야 하는 환경에서는 대체 불가능한 기술로 부상하고 있으며, LLaMA, GPT 등 기존 모델들과 통합하거나 downstream fine-tuning을 통해 활용성이 더욱 확대될 것입니다.

728x90

'Topic' 카테고리의 다른 글

LSM-Tree (Log-Structured Merge-Tree) (0)	2025.05.16
FIM (Fill-In-the-Middle) Pre-training (0)	2025.05.16
FlashAttention (0)	2025.05.16
Mo’s Algorithm (0)	2025.05.16
Link-Cut Tree (0)	2025.05.15

현재글LongNet

250x250

ITPE * JackerLab

ITPE 관련 정보를 정리합니다.

Today :
Yesterday :

08-19 01:00

일	월	화	수	목	금	토
					1	2
3	4	5	6	7	8	9
10	11	12	13	14	15	16
17	18	19	20	21	22	23
24	25	26	27	28	29	30
31

ITPE * JackerLab

LongNet

개요

1. 개념 및 정의

2. 핵심 기술: Dilated Attention

3. 성능 비교

4. 구조 및 작동 원리

5. 활용 분야 및 기대 효과

6. 장점과 한계

7. 결론

'Topic' 카테고리의 다른 글

'Topic'의 다른글

티스토리툴바

LongNet

개요

1. 개념 및 정의

2. 핵심 기술: Dilated Attention

3. 성능 비교

4. 구조 및 작동 원리

5. 활용 분야 및 기대 효과

6. 장점과 한계

7. 결론

'Topic' 카테고리의 다른 글

'Topic'의 다른글

관련글

티스토리툴바