개요LongNet은 Microsoft Research Asia가 2023년 발표한 초장기 시퀀스 대응 Transformer 모델로, **선형 시퀀스 확장성(linear scalability)**과 최대 1백만 토큰 이상의 입력 처리가 가능한 구조를 실현한 최신 아키텍처입니다. 기존 Transformer는 self-attention의 O(N²) 연산 비용으로 인해 시퀀스가 길어질수록 비효율이 커지는데, LongNet은 dilated attention 메커니즘을 활용하여 O(N) 복잡도를 달성하고도 강력한 표현력을 유지합니다.1. 개념 및 정의 항목 설명 정의LongNet은 dilated attention을 기반으로 self-attention 연산의 복잡도를 줄이면서도 긴 문맥을 처리할 수 있는 Trans..