728x90
반응형

self-attention-free 2

Hyena

개요Hyena는 Transformer의 한계를 극복하고 긴 시퀀스를 효율적으로 처리할 수 있도록 설계된 새로운 딥러닝 모델 구조다. 특히 O(N log N) 복잡도로 길이가 수만에 이르는 입력 시퀀스를 처리할 수 있어, 자연어 처리, 게놈 데이터 분석, 시계열 예측 등 다양한 영역에서 Transformer 대비 더 빠르고 확장 가능한 성능을 제공한다.1. 개념 및 정의 항목 설명 정의Transformer의 Self-Attention을 대체하는 Convolution 기반 Sequence 모델목적긴 시퀀스에서도 연산 효율과 정보 유지력을 확보필요성기존 Transformer는 O(N²) 복잡도로 긴 입력에서 비효율적Hyena는 일반적인 Attention 없이도 긴 문맥의 정보를 효과적으로 포착할 수 있는 구..

Topic 2026.01.01

RetNet(Retention Network)

개요Transformer 아키텍처는 현재 대규모 언어 모델의 핵심이지만, 긴 시퀀스 처리에서 비효율적이며 추론 속도와 메모리 요구량에 제약이 있습니다. 이러한 한계를 극복하기 위해 Meta AI에서 제안한 **RetNet(Retention Network)**은 트랜스포머의 장점을 유지하면서도 RNN 기반의 효율성과 병렬처리 가능성을 결합한 차세대 언어 모델 구조입니다. 본 글에서는 RetNet의 개념, 구조, 기술적 차별점, 그리고 응용 가능성을 심층적으로 살펴봅니다.1. 개념 및 정의**RetNet(Retention Network)**은 입력 토큰에 대한 정보를 상태로 유지하면서, 동적 가중치를 부여해 다음 토큰을 예측하는 새로운 시퀀스 모델입니다. 트랜스포머의 Self-Attention을 대체하기 위..

Topic 2025.05.28
728x90
반응형