728x90
반응형

llm 최적화 2

FrugalGPT

개요대규모 언어 모델(LLM)의 상용화가 가속화되면서, 기업과 개발자들은 성능뿐만 아니라 운영 비용을 고려해야 하는 시대에 진입했습니다. 특히 GPT-4 같은 고성능 모델은 우수한 정확도를 제공하지만, 호출당 비용이 높아 스케일업에 한계가 있습니다. FrugalGPT는 이와 같은 문제를 해결하기 위해 제안된 전략으로, LLM 엔진의 비용-정확도 균형을 동적으로 최적화하는 접근 방식입니다. 본 글에서는 FrugalGPT의 개념, 기술 구조, 활용 전략, 그리고 실제 사례를 종합적으로 살펴봅니다.1. 개념 및 정의FrugalGPT는 여러 개의 LLM 엔진(GPT-3.5, GPT-4, Claude, LLaMA 등)을 조합하여 질문 유형에 따라 가장 저렴하면서도 충분한 정확도를 제공하는 모델을 선택해 사용하는 ..

Topic 2025.05.28

LongNet

개요LongNet은 Microsoft Research Asia가 2023년 발표한 초장기 시퀀스 대응 Transformer 모델로, **선형 시퀀스 확장성(linear scalability)**과 최대 1백만 토큰 이상의 입력 처리가 가능한 구조를 실현한 최신 아키텍처입니다. 기존 Transformer는 self-attention의 O(N²) 연산 비용으로 인해 시퀀스가 길어질수록 비효율이 커지는데, LongNet은 dilated attention 메커니즘을 활용하여 O(N) 복잡도를 달성하고도 강력한 표현력을 유지합니다.1. 개념 및 정의 항목 설명 정의LongNet은 dilated attention을 기반으로 self-attention 연산의 복잡도를 줄이면서도 긴 문맥을 처리할 수 있는 Trans..

Topic 2025.05.16
728x90
반응형