728x90
반응형

2025/09/08 4

Weight-Decomposed LoRA (WD-LoRA)

개요딥러닝 모델의 크기와 복잡성이 증가하면서 파인튜닝(Fine-tuning)의 비용과 자원 소모가 커지고 있습니다. LoRA(Low-Rank Adaptation)는 이러한 문제를 해결하기 위한 대표적인 접근 방식으로 주목받아왔습니다. 최근에는 LoRA의 한계를 개선한 **Weight-Decomposed LoRA(WD-LoRA)**가 등장하여 효율적인 모델 최적화와 자원 절감의 새로운 가능성을 제시하고 있습니다.1. 개념 및 정의**Weight-Decomposed LoRA(WD-LoRA)**는 기존 LoRA의 한계를 보완하여 더 효율적인 파라미터 효율적 학습(PEFT: Parameter-Efficient Fine-Tuning)을 지원하는 기법입니다. 핵심 아이디어는 기존 가중치를 분해(Decompositi..

Topic 2025.09.08

DeepSpeed ZeRO-3

개요DeepSpeed ZeRO-3(Zero Redundancy Optimizer Stage 3)는 초대규모 언어 모델 학습 시 발생하는 메모리 병목을 극복하기 위한 Microsoft의 DeepSpeed 프레임워크 구성 요소입니다. 모델 파라미터, 옵티마이저 상태, 그래디언트를 모두 분산 저장하여 GPU 메모리 사용을 획기적으로 줄이고, 100B+ 파라미터 모델의 학습을 단일 또는 소수 GPU 환경에서도 가능하게 만듭니다.이 글에서는 ZeRO-3의 구조, 작동 방식, 핵심 기술, 장점 및 실무 적용 전략을 살펴봅니다.1. 개념 및 정의 항목 설명 정의ZeRO-3는 학습 시 모든 파라미터 관련 메타정보를 GPU 간 분산 저장하여 메모리 중복을 제거하는 분산 최적화 기법입니다.목적대규모 모델의 학습 가능성을..

Topic 2025.09.08

FSDP (Fully Sharded Data Parallel)

개요FSDP(Fully Sharded Data Parallel)는 PyTorch에서 제공하는 분산 학습 기법 중 하나로, 모델의 파라미터, 그래디언트, 옵티마이저 상태를 GPU 간에 샤딩(sharding)하여 메모리 사용량을 획기적으로 절감할 수 있는 방식입니다. 특히 GPT, BERT와 같은 초대규모 모델의 학습에 적합하며, 기존 DataParallel, DDP(Distributed Data Parallel) 방식의 메모리 한계를 극복합니다.본 글에서는 FSDP의 원리, 구성, 주요 기술, 성능 효과 등을 분석하고 실제 적용 시 고려할 전략을 소개합니다.1. 개념 및 정의 항목 설명 정의FSDP는 모델 파라미터 및 상태 정보를 GPU 간에 분산 저장하고 통신을 통해 학습을 수행하는 분산 학습 방식입니..

Topic 2025.09.08

ColBERTv2

개요ColBERTv2는 효율성과 표현력을 동시에 달성하는 최신 신경 정보 검색(Neural Information Retrieval, Neural IR) 모델입니다. 기존 dense retrieval과는 달리, 쿼리와 문서를 토큰 수준에서 분리하여 임베딩한 후, 유사도 스코어를 Late Interaction 방식으로 계산함으로써 검색 성능과 효율의 균형을 이루는 구조를 갖습니다.ColBERTv2는 대규모 사전 훈련 및 양방향 LLM 임베딩 구조를 기반으로 sparse + dense hybrid 검색과의 융합도 용이하여 최신 LLM-RAG 기반 시스템에서 핵심적인 Retriever 구성 요소로 주목받고 있습니다.1. 개념 및 정의 항목 설명 정의ColBERTv2는 세분화된 토큰 임베딩과 Late Inter..

Topic 2025.09.08
728x90
반응형