728x90
반응형

llm튜닝 4

PagedOptim

개요PagedOptim은 대규모 언어 모델(LLM)의 파인튜닝/훈련 과정에서 GPU 메모리를 효율적으로 활용하기 위한 페이징 기반 옵티마이저 구조를 갖춘 학습 최적화 프레임워크입니다. 기존 옵티마이저(Adam, AdamW 등)는 파라미터와 옵티마이저 상태(state)를 모두 GPU 메모리에 올려야 했지만, PagedOptim은 **옵티마이저 상태를 페이지 단위로 GPU-CPU/NVMe 간에 이동(페이징)**하여, 메모리 초과 없이 초대형 모델 훈련을 가능하게 합니다.1. 개념 및 정의 항목 내용 비고 정의옵티마이저 상태를 페이지 단위로 관리하며 GPU-CPU 간 페이징을 수행하는 옵티마이저 계층DeepSpeed/Colossal-AI 기반 구현 예 존재목적GPU 메모리 한계를 넘어 대규모 모델 훈련 가..

Topic 2026.02.13

AdaLoRA (Adaptive Low-Rank Adaptation)

개요AdaLoRA(Adaptive Low-Rank Adaptation)는 대규모 언어 모델(LLM)을 파인튜닝할 때 사용하는 파라미터 효율화 미세조정(Parameter-Efficient Fine-Tuning, PEFT) 기법 중 하나로, 기존의 LoRA(Low-Rank Adaptation)를 확장하여 Layer마다 적절한 랭크(Rank)를 동적으로 할당하는 방식으로 학습 효율성과 성능을 모두 향상시키는 기술입니다. 제한된 예산에서 최대 효과를 얻는 데 초점을 맞춘 최신 PEFT 방법입니다.1. 개념 및 정의 항목 내용 비고 정의LLM 파인튜닝 시 layer별로 rank를 동적으로 조절하는 LoRA 확장 기법논문: Adaptive Budget Allocation for Parameter-Efficien..

Topic 2026.02.12

P-Tuning v2

개요P-Tuning v2는 파라미터 효율적인 학습(Parameter-Efficient Tuning, PET) 기법 중 하나로, 사전 학습된 대형 언어 모델(LLM)의 파라미터를 고정한 채로 소량의 추가 파라미터만 학습해 특정 태스크에 최적화할 수 있는 기법이다. 특히 수십억 개 파라미터를 가진 LLM에 대해 GPU 메모리 부담을 줄이면서도 고성능을 유지할 수 있어 실제 산업 현장에서 주목받고 있다.1. 개념 및 정의 항목 설명 정의P-Tuning v2는 임베딩 레이어 대신 미세 조정 가능한 연속 벡터(prompt)를 삽입해 LLM의 추론 능력을 강화하는 방법목적대규모 모델의 파인튜닝 시 자원 사용 최소화 및 태스크 적응력 향상필요성전체 파라미터 튜닝 시 GPU 비용 증가 및 overfitting 발생 ..

Topic 2025.06.14

RLAIF (Reinforcement Learning from AI Feedback)

개요RLAIF(Reinforcement Learning from AI Feedback)는 인공지능 모델의 출력 품질을 향상시키기 위해 인간이 아닌 또 다른 AI의 피드백을 활용하는 강화 학습 기법입니다. 기존 RLHF(Human Feedback)의 확장 버전으로, 비용과 시간 소모가 큰 인간 피드백 대신 AI 평가자를 활용하여 대규모 스케일에서도 효과적인 모델 개선을 가능하게 합니다. OpenAI, Anthropic, DeepMind 등 주요 연구기관에서 실제 LLM 성능 개선에 채택하고 있으며, 차세대 AI 개발 전략의 핵심으로 부상하고 있습니다.1. 개념 및 정의 구분 설명 정의AI 모델의 출력을 또 다른 AI가 비교·평가한 결과를 바탕으로 정책 모델(policy)을 학습시키는 프레임워크목적인간 개..

Topic 2025.05.19
728x90
반응형