728x90
반응형

llm튜닝 2

P-Tuning v2

개요P-Tuning v2는 파라미터 효율적인 학습(Parameter-Efficient Tuning, PET) 기법 중 하나로, 사전 학습된 대형 언어 모델(LLM)의 파라미터를 고정한 채로 소량의 추가 파라미터만 학습해 특정 태스크에 최적화할 수 있는 기법이다. 특히 수십억 개 파라미터를 가진 LLM에 대해 GPU 메모리 부담을 줄이면서도 고성능을 유지할 수 있어 실제 산업 현장에서 주목받고 있다.1. 개념 및 정의 항목 설명 정의P-Tuning v2는 임베딩 레이어 대신 미세 조정 가능한 연속 벡터(prompt)를 삽입해 LLM의 추론 능력을 강화하는 방법목적대규모 모델의 파인튜닝 시 자원 사용 최소화 및 태스크 적응력 향상필요성전체 파라미터 튜닝 시 GPU 비용 증가 및 overfitting 발생 ..

Topic 2025.06.14

RLAIF (Reinforcement Learning from AI Feedback)

개요RLAIF(Reinforcement Learning from AI Feedback)는 인공지능 모델의 출력 품질을 향상시키기 위해 인간이 아닌 또 다른 AI의 피드백을 활용하는 강화 학습 기법입니다. 기존 RLHF(Human Feedback)의 확장 버전으로, 비용과 시간 소모가 큰 인간 피드백 대신 AI 평가자를 활용하여 대규모 스케일에서도 효과적인 모델 개선을 가능하게 합니다. OpenAI, Anthropic, DeepMind 등 주요 연구기관에서 실제 LLM 성능 개선에 채택하고 있으며, 차세대 AI 개발 전략의 핵심으로 부상하고 있습니다.1. 개념 및 정의 구분 설명 정의AI 모델의 출력을 또 다른 AI가 비교·평가한 결과를 바탕으로 정책 모델(policy)을 학습시키는 프레임워크목적인간 개..

Topic 2025.05.19
728x90
반응형