728x90
반응형

gpu최적화 4

LoRA-INT8

개요LoRA-INT8은 파라미터 효율 미세 조정 기술인 LoRA(Low-Rank Adaptation)와 INT8 정수 양자화를 결합한 LLM(대규모 언어 모델) 경량화 및 튜닝 기법이다. 적은 연산 자원으로도 기존 성능을 유지하면서 모델을 학습 또는 미세 조정할 수 있어, 비용 효율적 AI 서비스 구축에 매우 적합하다.1. 개념 및 정의 항목 설명 정의LLM의 고정된 파라미터에 LoRA를 적용하고, 전체 모델 가중치를 INT8로 양자화하여 미세 조정하는 방법목적메모리 사용량과 연산 비용을 최소화하면서도 성능을 유지하는 튜닝 방식 제공필요성GPU 메모리 한계, 클라우드 비용, 배포 효율성 등에 대한 실용적 대응 요구2. 특징특징설명기존 방법 대비 차별점저메모리 학습전체 파라미터가 아닌 LoRA 모듈만 학..

Topic 2025.07.18

GPU Fractional Scheduling

개요GPU Fractional Scheduling은 하나의 GPU 자원을 여러 워크로드 또는 사용자 간에 세분화하여 할당하고, 시간 또는 공간 기준으로 효율적으로 스케줄링하는 기술입니다. AI/ML 트레이닝 및 추론 워크로드, 클라우드 기반 모델 서비스 환경에서 GPU 활용률을 극대화하며 비용 효율성을 제공하는 핵심 전략으로 주목받고 있습니다.1. 개념 및 정의Fractional Scheduling은 물리적 GPU 장치를 가상적으로 분할하여 서로 다른 프로세스나 컨테이너가 GPU를 동시에 공유하게 하는 스케줄링 방식입니다.Fractional GPU: GPU 자원을 memory, SM(Core), compute time 등으로 쪼개어 사용Space Sharing: 다중 프로세스가 병렬로 실행 (MPS 기반..

Topic 2025.07.03

Flash-Attention

개요Flash-Attention은 GPU의 메모리 계층 구조에 최적화된 방식으로 Transformer 모델의 어텐션(attention) 연산을 효율화하여, 연산 속도는 빠르게, 메모리 사용량은 줄이는 혁신적인 알고리즘이다. 본 글에서는 Flash-Attention의 기술적 구조, 성능 비교, 주요 활용 사례 및 도입 시 고려사항 등을 다루어 대규모 AI 모델의 학습과 추론 성능을 개선하고자 하는 개발자와 연구자에게 실질적인 인사이트를 제공한다.1. 개념 및 정의 항목 설명 정의Flash-Attention은 GPU의 shared memory와 register를 활용해 attention 계산 중간 값을 저장하지 않고 직접 출력하는 방식으로 구현된 최적화된 attention 알고리즘이다.목적Transform..

Topic 2025.06.30

Mixed Precision Training(FP16/BF16)

개요Mixed Precision Training(혼합 정밀도 학습)은 딥러닝 모델 학습 시 다양한 정밀도의 숫자 타입(FP32, FP16, BF16)을 혼합 사용하여 학습 속도는 높이고 메모리 사용량은 줄이는 최적화 기법입니다. NVIDIA, Google 등 주요 AI 칩셋 제조사에서 지원하는 이 기술은, 모델 성능은 유지하면서도 GPU 활용도를 극대화할 수 있어 대규모 딥러닝 학습의 새로운 표준으로 자리 잡고 있습니다.1. 개념 및 정의Mixed Precision Training은 신경망의 연산 과정에서 **정밀도가 낮은 포맷(FP16 또는 BF16)**과 **기존의 32비트 부동소수점(FP32)**을 혼용하여 학습을 수행하는 기법입니다. 일반적으로는 다음 방식으로 사용됩니다:Forward/Backwa..

Topic 2025.04.09
728x90
반응형