728x90
반응형

gpu최적화 3

GPU Fractional Scheduling

개요GPU Fractional Scheduling은 하나의 GPU 자원을 여러 워크로드 또는 사용자 간에 세분화하여 할당하고, 시간 또는 공간 기준으로 효율적으로 스케줄링하는 기술입니다. AI/ML 트레이닝 및 추론 워크로드, 클라우드 기반 모델 서비스 환경에서 GPU 활용률을 극대화하며 비용 효율성을 제공하는 핵심 전략으로 주목받고 있습니다.1. 개념 및 정의Fractional Scheduling은 물리적 GPU 장치를 가상적으로 분할하여 서로 다른 프로세스나 컨테이너가 GPU를 동시에 공유하게 하는 스케줄링 방식입니다.Fractional GPU: GPU 자원을 memory, SM(Core), compute time 등으로 쪼개어 사용Space Sharing: 다중 프로세스가 병렬로 실행 (MPS 기반..

Topic 2025.07.03

Flash-Attention

개요Flash-Attention은 GPU의 메모리 계층 구조에 최적화된 방식으로 Transformer 모델의 어텐션(attention) 연산을 효율화하여, 연산 속도는 빠르게, 메모리 사용량은 줄이는 혁신적인 알고리즘이다. 본 글에서는 Flash-Attention의 기술적 구조, 성능 비교, 주요 활용 사례 및 도입 시 고려사항 등을 다루어 대규모 AI 모델의 학습과 추론 성능을 개선하고자 하는 개발자와 연구자에게 실질적인 인사이트를 제공한다.1. 개념 및 정의 항목 설명 정의Flash-Attention은 GPU의 shared memory와 register를 활용해 attention 계산 중간 값을 저장하지 않고 직접 출력하는 방식으로 구현된 최적화된 attention 알고리즘이다.목적Transform..

Topic 2025.06.30

Mixed Precision Training(FP16/BF16)

개요Mixed Precision Training(혼합 정밀도 학습)은 딥러닝 모델 학습 시 다양한 정밀도의 숫자 타입(FP32, FP16, BF16)을 혼합 사용하여 학습 속도는 높이고 메모리 사용량은 줄이는 최적화 기법입니다. NVIDIA, Google 등 주요 AI 칩셋 제조사에서 지원하는 이 기술은, 모델 성능은 유지하면서도 GPU 활용도를 극대화할 수 있어 대규모 딥러닝 학습의 새로운 표준으로 자리 잡고 있습니다.1. 개념 및 정의Mixed Precision Training은 신경망의 연산 과정에서 **정밀도가 낮은 포맷(FP16 또는 BF16)**과 **기존의 32비트 부동소수점(FP32)**을 혼용하여 학습을 수행하는 기법입니다. 일반적으로는 다음 방식으로 사용됩니다:Forward/Backwa..

Topic 2025.04.09
728x90
반응형