'gpu최적화' 태그의 글 목록

PagedOptim

개요PagedOptim은 대규모 언어 모델(LLM)의 파인튜닝/훈련 과정에서 GPU 메모리를 효율적으로 활용하기 위한 페이징 기반 옵티마이저 구조를 갖춘 학습 최적화 프레임워크입니다. 기존 옵티마이저(Adam, AdamW 등)는 파라미터와 옵티마이저 상태(state)를 모두 GPU 메모리에 올려야 했지만, PagedOptim은 **옵티마이저 상태를 페이지 단위로 GPU-CPU/NVMe 간에 이동(페이징)**하여, 메모리 초과 없이 초대형 모델 훈련을 가능하게 합니다.1. 개념 및 정의 항목 내용 비고 정의옵티마이저 상태를 페이지 단위로 관리하며 GPU-CPU 간 페이징을 수행하는 옵티마이저 계층DeepSpeed/Colossal-AI 기반 구현 예 존재목적GPU 메모리 한계를 넘어 대규모 모델 훈련 가..

Topic 2026.02.13

FlashInfer

개요FlashInfer는 대규모 언어 모델(LLM)의 추론 성능을 획기적으로 개선하기 위해 설계된 CUDA 기반 시퀀스 추론 최적화 라이브러리입니다. 특히 KV 캐시(Key-Value Cache) 구조를 GPU 메모리 친화적으로 재설계하고, 토크나이즈된 입력의 반복적 연산을 줄임으로써 높은 속도와 낮은 지연(latency)을 동시에 제공합니다. FlashAttention2의 연산 최적화 기술을 활용합니다.1. 개념 및 정의 항목 설명 정의GPU 친화적으로 구현된 고속 시퀀스 추론 전용 LLM 추론 가속 엔진목적LLM 응답 생성 속도를 최대화하고 지연 시간 최소화필요성LLM의 실시간 대화 응답, RAG, 스트리밍 생성 등에서 추론 병목 해결FlashInfer는 inference 전용으로 설계되어 mult..

Topic 2026.02.01

PagedAttention

개요대규모 언어 모델(LLM, Large Language Model)의 성능은 빠르게 발전하고 있지만, 추론 시 필요한 메모리와 연산 자원은 여전히 큰 부담으로 작용합니다. 특히 긴 컨텍스트를 처리할 때 어텐션(attention) 메커니즘의 **KV-Cache(Key-Value Cache)**가 차지하는 메모리 사용량은 병목이 됩니다. 이를 해결하기 위한 혁신적 접근이 바로 PagedAttention입니다.1. 개념 및 정의PagedAttention은 KV-Cache를 페이지 단위로 관리하여 GPU 메모리와 CPU 메모리를 효율적으로 사용하는 어텐션 최적화 기법입니다. 운영체제의 가상 메모리 페이징 기법에서 착안하여, GPU 고속 메모리와 CPU 대용량 메모리 간의 동적 교환을 가능하게 합니다.주요 목적..

Topic 2025.09.15

LoRA-INT8

개요LoRA-INT8은 파라미터 효율 미세 조정 기술인 LoRA(Low-Rank Adaptation)와 INT8 정수 양자화를 결합한 LLM(대규모 언어 모델) 경량화 및 튜닝 기법이다. 적은 연산 자원으로도 기존 성능을 유지하면서 모델을 학습 또는 미세 조정할 수 있어, 비용 효율적 AI 서비스 구축에 매우 적합하다.1. 개념 및 정의 항목 설명 정의LLM의 고정된 파라미터에 LoRA를 적용하고, 전체 모델 가중치를 INT8로 양자화하여 미세 조정하는 방법목적메모리 사용량과 연산 비용을 최소화하면서도 성능을 유지하는 튜닝 방식 제공필요성GPU 메모리 한계, 클라우드 비용, 배포 효율성 등에 대한 실용적 대응 요구2. 특징특징설명기존 방법 대비 차별점저메모리 학습전체 파라미터가 아닌 LoRA 모듈만 학..

Topic 2025.07.18

GPU Fractional Scheduling

개요GPU Fractional Scheduling은 하나의 GPU 자원을 여러 워크로드 또는 사용자 간에 세분화하여 할당하고, 시간 또는 공간 기준으로 효율적으로 스케줄링하는 기술입니다. AI/ML 트레이닝 및 추론 워크로드, 클라우드 기반 모델 서비스 환경에서 GPU 활용률을 극대화하며 비용 효율성을 제공하는 핵심 전략으로 주목받고 있습니다.1. 개념 및 정의Fractional Scheduling은 물리적 GPU 장치를 가상적으로 분할하여 서로 다른 프로세스나 컨테이너가 GPU를 동시에 공유하게 하는 스케줄링 방식입니다.Fractional GPU: GPU 자원을 memory, SM(Core), compute time 등으로 쪼개어 사용Space Sharing: 다중 프로세스가 병렬로 실행 (MPS 기반..

Topic 2025.07.03

Flash-Attention

개요Flash-Attention은 GPU의 메모리 계층 구조에 최적화된 방식으로 Transformer 모델의 어텐션(attention) 연산을 효율화하여, 연산 속도는 빠르게, 메모리 사용량은 줄이는 혁신적인 알고리즘이다. 본 글에서는 Flash-Attention의 기술적 구조, 성능 비교, 주요 활용 사례 및 도입 시 고려사항 등을 다루어 대규모 AI 모델의 학습과 추론 성능을 개선하고자 하는 개발자와 연구자에게 실질적인 인사이트를 제공한다.1. 개념 및 정의 항목 설명 정의Flash-Attention은 GPU의 shared memory와 register를 활용해 attention 계산 중간 값을 저장하지 않고 직접 출력하는 방식으로 구현된 최적화된 attention 알고리즘이다.목적Transform..

Topic 2025.06.30

Mixed Precision Training(FP16/BF16)

개요Mixed Precision Training(혼합 정밀도 학습)은 딥러닝 모델 학습 시 다양한 정밀도의 숫자 타입(FP32, FP16, BF16)을 혼합 사용하여 학습 속도는 높이고 메모리 사용량은 줄이는 최적화 기법입니다. NVIDIA, Google 등 주요 AI 칩셋 제조사에서 지원하는 이 기술은, 모델 성능은 유지하면서도 GPU 활용도를 극대화할 수 있어 대규모 딥러닝 학습의 새로운 표준으로 자리 잡고 있습니다.1. 개념 및 정의Mixed Precision Training은 신경망의 연산 과정에서 **정밀도가 낮은 포맷(FP16 또는 BF16)**과 **기존의 32비트 부동소수점(FP32)**을 혼용하여 학습을 수행하는 기법입니다. 일반적으로는 다음 방식으로 사용됩니다:Forward/Backwa..

Topic 2025.04.09

일	월	화	수	목	금	토
1	2	3	4	5	6	7
8	9	10	11	12	13	14
15	16	17	18	19	20	21
22	23	24	25	26	27	28

ITPE * JackerLab

gpu최적화 7

티스토리툴바