728x90
반응형

CUDA 2

FlashAttention

개요FlashAttention은 GPU 메모리 대역폭을 효율적으로 활용하여 Transformer 모델의 Attention 연산을 빠르고 정확하게 수행할 수 있도록 설계된 메모리 최적화 기반의 고속 어텐션 알고리즘입니다. 기존의 Softmax Attention 구현 방식은 쿼리-키-값 연산 시 많은 중간 메모리를 생성하고 이를 반복적으로 읽고 쓰는 비효율적인 구조였으나, FlashAttention은 이 과정을 최소화하여 큰 시퀀스 길이에서도 속도와 정확성을 유지할 수 있도록 합니다.1. 개념 및 정의 항목 설명 정의FlashAttention은 CUDA 기반 커널을 활용하여 attention score와 softmax 계산을 메모리 낭비 없이 수행하는 고속 알고리즘입니다.목적Transformer의 memo..

Topic 2025.05.16

통합 메모리 아키텍처(UMA, Unified Memory Architecture)

개요통합 메모리 아키텍처(UMA, Unified Memory Architecture)는 CPU와 GPU가 단일 메모리 공간을 공유하는 아키텍처로, 데이터 이동 비용을 줄이고 성능을 최적화하는 기술이다. 기존의 개별 메모리 시스템과 달리, UMA는 CPU와 GPU 간 메모리 복사를 최소화하여 고속 연산이 필요한 AI, 머신러닝, 그래픽 처리 등에 최적화되어 있다. 본 글에서는 UMA의 개념, 주요 특징, 장점과 한계, 활용 사례 및 미래 전망을 살펴본다.1. 통합 메모리 아키텍처(UMA)란?UMA는 CPU와 GPU가 별도의 메모리를 가지지 않고, 동일한 메모리 풀을 공유하는 아키텍처이다. 기존에는 CPU와 GPU가 각각 독립된 메모리를 사용하여 데이터를 주고받아야 했지만, UMA를 활용하면 데이터 복사 없..

Topic 2025.03.23
728x90
반응형