728x90
반응형

2025/12/07 2

Tensor Parallelism (TP)

개요Tensor Parallelism(TP)은 대규모 신경망 학습 시 하나의 연산(예: 행렬 곱셈)을 여러 GPU로 나누어 처리하는 **모델 병렬화(Model Parallelism)**의 한 형태이다. TP는 특히 GPT, BERT, LLaMA와 같은 초거대 언어 모델(LLM) 학습에서 핵심 역할을 하며, GPU 메모리 한계를 극복하고 연산 속도를 향상시키기 위해 사용된다.1. 개념 및 정의Tensor Parallelism은 **단일 Layer 내의 텐서 연산을 여러 GPU로 분할(distribute)**하여 계산을 병렬화하는 기법이다. 예를 들어, 거대한 Weight Matrix(W ∈ R^{m×n})를 여러 GPU에 나누어 분할 저장하고, 입력 벡터에 대한 연산을 분산 수행한 후 결과를 통합(Gath..

Topic 2025.12.07

MLIR (Multi-Level Intermediate Representation)

개요MLIR(Multi-Level Intermediate Representation)은 Google이 TensorFlow/XLA 컴파일러 최적화를 위해 개발한 범용 컴파일러 인프라 구조로, 다양한 수준의 연산(High-Level → Low-Level)을 통합적으로 표현하고 최적화할 수 있는 중간 표현체계(IR)이다. MLIR은 단순히 TensorFlow 전용 기술이 아니라, **모든 도메인별 언어(DSL)**와 하드웨어 타깃 간의 다리 역할을 수행하는 범용 프레임워크로 발전하고 있다.1. 개념 및 정의MLIR은 이름 그대로 **‘다단계 중간 표현(Multi-Level IR)’**을 의미한다. 전통적인 컴파일러의 단일 IR 구조와 달리, MLIR은 서로 다른 수준의 추상화 계층(예: 그래프 수준, 연산 수..

Topic 2025.12.07
728x90
반응형