개요Tensor Parallelism(TP)은 대규모 신경망 학습 시 하나의 연산(예: 행렬 곱셈)을 여러 GPU로 나누어 처리하는 **모델 병렬화(Model Parallelism)**의 한 형태이다. TP는 특히 GPT, BERT, LLaMA와 같은 초거대 언어 모델(LLM) 학습에서 핵심 역할을 하며, GPU 메모리 한계를 극복하고 연산 속도를 향상시키기 위해 사용된다.1. 개념 및 정의Tensor Parallelism은 **단일 Layer 내의 텐서 연산을 여러 GPU로 분할(distribute)**하여 계산을 병렬화하는 기법이다. 예를 들어, 거대한 Weight Matrix(W ∈ R^{m×n})를 여러 GPU에 나누어 분할 저장하고, 입력 벡터에 대한 연산을 분산 수행한 후 결과를 통합(Gath..