728x90
반응형

ai 인프라 9

Mojo(Modular AI Programming Language)

개요Mojo는 Modular사가 공개한 차세대 프로그래밍 언어로, Python의 생산성과 C/C++ 수준의 시스템 성능을 동시에 제공하는 것을 목표로 한다. 특히 AI 및 머신러닝 워크로드에 최적화되어 있으며, MLIR(Multi-Level Intermediate Representation)을 기반으로 설계되어 컴파일 단계에서 고도화된 최적화를 수행한다. Python 문법과 높은 호환성을 유지하면서도 정적 타입 시스템과 메모리 제어 기능을 추가하여 고성능 연산 환경을 구현한다.1. 개념 및 정의Mojo는 AI 중심 워크로드를 위해 설계된 시스템 프로그래밍 언어로, Python 생태계를 확장하는 형태로 개발되었다. 인터프리터 기반 실행 모델의 한계를 극복하고, 컴파일 기반 아키텍처를 통해 GPU, TPU,..

Topic 2026.02.28

JAX Pallas(Custom Kernel DSL for JAX)

개요JAX Pallas는 Google JAX 생태계에서 고성능 커널을 직접 정의할 수 있도록 설계된 Python 기반 DSL(Domain-Specific Language)이다. 기존 XLA 컴파일러에 전적으로 의존하던 방식에서 벗어나, 개발자가 세밀한 메모리 제어 및 병렬 실행 구조를 정의할 수 있도록 지원한다. 특히 Mosaic GPU 및 TPU 아키텍처에 최적화된 저수준 연산을 구현할 수 있으며, Triton과 유사한 프로그래밍 모델을 JAX 내부로 통합한 것이 특징이다.1. 개념 및 정의JAX Pallas는 JAX의 고수준 함수형 인터페이스를 유지하면서도 CUDA 수준의 세밀한 제어를 가능하게 하는 커널 작성 프레임워크이다. JAX의 jit, vmap, pmap과 결합되어 자동 미분 및 벡터화와 자..

Topic 2026.02.27

PyTorch 2.x Inductor(PyTorch Compiler Backend)

개요PyTorch 2.x Inductor는 PyTorch 2.0부터 도입된 새로운 컴파일러 백엔드로, TorchDynamo와 AOTAutograd를 기반으로 그래프를 최적화하고 고성능 커널 코드로 변환하는 핵심 구성 요소이다. 기존 Eager Mode의 유연성을 유지하면서도 JIT 이상의 성능을 제공하는 것이 목표이며, GPU 및 CPU 환경에서 자동 커널 생성과 연산 퓨전을 통해 실행 속도를 대폭 향상시킨다. OpenAI Triton과 통합되어 CUDA 커널을 자동 생성하는 구조가 특징이다.1. 개념 및 정의PyTorch 2.x Inductor는 torch.compile() API 호출 시 활성화되는 컴파일 경로의 최종 코드 생성 단계(Backend Compiler)이다. TorchDynamo가 Pyt..

Topic 2026.02.27

Federated Feature Store (Feast FFS)

개요머신러닝의 성패는 양질의 피처(feature)를 얼마나 잘 관리하고 제공하느냐에 달려 있습니다. 특히 기업 간 협업, 데이터 거버넌스, 규제 환경 하에서는 중앙 집중형 피처 스토어만으로 한계가 존재합니다. 이러한 요구를 해결하기 위해 등장한 개념이 **Federated Feature Store (FFS)**입니다. Feast 기반의 Federated Feature Store는 분산된 데이터 소스와 협업 환경에서 피처를 안전하고 일관되게 관리할 수 있도록 설계된 차세대 피처 인프라입니다.1. 개념 및 정의Federated Feature Store(FFS)는 여러 조직이나 데이터 도메인에 분산되어 있는 피처 데이터를 중앙으로 이동시키지 않고도 통합적으로 관리, 조회, 활용할 수 있도록 지원하는 피처 관리..

Topic 2025.07.16

Feature Store 3.0

개요Feature Store 3.0은 머신러닝(ML) 및 인공지능(AI) 시스템에서 데이터 피처(feature)를 효율적으로 저장, 관리, 제공하는 기능을 넘어서, 실시간 처리, 세분화된 피처 거버넌스, 모델 재현성 확보까지 지원하는 차세대 피처 저장소 아키텍처다. MLOps와 실시간 예측을 지향하는 최신 인프라에 필수적인 컴포넌트로 주목받고 있다.1. 개념 및 정의Feature Store 3.0은 피처의 생성부터 제공까지 전 주기를 자동화하고, 실시간 스트리밍 데이터를 즉시 피처로 변환·저장·배포하는 기능을 갖춘 플랫폼이다. 기존 배치 중심의 피처 스토어를 넘어 온라인-오프라인 데이터 일관성과 고속 추론을 위한 피처 서빙까지 포괄한다.목적 및 필요성모델 성능 극대화 위한 최신 피처 제공모델 재현성과 버..

Topic 2025.07.08

Compute Express Link 3.1 (CXL 3.1)

개요CXL 3.1은 Compute Express Link(CXL) 표준의 최신 버전으로, 더 빠른 속도, 향상된 메모리 공유 모델, 고도화된 패브릭 아키텍처를 제공하여 고성능 컴퓨팅(HPC), AI/ML, 클라우드 데이터센터의 요구를 충족합니다. CXL 3.0의 주요 기능을 계승하면서도, 성능과 확장성을 극대화하기 위해 새로운 링크 프로토콜, 패브릭 관리 기능, 다중 토폴로지 지원 기능 등을 추가한 것이 특징입니다.1. 개념 및 정의CXL 3.1은 CPU, GPU, 메모리, DPU 등의 이기종 컴퓨팅 자원을 하나의 논리적 시스템처럼 구성할 수 있는 고속, 저지연 연결 패브릭을 구현합니다. 이 버전은 PCIe 6.0 기반 물리 계층 위에서 동작하며, 다음과 같은 핵심 개념을 강화합니다:패브릭 통신(Fabr..

Topic 2025.05.17

Compute Express Link (CXL)

개요**Compute Express Link(CXL)**는 고속, 저지연, 효율적인 CPU-가속기/메모리 간 상호 연결을 위한 개방형 인터페이스 표준으로, 인텔(Intel)을 중심으로 주요 반도체 기업들이 주도하고 있는 차세대 I/O 기술입니다. CXL은 PCIe 5.0 기반으로 설계되어 메모리 공유, 캐시 일관성 유지, 연산 자원의 유연한 확장을 가능하게 하며, AI/ML, HPC, 클라우드 환경에서 핵심 기술로 각광받고 있습니다.1. 개념 및 정의CXL은 CPU와 디바이스(메모리 확장 장치, GPU, SmartNIC 등) 간의 고속 데이터 전송 및 메모리 일관성 유지를 목표로 설계된 인터커넥트입니다. CXL은 세 가지 프로토콜을 하나의 물리적 인터페이스에서 지원합니다:CXL.io: PCIe와 동일한 ..

Topic 2025.05.17

NVSwitch

개요NVSwitch는 NVIDIA가 설계한 고속 GPU 인터커넥트 스위치로, 복수의 GPU를 단일 시스템 내에서 **풀 메쉬(Fully Connected Topology)**로 연결하여 고속 데이터 전송을 실현하는 핵심 기술입니다. 기존 NVLink보다 더욱 확장성 있고, 고대역폭 연결이 가능해 AI 모델 학습, HPC, 클라우드 데이터센터 환경에서 핵심적 역할을 수행합니다.1. 개념 및 정의NVSwitch는 NVIDIA의 고성능 스위칭 ASIC으로, 다수의 GPU를 고속으로 상호 연결하여 마치 하나의 통합 메모리 공간처럼 작동할 수 있도록 지원하는 장치입니다.목적: GPU 간 병렬 작업에서 발생하는 대역폭 병목 해결필요성: AI, 시뮬레이션, 과학계산 등에서 메모리 공유 및 대규모 연산 처리 가속화기반..

Topic 2025.05.06

NVLink

개요NVLink는 NVIDIA가 개발한 고속 GPU 인터커넥트 기술로, GPU 간 및 GPU-CPU 간 대역폭과 효율성을 획기적으로 향상시키는 것을 목표로 합니다. 기존의 PCIe 인터페이스의 한계를 극복하고, 대규모 병렬 컴퓨팅 환경에서 탁월한 성능을 발휘하며, AI, HPC(High Performance Computing), 데이터센터 환경에서 핵심적인 역할을 합니다.1. 개념 및 정의NVLink는 NVIDIA GPU 및 CPU 간의 고대역폭, 저지연의 직렬 인터커넥트 기술입니다. 멀티 GPU 환경에서 더 빠른 메모리 공유와 동기화가 가능하도록 설계되어, 데이터 병목을 최소화하고 GPU 간 협업 처리를 원활하게 해줍니다.목적: PCIe 대비 높은 대역폭을 제공하여 GPU 간 병렬 작업 최적화필요성: ..

Topic 2025.05.06
728x90
반응형