728x90
반응형

huggingface 12

PagedOptim

개요PagedOptim은 대규모 언어 모델(LLM)의 파인튜닝/훈련 과정에서 GPU 메모리를 효율적으로 활용하기 위한 페이징 기반 옵티마이저 구조를 갖춘 학습 최적화 프레임워크입니다. 기존 옵티마이저(Adam, AdamW 등)는 파라미터와 옵티마이저 상태(state)를 모두 GPU 메모리에 올려야 했지만, PagedOptim은 **옵티마이저 상태를 페이지 단위로 GPU-CPU/NVMe 간에 이동(페이징)**하여, 메모리 초과 없이 초대형 모델 훈련을 가능하게 합니다.1. 개념 및 정의 항목 내용 비고 정의옵티마이저 상태를 페이지 단위로 관리하며 GPU-CPU 간 페이징을 수행하는 옵티마이저 계층DeepSpeed/Colossal-AI 기반 구현 예 존재목적GPU 메모리 한계를 넘어 대규모 모델 훈련 가..

Topic 2026.02.13

lm-eval-harness

개요lm-eval-harness는 다양한 자연어 처리(NLP) 과제에 대해 LLM(Large Language Model)의 성능을 정량적으로 평가하기 위한 Python 기반 오픈소스 프레임워크입니다. EleutherAI에서 개발하였으며, GPT, LLaMA, PaLM, Claude, Mistral 등 다양한 언어 모델에 일관된 방식으로 벤치마크를 적용할 수 있는 범용 도구로 활용됩니다.1. 개념 및 정의 항목 내용 정의LLM의 언어 이해 및 생성 성능을 다양한 벤치마크를 통해 자동 평가하는 프레임워크목적모델 간 일관된 비교와 성능 추적, 학습 없이 추론(inference-only) 성능 확인필요성벤치마크마다 형식이 달라 생기는 평가 불일치를 통합하여 재현 가능한 실험 지원2. 주요 특징특징설명장점Pro..

Topic 2026.02.07

BGE(BGE Embedding Model)

개요BGE(Bidirectional Generative Embedding)는 텍스트 임베딩 품질 향상에 중점을 둔 오픈소스 문장 임베딩 모델 시리즈로, 검색(Retrieval), 분류(Classification), 랭킹(Ranking) 등 다양한 NLP 태스크에서 뛰어난 성능을 발휘합니다. Hugging Face 및 MTEB(Massive Text Embedding Benchmark)에서 상위권 성능을 기록하며, 다양한 언어와 태스크에 쉽게 활용될 수 있도록 설계되었습니다.1. 개념 및 정의 항목 설명 정의다양한 언어와 태스크에 대응 가능한 범용 문장 임베딩 모델목적검색 정확도와 표현력 높은 임베딩 벡터 생성필요성RAG, Semantic Search, 분류 등에서의 표현 품질 개선BGE는 '텍스트 → ..

Topic 2026.01.31

TGI (Text Generation Inference)

개요TGI(Text Generation Inference)는 Hugging Face에서 개발한 대규모 언어 모델(LLM) 전용 추론 서버로, 효율적이고 확장 가능한 텍스트 생성 서비스를 제공하기 위한 고성능 인퍼런스(추론) 엔진입니다. GPT, LLaMA, Falcon 등 다양한 모델을 지원하며, GPU 및 CPU 자원을 최적화하여 대규모 요청 처리에 적합한 분산형 아키텍처를 제공합니다.1. 개념 및 정의항목내용비고정의대규모 언어 모델의 텍스트 생성 작업을 고속으로 수행하는 인퍼런스 서버Hugging Face 오픈소스 프로젝트목적LLM을 위한 효율적 추론 환경 구축Latency 감소 및 Throughput 향상필요성ChatGPT, Copilot 등 LLM 서비스의 실시간 추론 수요 증가MLOps 및 AI..

Topic 2025.12.24

FlashAttention-3 (FA-3)

개요FlashAttention-3(FA-3)은 GPU에서 Transformer 모델의 어텐션 연산을 극한까지 최적화한 고성능 커널입니다. 기존의 FlashAttention 시리즈를 계승하여, 더 넓은 범위의 시나리오(예: Multi-query attention, grouped query attention 등)를 지원하며, 고속 처리와 낮은 메모리 사용량을 동시에 달성합니다. OpenAI, Meta, NVIDIA 등의 대형 LLM 연구에 필수적으로 적용되고 있으며, HuggingFace Transformers와도 완전하게 통합됩니다.1. 개념 및 정의항목설명정의FlashAttention-3는 GPU에서 어텐션 연산을 빠르게 수행하기 위한 CUDA 기반 커널입니다.목적Transformer 모델의 학습 속도 ..

Topic 2025.09.30

vLLM

개요vLLM은 대규모 언어 모델(LLM)의 실시간 추론 성능을 최적화하기 위해 설계된 오픈소스 추론 엔진입니다. Hugging Face Transformers 기반 모델을 중심으로 빠른 응답, 높은 GPU 활용률, 비동기 텍스트 스트리밍, 다중 사용자 요청 병렬 처리 등을 지원하며, 특히 Serve-ready LLM 시스템 구축에 강력한 기반을 제공합니다.이 글에서는 vLLM의 구조, 핵심 기술, 활용 사례 등을 통해 LLM 인프라스트럭처의 추론 효율성과 비용 최적화 전략을 소개합니다.1. 개념 및 정의 항목 설명 정의vLLM은 LLM 기반 모델을 위한 고성능 추론 엔진으로, 빠른 응답성과 GPU 자원 최적화를 지향합니다.목적다양한 사용자 요청을 빠르게 처리하며, GPU 활용률을 극대화한 대규모 추론 ..

Topic 2025.09.07

Model Cards

개요Model Cards는 AI 및 머신러닝 모델의 기능, 한계, 윤리적 고려사항, 사용 권장 시나리오 등을 정형화된 형식으로 문서화한 정보 카드다. Google AI의 연구진이 제안한 이 개념은 AI 모델의 신뢰성, 투명성, 공정성, 안전성 등을 확보하기 위한 표준적 접근 방식으로, 모델 배포 및 활용 과정에서 발생할 수 있는 오해, 남용, 리스크를 사전에 방지하고자 한다.1. 개념 및 정의Model Cards는 AI/ML 모델의 메타데이터를 중심으로 모델 개발자, 사용자, 이해관계자에게 모델의 특성과 의도를 명확히 전달하는 문서이다. 주로 JSON, Markdown, PDF 형식으로 제공되며, 각 모델에 대한 사양, 훈련 데이터 정보, 성능 지표, 한계, 윤리적 고려사항, 사용 권장/비권장 사례 등이..

Topic 2025.06.23

Knowledge Distillation

개요Knowledge Distillation(지식 증류)은 성능이 우수한 대형 신경망(Teacher Model)에서 학습된 지식을 경량화된 소형 신경망(Student Model)으로 전이하여, 연산량은 줄이면서도 유사한 예측 성능을 유지하는 딥러닝 모델 최적화 기법입니다. AI 모델 경량화, Edge AI, 모바일 디바이스 추론 환경에서 실용성이 높으며, Transformer, CNN, LLM 등 다양한 구조에 적용됩니다.1. 개념 및 정의 항목 설명 정의Teacher 모델의 soft output(logit 또는 확률 분포)을 활용해 Student 모델을 학습시키는 전이 학습 방법목적모델 경량화 + 성능 유지(또는 손실 최소화)대표 분야이미지 분류, 객체 탐지, 자연어 처리, 대화형 AI기존 hard ..

Topic 2025.06.13

FlashAttention

개요FlashAttention은 GPU 메모리 대역폭을 효율적으로 활용하여 Transformer 모델의 Attention 연산을 빠르고 정확하게 수행할 수 있도록 설계된 메모리 최적화 기반의 고속 어텐션 알고리즘입니다. 기존의 Softmax Attention 구현 방식은 쿼리-키-값 연산 시 많은 중간 메모리를 생성하고 이를 반복적으로 읽고 쓰는 비효율적인 구조였으나, FlashAttention은 이 과정을 최소화하여 큰 시퀀스 길이에서도 속도와 정확성을 유지할 수 있도록 합니다.1. 개념 및 정의 항목 설명 정의FlashAttention은 CUDA 기반 커널을 활용하여 attention score와 softmax 계산을 메모리 낭비 없이 수행하는 고속 알고리즘입니다.목적Transformer의 memo..

Topic 2025.05.16

DreamBooth

개요DreamBooth는 소수의 사용자 이미지(3~5장)만으로도, 특정 인물이나 스타일을 기존 텍스트-이미지 확산 모델(Stable Diffusion 등)에 맞춤 학습시켜 개인화된 이미지 생성을 가능하게 하는 파인튜닝 기법입니다. 2022년 Google Research와 Boston University 연구팀이 발표한 이 기술은 사용자 고유의 특성을 보존하면서도 원하는 문맥에 맞는 이미지 생성을 가능하게 하며, 팬아트, 게임 캐릭터, 패션, 브랜딩 등 다양한 분야에서 각광받고 있습니다.1. 개념 및 정의DreamBooth는 **사전 학습된 텍스트-이미지 생성 모델을 특정 개체(object, identity)에 대해 미세조정(fine-tune)**하여, 해당 개체가 다양한 문맥에 등장하는 이미지를 생성할 ..

Topic 2025.05.09

QLoRA (Quantized Low-Rank Adapter)

개요QLoRA(Quantized Low-Rank Adapter)는 대형 언어 모델(LLM)의 파인튜닝을 메모리 효율적이면서도 성능을 유지한 채 수행할 수 있는 혁신적인 방법입니다. 이름에서 알 수 있듯이, 이 기법은 **양자화(Quantization)**와 **로우랭크 어댑터(Low-Rank Adapter, LoRA)**를 결합하여, 저사양 환경에서도 대형 모델을 효과적으로 커스터마이징할 수 있게 합니다. Hugging Face와 Tim Dettmers 연구진이 2023년 제안했으며, 수백억 파라미터 모델의 경제적 활용을 가능하게 만든 대표 기술입니다.1. 개념 및 정의QLoRA는 다음 세 가지 핵심 기술을 결합한 파인튜닝 프레임워크입니다:4비트 양자화: 모델의 파라미터를 4-bit precision으로..

Topic 2025.05.08

DistilBERT

개요DistilBERT는 Google의 대표적인 자연어 처리(NLP) 모델인 BERT를 경량화한 모델로, Hugging Face에서 공개한 지식 증류(Knowledge Distillation) 기반의 사전학습 언어모델입니다. BERT의 약 40% 크기, 60% 빠른 속도를 유지하면서도, 97% 이상의 성능을 보장하는 DistilBERT는 모바일, 엣지 디바이스, 실시간 응답이 필요한 응용 시스템에 적합한 솔루션으로 각광받고 있습니다.1. 개념 및 정의DistilBERT는 기존 BERT 모델을 학생(Student) 모델, 원래의 BERT를 교사(Teacher) 모델로 설정하여, 교사의 지식을 학생 모델이 학습하는 Knowledge Distillation 기법을 사용해 개발되었습니다.학습 시 BERT의 중간..

Topic 2025.04.09
728x90
반응형