728x90
반응형

huggingface 4

FlashAttention

개요FlashAttention은 GPU 메모리 대역폭을 효율적으로 활용하여 Transformer 모델의 Attention 연산을 빠르고 정확하게 수행할 수 있도록 설계된 메모리 최적화 기반의 고속 어텐션 알고리즘입니다. 기존의 Softmax Attention 구현 방식은 쿼리-키-값 연산 시 많은 중간 메모리를 생성하고 이를 반복적으로 읽고 쓰는 비효율적인 구조였으나, FlashAttention은 이 과정을 최소화하여 큰 시퀀스 길이에서도 속도와 정확성을 유지할 수 있도록 합니다.1. 개념 및 정의 항목 설명 정의FlashAttention은 CUDA 기반 커널을 활용하여 attention score와 softmax 계산을 메모리 낭비 없이 수행하는 고속 알고리즘입니다.목적Transformer의 memo..

Topic 2025.05.16

DreamBooth

개요DreamBooth는 소수의 사용자 이미지(3~5장)만으로도, 특정 인물이나 스타일을 기존 텍스트-이미지 확산 모델(Stable Diffusion 등)에 맞춤 학습시켜 개인화된 이미지 생성을 가능하게 하는 파인튜닝 기법입니다. 2022년 Google Research와 Boston University 연구팀이 발표한 이 기술은 사용자 고유의 특성을 보존하면서도 원하는 문맥에 맞는 이미지 생성을 가능하게 하며, 팬아트, 게임 캐릭터, 패션, 브랜딩 등 다양한 분야에서 각광받고 있습니다.1. 개념 및 정의DreamBooth는 **사전 학습된 텍스트-이미지 생성 모델을 특정 개체(object, identity)에 대해 미세조정(fine-tune)**하여, 해당 개체가 다양한 문맥에 등장하는 이미지를 생성할 ..

Topic 2025.05.09

QLoRA (Quantized Low-Rank Adapter)

개요QLoRA(Quantized Low-Rank Adapter)는 대형 언어 모델(LLM)의 파인튜닝을 메모리 효율적이면서도 성능을 유지한 채 수행할 수 있는 혁신적인 방법입니다. 이름에서 알 수 있듯이, 이 기법은 **양자화(Quantization)**와 **로우랭크 어댑터(Low-Rank Adapter, LoRA)**를 결합하여, 저사양 환경에서도 대형 모델을 효과적으로 커스터마이징할 수 있게 합니다. Hugging Face와 Tim Dettmers 연구진이 2023년 제안했으며, 수백억 파라미터 모델의 경제적 활용을 가능하게 만든 대표 기술입니다.1. 개념 및 정의QLoRA는 다음 세 가지 핵심 기술을 결합한 파인튜닝 프레임워크입니다:4비트 양자화: 모델의 파라미터를 4-bit precision으로..

Topic 2025.05.08

DistilBERT

개요DistilBERT는 Google의 대표적인 자연어 처리(NLP) 모델인 BERT를 경량화한 모델로, Hugging Face에서 공개한 지식 증류(Knowledge Distillation) 기반의 사전학습 언어모델입니다. BERT의 약 40% 크기, 60% 빠른 속도를 유지하면서도, 97% 이상의 성능을 보장하는 DistilBERT는 모바일, 엣지 디바이스, 실시간 응답이 필요한 응용 시스템에 적합한 솔루션으로 각광받고 있습니다.1. 개념 및 정의DistilBERT는 기존 BERT 모델을 학생(Student) 모델, 원래의 BERT를 교사(Teacher) 모델로 설정하여, 교사의 지식을 학생 모델이 학습하는 Knowledge Distillation 기법을 사용해 개발되었습니다.학습 시 BERT의 중간..

Topic 2025.04.09
728x90
반응형