728x90
반응형

huggingface 6

Model Cards

개요Model Cards는 AI 및 머신러닝 모델의 기능, 한계, 윤리적 고려사항, 사용 권장 시나리오 등을 정형화된 형식으로 문서화한 정보 카드다. Google AI의 연구진이 제안한 이 개념은 AI 모델의 신뢰성, 투명성, 공정성, 안전성 등을 확보하기 위한 표준적 접근 방식으로, 모델 배포 및 활용 과정에서 발생할 수 있는 오해, 남용, 리스크를 사전에 방지하고자 한다.1. 개념 및 정의Model Cards는 AI/ML 모델의 메타데이터를 중심으로 모델 개발자, 사용자, 이해관계자에게 모델의 특성과 의도를 명확히 전달하는 문서이다. 주로 JSON, Markdown, PDF 형식으로 제공되며, 각 모델에 대한 사양, 훈련 데이터 정보, 성능 지표, 한계, 윤리적 고려사항, 사용 권장/비권장 사례 등이..

Topic 2025.06.23

Knowledge Distillation

개요Knowledge Distillation(지식 증류)은 성능이 우수한 대형 신경망(Teacher Model)에서 학습된 지식을 경량화된 소형 신경망(Student Model)으로 전이하여, 연산량은 줄이면서도 유사한 예측 성능을 유지하는 딥러닝 모델 최적화 기법입니다. AI 모델 경량화, Edge AI, 모바일 디바이스 추론 환경에서 실용성이 높으며, Transformer, CNN, LLM 등 다양한 구조에 적용됩니다.1. 개념 및 정의 항목 설명 정의Teacher 모델의 soft output(logit 또는 확률 분포)을 활용해 Student 모델을 학습시키는 전이 학습 방법목적모델 경량화 + 성능 유지(또는 손실 최소화)대표 분야이미지 분류, 객체 탐지, 자연어 처리, 대화형 AI기존 hard ..

Topic 2025.06.13

FlashAttention

개요FlashAttention은 GPU 메모리 대역폭을 효율적으로 활용하여 Transformer 모델의 Attention 연산을 빠르고 정확하게 수행할 수 있도록 설계된 메모리 최적화 기반의 고속 어텐션 알고리즘입니다. 기존의 Softmax Attention 구현 방식은 쿼리-키-값 연산 시 많은 중간 메모리를 생성하고 이를 반복적으로 읽고 쓰는 비효율적인 구조였으나, FlashAttention은 이 과정을 최소화하여 큰 시퀀스 길이에서도 속도와 정확성을 유지할 수 있도록 합니다.1. 개념 및 정의 항목 설명 정의FlashAttention은 CUDA 기반 커널을 활용하여 attention score와 softmax 계산을 메모리 낭비 없이 수행하는 고속 알고리즘입니다.목적Transformer의 memo..

Topic 2025.05.16

DreamBooth

개요DreamBooth는 소수의 사용자 이미지(3~5장)만으로도, 특정 인물이나 스타일을 기존 텍스트-이미지 확산 모델(Stable Diffusion 등)에 맞춤 학습시켜 개인화된 이미지 생성을 가능하게 하는 파인튜닝 기법입니다. 2022년 Google Research와 Boston University 연구팀이 발표한 이 기술은 사용자 고유의 특성을 보존하면서도 원하는 문맥에 맞는 이미지 생성을 가능하게 하며, 팬아트, 게임 캐릭터, 패션, 브랜딩 등 다양한 분야에서 각광받고 있습니다.1. 개념 및 정의DreamBooth는 **사전 학습된 텍스트-이미지 생성 모델을 특정 개체(object, identity)에 대해 미세조정(fine-tune)**하여, 해당 개체가 다양한 문맥에 등장하는 이미지를 생성할 ..

Topic 2025.05.09

QLoRA (Quantized Low-Rank Adapter)

개요QLoRA(Quantized Low-Rank Adapter)는 대형 언어 모델(LLM)의 파인튜닝을 메모리 효율적이면서도 성능을 유지한 채 수행할 수 있는 혁신적인 방법입니다. 이름에서 알 수 있듯이, 이 기법은 **양자화(Quantization)**와 **로우랭크 어댑터(Low-Rank Adapter, LoRA)**를 결합하여, 저사양 환경에서도 대형 모델을 효과적으로 커스터마이징할 수 있게 합니다. Hugging Face와 Tim Dettmers 연구진이 2023년 제안했으며, 수백억 파라미터 모델의 경제적 활용을 가능하게 만든 대표 기술입니다.1. 개념 및 정의QLoRA는 다음 세 가지 핵심 기술을 결합한 파인튜닝 프레임워크입니다:4비트 양자화: 모델의 파라미터를 4-bit precision으로..

Topic 2025.05.08

DistilBERT

개요DistilBERT는 Google의 대표적인 자연어 처리(NLP) 모델인 BERT를 경량화한 모델로, Hugging Face에서 공개한 지식 증류(Knowledge Distillation) 기반의 사전학습 언어모델입니다. BERT의 약 40% 크기, 60% 빠른 속도를 유지하면서도, 97% 이상의 성능을 보장하는 DistilBERT는 모바일, 엣지 디바이스, 실시간 응답이 필요한 응용 시스템에 적합한 솔루션으로 각광받고 있습니다.1. 개념 및 정의DistilBERT는 기존 BERT 모델을 학생(Student) 모델, 원래의 BERT를 교사(Teacher) 모델로 설정하여, 교사의 지식을 학생 모델이 학습하는 Knowledge Distillation 기법을 사용해 개발되었습니다.학습 시 BERT의 중간..

Topic 2025.04.09
728x90
반응형