'distilbert' 태그의 글 목록

728x90

distilbert 3

개요대규모 언어 모델(LLM)이 혁신적 성능을 보이며 다양한 산업에서 활용되고 있지만, 계산 자원 요구량이 크고, 배포 및 운영에 어려움이 따르는 것이 현실입니다. 이에 대한 대안으로 주목받고 있는 것이 바로 **SLM(Small Language Model)**입니다. SLM은 파라미터 수를 줄이고 목적 지향적으로 설계된 경량 언어 모델로, 에지 컴퓨팅, 로컬 환경, 특정 도메인 활용에 최적화되어 점차 활용 범위를 넓혀가고 있습니다.1. 개념 및 정의SLM(Small Language Model)은 수억~수십억 개의 파라미터 수준으로 구성된 소형 언어 모델을 의미하며, GPT-4, LLaMA-3 등의 LLM과 비교해 경량화, 저전력, 빠른 추론 속도에 초점을 맞춘 자연어 처리 모델군입니다.SLM은 ‘범용’..

Topic 2025.08.23

Knowledge Distillation

개요Knowledge Distillation(지식 증류)은 성능이 우수한 대형 신경망(Teacher Model)에서 학습된 지식을 경량화된 소형 신경망(Student Model)으로 전이하여, 연산량은 줄이면서도 유사한 예측 성능을 유지하는 딥러닝 모델 최적화 기법입니다. AI 모델 경량화, Edge AI, 모바일 디바이스 추론 환경에서 실용성이 높으며, Transformer, CNN, LLM 등 다양한 구조에 적용됩니다.1. 개념 및 정의 항목 설명 정의Teacher 모델의 soft output(logit 또는 확률 분포)을 활용해 Student 모델을 학습시키는 전이 학습 방법목적모델 경량화 + 성능 유지(또는 손실 최소화)대표 분야이미지 분류, 객체 탐지, 자연어 처리, 대화형 AI기존 hard ..

Topic 2025.06.13

DistilBERT

개요DistilBERT는 Google의 대표적인 자연어 처리(NLP) 모델인 BERT를 경량화한 모델로, Hugging Face에서 공개한 지식 증류(Knowledge Distillation) 기반의 사전학습 언어모델입니다. BERT의 약 40% 크기, 60% 빠른 속도를 유지하면서도, 97% 이상의 성능을 보장하는 DistilBERT는 모바일, 엣지 디바이스, 실시간 응답이 필요한 응용 시스템에 적합한 솔루션으로 각광받고 있습니다.1. 개념 및 정의DistilBERT는 기존 BERT 모델을 학생(Student) 모델, 원래의 BERT를 교사(Teacher) 모델로 설정하여, 교사의 지식을 학생 모델이 학습하는 Knowledge Distillation 기법을 사용해 개발되었습니다.학습 시 BERT의 중간..

Topic 2025.04.09

250x250

ITPE * JackerLab

ITPE 관련 정보를 정리합니다.

Today :
Yesterday :

11-16 21:56

728x90

일	월	화	수	목	금	토
						1
2	3	4	5	6	7	8
9	10	11	12	13	14	15
16	17	18	19	20	21	22
23	24	25	26	27	28	29
30

distilbert 3

티스토리툴바