728x90
반응형

경량llm 2

BitNet

개요BitNet은 고성능 AI 모델의 추론 효율성과 학습 속도를 개선하기 위해 고안된 신경망 구조로, 전체 모델 또는 주요 연산을 1~2비트 정밀도로 수행할 수 있도록 최적화된 비트 기반 인공신경망 아키텍처입니다. 특히 LLM, Vision Transformer 등 대형 모델에서도 적은 메모리와 연산량으로도 우수한 성능을 유지할 수 있도록 설계되었습니다.1. 개념 및 정의 항목 설명 정의1~2bit 정밀도로 연산을 수행하며, 메모리 사용량과 FLOPs를 최소화한 경량형 딥러닝 모델 아키텍처목적LLM 등의 대형 모델을 저자원 환경에서도 효율적으로 운영필요성대규모 모델의 고비용/저속 추론 문제 해결BitNet은 bfloat16, fp32 등 고정밀도 방식 대비 수십 배 더 효율적인 메모리·속도 구현 가능2..

Topic 2026.02.01

Small-Scale Scaling Laws

개요Small-Scale Scaling Laws는 소형 언어 모델(SLM) 훈련에서 관측되는 학습 곡선, 손실 감소 패턴, 일반화 성능 등을 바탕으로, 모델 규모와 성능 간의 관계를 수학적 또는 경험적으로 예측하는 이론적 프레임워크입니다. 기존의 대규모 모델에 국한되던 Scaling Laws를 수천만~수억 파라미터 범위에 최적화하여, 자원 효율적인 LLM 설계와 실험 설계에 중요한 통찰을 제공합니다.1. 개념 및 정의Small-Scale Scaling Laws는 상대적으로 작은 파라미터 수와 데이터 양으로 훈련된 모델에서 관찰된 경향을 기반으로, 더 큰 모델의 성능 또는 한계를 예측하려는 확률적·통계적 방법론입니다.핵심 정의: 손실 L(N, D, C)는 파라미터 수(N), 데이터 수(D), 계산량(C)에..

Topic 2025.05.22
728x90
반응형