'2025/05/22 글 목록

Graph Contrastive Learning(GCL)

개요Graph Contrastive Learning(GCL)은 라벨이 없는 그래프 데이터를 효과적으로 활용하기 위해 개발된 자기지도학습(self-supervised learning) 프레임워크입니다. 기존의 그래프 신경망(GNN)이 라벨 기반 학습에 주로 의존했던 것과 달리, GCL은 그래프의 노드, 엣지, 서브그래프 간의 관계성을 기반으로 '양의 쌍(positive pair)'과 '음의 쌍(negative pair)'을 설정하고, 이들 간의 표현 차이를 극대화하는 방식으로 그래프 임베딩을 학습합니다.1. 개념 및 정의GCL은 그래프 내 또는 그래프 간 다양한 형태의 유사성과 비유사성을 학습하여, 라벨 없이도 효과적인 노드/그래프 수준 임베딩을 생성하는 학습 전략입니다.핵심 전략: contrastive ..

Topic 2025.05.22

Speculative Sampling

개요Speculative Sampling은 LLM 추론 시 디코딩 속도를 비약적으로 향상시키기 위한 전략으로, 빠르지만 부정확한 작은 모델(Speculator)이 후보 토큰 시퀀스를 먼저 생성하고, 이를 큰 모델(Main Model)이 검증하는 방식으로 작동합니다. 이중 추론 구조를 통해 정확도를 유지하면서도 지연 시간을 획기적으로 줄일 수 있어, 실시간 응답이 중요한 AI 서비스에 널리 활용됩니다.1. 개념 및 정의Speculative Sampling은 빠른 예측기(Speculator)와 정확한 검증기(Main LLM)의 조합을 활용해, 다수의 토큰을 한 번에 생성하고 이를 일괄적으로 검증하는 비동기적 디코딩 최적화 기법입니다.핵심 구조: Fast Draft → Selectively Accept → C..

Topic 2025.05.22

Flash Decoding

개요Flash Decoding은 LLM의 토큰 생성 속도를 획기적으로 향상시키기 위한 최신 디코딩 최적화 기술로, 추론 시 GPU 병목을 해소하고 응답 대기시간(latency)을 줄이는 데 초점을 맞춘 알고리즘입니다. 주로 실시간 챗봇, AI 비서, 스트리밍 생성형 AI 등에 적용되어 사용자 경험을 개선하고 서버 효율을 극대화합니다.1. 개념 및 정의Flash Decoding은 LLM의 디코딩 경로에서 계산 및 메모리 접근을 재구성하여, GPU 상에서 더 많은 병렬 처리를 가능하게 만드는 구조적 최적화 기법입니다.기본 구조: Non-AutoRegressive 디코딩 흐름에 가까운 최적화 구조핵심 전략: KV 캐시 재배열, Prefill/Decode 병렬화, 비동기 스트리밍 처리적용 범위: GPT 계열, ..

Topic 2025.05.22

Small-Scale Scaling Laws

개요Small-Scale Scaling Laws는 소형 언어 모델(SLM) 훈련에서 관측되는 학습 곡선, 손실 감소 패턴, 일반화 성능 등을 바탕으로, 모델 규모와 성능 간의 관계를 수학적 또는 경험적으로 예측하는 이론적 프레임워크입니다. 기존의 대규모 모델에 국한되던 Scaling Laws를 수천만~수억 파라미터 범위에 최적화하여, 자원 효율적인 LLM 설계와 실험 설계에 중요한 통찰을 제공합니다.1. 개념 및 정의Small-Scale Scaling Laws는 상대적으로 작은 파라미터 수와 데이터 양으로 훈련된 모델에서 관찰된 경향을 기반으로, 더 큰 모델의 성능 또는 한계를 예측하려는 확률적·통계적 방법론입니다.핵심 정의: 손실 L(N, D, C)는 파라미터 수(N), 데이터 수(D), 계산량(C)에..

Topic 2025.05.22

Phi-2

개요Phi-2는 Microsoft에서 개발한 2.7B 파라미터 규모의 경량 언어 모델로, 소형임에도 불구하고 다양한 벤치마크에서 중대형 모델을 능가하는 성능을 보이는 대표적인 '스몰 언어 모델(SLM)'입니다. 혁신적인 커리큘럼 학습 전략과 정제된 데이터셋을 기반으로 학습되어, 교육, 코딩, 논리추론 등 다양한 영역에서 고성능을 실현합니다.1. 개념 및 정의Phi-2는 학습 효율성과 품질 간의 최적 균형을 목표로 설계된 SLM으로, 특히 학습 데이터의 질과 구성 전략에 중점을 둔 모델입니다.모델 규모: 2.7B 파라미터 (Transformer 기반)학습 전략: 인위적 품질 필터링 + 커리큘럼 학습 + 중복 제거적용 영역: 교육적 질의응답, 수학 추론, 코딩, 자연어 이해 등2. 특징 항목 Phi-2 특..

Topic 2025.05.22

Auto-GPT Frameworks

개요Auto-GPT는 사용자가 지정한 고수준 목표를 LLM이 스스로 세분화하여 작업 계획을 수립하고, 도구를 사용하며, 반복적으로 평가·개선해가며 목표를 달성하는 '자율형 에이전트 시스템'의 대표적 구현 방식입니다. 다양한 프레임워크들이 오픈소스 기반으로 등장하고 있으며, 복잡한 다단계 작업을 자동화하려는 다양한 산업 현장과 개인 프로젝트에 빠르게 확산되고 있습니다.1. 개념 및 정의Auto-GPT Framework는 LLM 기반 에이전트가 인간의 간섭 없이 일련의 태스크를 순차적으로 실행하는 시스템을 구축할 수 있도록 도와주는 오케스트레이션 환경입니다.핵심 구성: 목표 설정 → 계획 수립 → 실행 → 메모리 갱신 → 평가 반복철학: 인간의 역할은 ‘지시’에 국한되고, 수행은 AI가 자동으로모델 기반: ..

Topic 2025.05.22

AgentBench

개요AgentBench는 대규모 언어 모델(LLM)의 실제 에이전트 수행 능력을 종합적으로 평가하기 위해 설계된 멀티태스크 벤치마크입니다. 단순 지식 회상이나 논리적 질의응답을 넘어, 다양한 환경에서의 문제 해결 능력, 협업, 도구 사용, 웹 인터페이스 조작 등 실제 작업 기반의 '에이전트 역할 수행 능력'을 정량화하고 비교할 수 있도록 설계되었습니다.1. 개념 및 정의AgentBench는 언어 모델이 다양한 도메인의 시뮬레이션 환경에서 실제 에이전트처럼 행동하는지 평가하는 프레임워크입니다.벤치마크 성격: 능동적 과제 해결, 다중 인터페이스 활용, 지능적 선택 평가목적: 실세계 태스크 기반의 LLM 에이전트 품질 측정범위: 8개 카테고리, 51개 에이전트 태스크로 구성2. 특징 항목 AgentBench..

Topic 2025.05.22

IA³(Input-Aware Adapter)

개요IA³(Input-Aware Adapter)은 사전 학습된 언어 모델(PLM)을 다양한 태스크에 효율적으로 적응시키기 위한 경량화 파인튜닝 전략으로, 입력에 따라 동적으로 조정되는 어댑터 파라미터를 통해 적은 학습 비용으로 높은 성능을 실현합니다. 기존의 Adapter 기법보다 더욱 파라미터 효율적이며, 자연어 처리(NLP), 음성 인식 등 다양한 분야에서 확장성과 실용성을 인정받고 있습니다.1. 개념 및 정의IA³는 입력 특성(input features)에 따라 학습 가능한 게이트(gating) 벡터를 사용해 Transformer 계층의 각 선형 연산에 스케일 파라미터를 곱함으로써 미세 조정을 수행합니다.핵심 원리: 입력 인식 스케일 벡터로 출력값 조정업데이트 대상: 어댑터 파라미터만 학습, 기존 ..

Topic 2025.05.22

BitFit(Bias Term Fine-Tuning)

개요BitFit(Bias Term Fine-Tuning)은 대규모 사전학습 언어모델(PLM)을 효율적으로 파인튜닝하기 위해 도입된 경량화 튜닝 전략입니다. 전체 모델의 수많은 파라미터 중 오직 '바이어스(bias)' 항목만을 조정함으로써 최소한의 학습으로도 우수한 성능을 확보할 수 있는 것이 특징입니다. 메모리·계산 효율을 극대화하면서도 성능 손실 없이 다양한 다운스트림 태스크에 적용 가능해, LLM 시대의 실용적 튜닝 전략으로 각광받고 있습니다.1. 개념 및 정의BitFit은 Fine-Tuning 대상 파라미터를 'bias' 항목으로 제한하고, 그 외의 가중치(weight)는 모두 동결(frozen)한 상태로 학습을 수행하는 방법입니다.기본 전략: 전체 모델 파라미터 중 bias 항목만 업데이트설계 철..

Topic 2025.05.22

Delta-Tuning

개요Delta-Tuning은 대규모 사전 학습 모델(PLM, Pretrained Language Model)을 다양한 다운스트림 태스크에 맞게 빠르고 효율적으로 적응시키기 위한 경량화 파인튜닝 기법입니다. 기존의 전체 파라미터 업데이트 방식(Fine-Tuning)과 달리, 모델 파라미터의 일부분만 조정하거나 새로운 적은 수의 파라미터만 추가 학습하여, 메모리 사용량을 줄이고 학습 속도를 향상시킵니다.1. 개념 및 정의Delta-Tuning은 ‘Δ(델타)’ 즉, 기존 사전 학습 모델에서의 변화량만 학습하는 접근 방식입니다.핵심 개념: 전체 모델 파라미터를 유지하고, 소량의 추가 파라미터만 학습기반 철학: 모델은 이미 일반적 표현을 학습했으므로, 적은 변화로도 태스크 적응 가능대상 모델: BERT, GPT,..

Topic 2025.05.22

FlashAttention-2

개요FlashAttention-2는 트랜스포머 기반 대규모 언어 모델(LLM)의 핵심 연산인 어텐션(Attention)을 메모리 효율적이고 빠르게 처리하기 위한 차세대 알고리즘입니다. 기존 FlashAttention의 속도 및 GPU 효율성 문제를 개선하면서, 다양한 시퀀스 길이 및 배치 구조에 대한 일반성을 확보하고, 학습 및 추론 성능을 모두 향상시키는 혁신적 어텐션 기법으로 주목받고 있습니다.1. 개념 및 정의FlashAttention-2는 어텐션 연산에서 메모리 접근을 최소화하고, 고속 버퍼 레벨에서 정확한 softmax 연산을 수행하여 연산 효율성을 극대화한 알고리즘입니다.기반 모델: 트랜스포머(Transformer) 아키텍처핵심 전략: 'tiling + recomputation + GPU-fr..

Topic 2025.05.22

일	월	화	수	목	금	토
				1	2	3
4	5	6	7	8	9	10
11	12	13	14	15	16	17
18	19	20	21	22	23	24
25	26	27	28	29	30	31

ITPE * JackerLab

2025/05/22 11

티스토리툴바