728x90
반응형

서브워드 2

BPE (Byte-Pair Encoding)

개요BPE(Byte-Pair Encoding)는 데이터 압축에서 유래한 알고리즘으로, 자연어 처리(NLP)에서 서브워드(subword) 기반 토크나이제이션(tokenization)에 널리 사용됩니다. 희귀어나 신조어를 작은 단위로 분해하여 OOV(Out-of-Vocabulary) 문제를 해결하고, 대규모 언어 모델 학습의 효율성을 높이는 핵심 기법입니다.1. 개념 및 정의 항목 설명 정의가장 자주 등장하는 문자 쌍을 병합해 서브워드를 생성하는 알고리즘데이터 압축 기법에서 확장목적희귀어 처리 및 어휘 집합 최적화NLP 토크나이제이션 활용필요성단어 기반 토크나이저의 한계 극복다국어·희귀어 처리 강화OOV 문제를 해결하기 위한 효율적 기법입니다.2. 특징특징설명비교빈도 기반 병합자주 등장하는 문자 쌍을 반..

Topic 2025.10.18

SentencePiece

개요SentencePiece는 구글에서 개발한 언어 독립적 서브워드 기반 토크나이저(tokenizer)로, 텍스트를 서브워드 단위로 분할하여 자연어 처리(NLP) 모델의 입력으로 활용할 수 있도록 합니다. 사전 정의된 단어 집합에 의존하지 않고, 학습 데이터에서 직접 서브워드를 생성하기 때문에 다양한 언어와 문자 체계에 적용 가능합니다.1. 개념 및 정의 항목 설명 비고 정의언어 비종속적인 서브워드 토크나이저 및 디토크나이저구글 오픈소스 프로젝트목적단어 집합에 없는 OOV(Out-of-Vocabulary) 문제 해결서브워드 분할 방식필요성언어적 특성이 다른 다국어 모델 학습 지원번역, 언어모델, 음성인식 활용다국어 환경에서도 활용 가능한 범용 토크나이저입니다.2. 특징특징설명비교언어 독립성공백이나 언..

Topic 2025.10.18
728x90
반응형