개요BPE(Byte-Pair Encoding)는 데이터 압축에서 유래한 알고리즘으로, 자연어 처리(NLP)에서 서브워드(subword) 기반 토크나이제이션(tokenization)에 널리 사용됩니다. 희귀어나 신조어를 작은 단위로 분해하여 OOV(Out-of-Vocabulary) 문제를 해결하고, 대규모 언어 모델 학습의 효율성을 높이는 핵심 기법입니다.1. 개념 및 정의 항목 설명 정의가장 자주 등장하는 문자 쌍을 병합해 서브워드를 생성하는 알고리즘데이터 압축 기법에서 확장목적희귀어 처리 및 어휘 집합 최적화NLP 토크나이제이션 활용필요성단어 기반 토크나이저의 한계 극복다국어·희귀어 처리 강화OOV 문제를 해결하기 위한 효율적 기법입니다.2. 특징특징설명비교빈도 기반 병합자주 등장하는 문자 쌍을 반..
                           
                        
 
                         
                         
                         
                         
                         
                         
                         
                         
                         
                         
                         
                         
                         
                        