728x90
반응형

텍스트 마이닝 2

Suffix Automaton

개요Suffix Automaton(접미사 오토마톤)은 문자열 내의 모든 부분 문자열(substring)을 표현할 수 있는 최소한의 결정적 유한 상태 기계(Deterministic Finite Automaton, DFA)이다. 특히 문자열 탐색, 패턴 매칭, 중복 서브스트링 계산 등에서 뛰어난 성능을 발휘하며, 알고리즘 대회 및 컴파일러, 생물정보학 등의 분야에서 널리 활용된다.1. 개념 및 정의Suffix Automaton은 주어진 문자열의 모든 접미사 및 부분 문자열을 상태와 전이로 표현하여, 빠른 문자열 탐색 및 비교 연산을 가능하게 하는 자료구조이다.목적: O(n) 시간 복잡도로 substring 쿼리 처리 가능필요성: 패턴 검색, 중복 검출 등에서 Trie나 Suffix Tree 대비 공간 효율성..

Topic 2025.05.10

TF-IDF (Term Frequency - Inverse Document Frequency)

개요TF-IDF(Term Frequency - Inverse Document Frequency)는 문서에서 특정 단어의 중요도를 평가하는 대표적인 자연어 처리(NLP) 기법입니다. 검색 엔진, 문서 분류, 키워드 추출 등의 다양한 분야에서 활용되며, 특정 단어가 문서에서 얼마나 중요한지를 정량적으로 측정할 수 있도록 합니다. 본 글에서는 TF-IDF의 개념, 수식, 활용 사례 및 최신 동향을 살펴봅니다.1. TF-IDF란?TF-IDF는 문서에서 단어의 출현 빈도를 기반으로 해당 단어의 상대적인 중요도를 평가하는 방법입니다. 이는 두 가지 요소로 구성됩니다. 구성 요소 설명 TF (Term Frequency, 단어 빈도)특정 단어가 한 문서에서 얼마나 자주 등장하는지 측정IDF (Inverse Docum..

Topic 2025.03.11
728x90
반응형