Topic

지지도(Support), 신뢰도(Confidence), 향상도(Lift)

JackerLab 2025. 4. 20. 05:23
728x90
반응형

개요

연관분석에서 핵심이 되는 세 가지 지표, 지지도(Support), 신뢰도(Confidence), 향상도(Lift)는 의미 있는 연관 규칙을 선별하고 해석하는 데 필수적인 역할을 합니다. 이 포스트에서는 각 지표의 정의, 수식, 해석법, 예시를 중심으로 연관분석의 실무 적용력을 높이기 위한 가이드를 제공합니다.


1. 개념 및 정의

지지도, 신뢰도, 향상도는 연관 규칙의 유의미성을 정량적으로 평가하는 기준입니다.

  • 지지도(Support): 전체 거래 중 특정 항목 집합이 등장한 비율
  • 신뢰도(Confidence): A 항목이 포함된 거래 중 B 항목도 함께 등장한 비율
  • 향상도(Lift): A와 B가 독립일 때 대비 실제 함께 등장할 확률의 증가율

이들 지표는 마이닝 결과 중 노이즈를 제거하고, 인사이트 있는 규칙을 도출하는 데 활용됩니다.


2. 비교 및 관계

지표 수식 의미 판단 기준  
지지도 P(A ∩ B) 항목 A와 B가 함께 등장한 비율 높을수록 일반성 ↑  
신뢰도 P(B A) = P(A ∩ B) / P(A) A가 발생했을 때 B도 발생할 확률 높을수록 신뢰 ↑
향상도 P(B A) / P(B) = Confidence / P(B) A와 B가 독립이 아닐 확률 Lift > 1이면 양의 연관

세 지표는 함께 사용될 때 더욱 효과적이며, 단일 지표로는 판단이 어렵습니다.


3. 실전 예시

가상의 거래 데이터에서 아래와 같은 규칙이 발견되었다고 가정해봅니다:

  • 전체 거래 수: 1,000건
  • 우유(Milk) 구매: 400건
  • 빵(Bread) 구매: 300건
  • 우유와 빵 동시 구매: 200건
항목 해석
지지도 200 / 1000 = 0.2 전체 중 20%가 우유와 빵을 함께 구매
신뢰도 200 / 400 = 0.5 우유를 산 고객의 50%가 빵도 구매
향상도 0.5 / 0.3 ≒ 1.67 빵 단독 구매 대비 67% 더 많이 동시 구매

향상도가 1보다 크므로 우유와 빵은 양의 연관성을 가짐을 의미합니다.


4. 시각적 이해

시각화 요소 설명 활용 목적
Venn 다이어그램 A와 B의 교집합을 통해 지지도 표현 규칙 발생 빈도 시각화
막대 그래프 Confidence, Support, Lift 수치 비교 규칙 우선순위 결정
Lift 히트맵 항목 간 관계 강도 표현 상관성 중심의 규칙 필터링

지표 시각화는 결과 해석과 의사결정 지원에 매우 유용합니다.


5. 활용 전략 및 주의사항

전략 설명 주의사항
임계값 설정 Min Support / Min Confidence 기준 설정 너무 높으면 유의미한 규칙 누락 가능
다중 지표 병합 세 지표를 조합해 필터링 단일 지표 의존은 오판 위험 증가
도메인 전문가 해석 규칙 의미 해석에 전문가 의견 반영 수치만으로 판단 금물

분석 목적과 데이터 특성에 따라 유연한 기준 적용이 중요합니다.


6. 결론

지지도, 신뢰도, 향상도는 연관분석의 3대 핵심 지표로서, 연관 규칙의 중요도와 신뢰성을 평가하는 데 반드시 사용됩니다. 단순한 수치가 아닌, 그 안에 숨겨진 관계와 의미를 파악하는 것이 실전 데이터 분석의 핵심입니다. 각 지표를 정확히 이해하고 상황에 맞게 조합하여 활용하면 보다 강력한 데이터 기반 인사이트를 도출할 수 있습니다.

728x90
반응형

'Topic' 카테고리의 다른 글

SNA(Social Network Analysis)  (1) 2025.04.20
데이터 임퓨테이션(Data Imputation)  (0) 2025.04.20
연관분석(Association Analysis)  (0) 2025.04.20
Apriori Algorithm  (0) 2025.04.20
샤논의 정보 용량 이론(Information Capacity Theory)  (0) 2025.04.20