728x90
반응형
개요
연관분석에서 핵심이 되는 세 가지 지표, 지지도(Support), 신뢰도(Confidence), 향상도(Lift)는 의미 있는 연관 규칙을 선별하고 해석하는 데 필수적인 역할을 합니다. 이 포스트에서는 각 지표의 정의, 수식, 해석법, 예시를 중심으로 연관분석의 실무 적용력을 높이기 위한 가이드를 제공합니다.
1. 개념 및 정의
지지도, 신뢰도, 향상도는 연관 규칙의 유의미성을 정량적으로 평가하는 기준입니다.
- 지지도(Support): 전체 거래 중 특정 항목 집합이 등장한 비율
- 신뢰도(Confidence): A 항목이 포함된 거래 중 B 항목도 함께 등장한 비율
- 향상도(Lift): A와 B가 독립일 때 대비 실제 함께 등장할 확률의 증가율
이들 지표는 마이닝 결과 중 노이즈를 제거하고, 인사이트 있는 규칙을 도출하는 데 활용됩니다.
2. 비교 및 관계
지표 | 수식 | 의미 | 판단 기준 | |
지지도 | P(A ∩ B) | 항목 A와 B가 함께 등장한 비율 | 높을수록 일반성 ↑ | |
신뢰도 | P(B | A) = P(A ∩ B) / P(A) | A가 발생했을 때 B도 발생할 확률 | 높을수록 신뢰 ↑ |
향상도 | P(B | A) / P(B) = Confidence / P(B) | A와 B가 독립이 아닐 확률 | Lift > 1이면 양의 연관 |
세 지표는 함께 사용될 때 더욱 효과적이며, 단일 지표로는 판단이 어렵습니다.
3. 실전 예시
가상의 거래 데이터에서 아래와 같은 규칙이 발견되었다고 가정해봅니다:
- 전체 거래 수: 1,000건
- 우유(Milk) 구매: 400건
- 빵(Bread) 구매: 300건
- 우유와 빵 동시 구매: 200건
항목 | 값 | 해석 |
지지도 | 200 / 1000 = 0.2 | 전체 중 20%가 우유와 빵을 함께 구매 |
신뢰도 | 200 / 400 = 0.5 | 우유를 산 고객의 50%가 빵도 구매 |
향상도 | 0.5 / 0.3 ≒ 1.67 | 빵 단독 구매 대비 67% 더 많이 동시 구매 |
향상도가 1보다 크므로 우유와 빵은 양의 연관성을 가짐을 의미합니다.
4. 시각적 이해
시각화 요소 | 설명 | 활용 목적 |
Venn 다이어그램 | A와 B의 교집합을 통해 지지도 표현 | 규칙 발생 빈도 시각화 |
막대 그래프 | Confidence, Support, Lift 수치 비교 | 규칙 우선순위 결정 |
Lift 히트맵 | 항목 간 관계 강도 표현 | 상관성 중심의 규칙 필터링 |
지표 시각화는 결과 해석과 의사결정 지원에 매우 유용합니다.
5. 활용 전략 및 주의사항
전략 | 설명 | 주의사항 |
임계값 설정 | Min Support / Min Confidence 기준 설정 | 너무 높으면 유의미한 규칙 누락 가능 |
다중 지표 병합 | 세 지표를 조합해 필터링 | 단일 지표 의존은 오판 위험 증가 |
도메인 전문가 해석 | 규칙 의미 해석에 전문가 의견 반영 | 수치만으로 판단 금물 |
분석 목적과 데이터 특성에 따라 유연한 기준 적용이 중요합니다.
6. 결론
지지도, 신뢰도, 향상도는 연관분석의 3대 핵심 지표로서, 연관 규칙의 중요도와 신뢰성을 평가하는 데 반드시 사용됩니다. 단순한 수치가 아닌, 그 안에 숨겨진 관계와 의미를 파악하는 것이 실전 데이터 분석의 핵심입니다. 각 지표를 정확히 이해하고 상황에 맞게 조합하여 활용하면 보다 강력한 데이터 기반 인사이트를 도출할 수 있습니다.
728x90
반응형
'Topic' 카테고리의 다른 글
SNA(Social Network Analysis) (1) | 2025.04.20 |
---|---|
데이터 임퓨테이션(Data Imputation) (0) | 2025.04.20 |
연관분석(Association Analysis) (0) | 2025.04.20 |
Apriori Algorithm (0) | 2025.04.20 |
샤논의 정보 용량 이론(Information Capacity Theory) (0) | 2025.04.20 |