Topic

Self-consistency Prompting

JackerLab 2025. 4. 7. 03:27
728x90
반응형

개요

Self-consistency는 Chain-of-Thought(CoT) Prompting의 확장 기법으로, LLM이 생성한 다수의 응답 중에서 가장 일관되고 빈도 높은 정답을 선택하여 추론 정확도와 안정성을 높이는 전략입니다. 단일 응답에 의존하지 않고, 여러 번 추론을 수행한 뒤 그 중 가장 빈도 높은 결과(majority vote)를 최종 응답으로 채택함으로써, 특히 수학, 논리, 추론 등 고난도 문제에서 효과적인 성능을 보입니다.


1. 개념 및 정의

Self-consistency는 다음과 같은 과정으로 이루어집니다:

  1. Chain-of-Thought 방식으로 다양한 응답 샘플 생성 (sampling or temperature variation)
  2. 각 응답의 최종 정답만 추출 (step-by-step reasoning은 유지)
  3. 가장 많이 나온 정답을 선택하여 최종 결과로 사용

이 방식은 LLM이 다양한 “생각의 흐름”을 탐색할 수 있도록 하면서도, 통계적으로 일관된 추론을 유도합니다.


2. 특징

항목 설명 비고
다양성 기반 탐색 여러 경로의 추론을 수집 추론 오류 가능성 감소
확률적 샘플링 활용 temperature 설정 필요 deterministic 방식 아님
다수결 선택 최빈값 기반 정답 결정 보팅 기반 안정성 확보

Self-consistency는 한 번의 정답 생성보다, 여러 번의 생각이 더 낫다는 철학을 따릅니다.


3. 비교: CoT vs Self-consistency

항목 Chain-of-Thought Self-consistency
목적 추론 경로 유도 다수결 정답 선택
출력 횟수 1회 수 회 (5~20회 이상 권장)
정확도 향상 CoT보다 약 10~30%p 개선 가능 GPT-4 기준 95%+까지 도달 가능

CoT는 ‘하나의 사고 흐름’, Self-consistency는 ‘여러 흐름 중 일치한 것’을 채택합니다.


4. 적용 분야

분야 활용 사례 기대 효과
수학 문제 풀이 사칙연산, 방정식, 단위변환 수치 오류 감소, 정확도 향상
논리 추론 퍼즐, 조건 분기 문제 다중 해석 방지
과학 문답 단계적 사고 유도 문제 정답 도출 경로 다양성 확보
멀티호프 QA 복수 문단 기반 문제 정보 결합 일관성 강화

특히 CoT 기반 사전학습된 LLM(GPT-4, PaLM, Claude 등)에서 매우 뛰어난 성능을 보입니다.


5. 활용 예시

Q: 어떤 수에 4를 곱한 후 8을 더하면 20이 됩니다. 그 수는 무엇인가요?

샘플 1: x * 4 + 8 = 20 → x = 3
샘플 2: 4x + 8 = 20 → x = 3
샘플 3: Let’s solve step by step... → x = 3
최종 정답 (Self-consistency): 3

여러 CoT 추론 중 가장 자주 등장한 답을 선택합니다.


6. 구현 전략

  • temperature=0.7~1.0: 다양성 확보를 위한 샘플링 온도 조절
  • n=5~20: 응답 수 늘릴수록 안정성 증가
  • 답변 파싱 필수: 각 응답에서 정답만 추출할 수 있는 규칙 필요
  • Majority Vote vs Weighted Voting: 빈도 기반 또는 confidence 기반 보팅 가능

7. 장점 및 한계

항목 장점 한계
정답률 향상 CoT 단독보다 정확도 10~30% 향상 가능 수학/추론 문제에 특히 유효
신뢰성 강화 결과가 일관되어야 채택됨 튜닝 적절하지 않으면 noise 발생
해석력 보존 reasoning trace 유지 출력 parsing 로직 필요
한계 연산 비용 증가 응답 수 증가에 따른 지연 발생

8. 결론

Self-consistency는 Chain-of-Thought의 위력을 최대화하면서도 정답 안정성과 정확성을 동시에 향상시킬 수 있는 고급 프롬프트 전략입니다. 고난도 수학, 논리, 과학 등 고차 추론 문제에 매우 적합하며, 향후 Tool-augmented Agent, AI Tutor, 검증 가능한 LLM 시스템에서 핵심 추론 메커니즘으로 자리 잡을 것입니다.

728x90
반응형

'Topic' 카테고리의 다른 글

Instruction-based Prompting  (0) 2025.04.07
Role Prompting  (1) 2025.04.07
Chain-of-Thought (CoT) Prompting  (0) 2025.04.07
Few-shot Prompting  (0) 2025.04.07
Zero-shot Prompting  (1) 2025.04.07