RAG 시스템 성능 평가 완벽 가이드: Faithfulness부터 Context Relevancy까지 심층 분석

LLM(Large Language Model)을 활용한 애플리케이션 개발이 시장의 주류 트렌드가 되면서, 단순히 "답변이 그럴듯해 보이는가?"라는 감성적 판단만으로는 서비스의 신뢰성을 담보할 수 없게 되었습니다. 특히 외부 지식을 활용하는 RAG(Retrieval-Augmented Generation) 시스템의 경우, 그 신뢰성 확보가 곧 비즈니스 성공과 직결됩니다.

하지만 RAG 시스템의 성능을 평가하는 것은 마치 블랙박스 속의 복잡한 기계를 해부하는 것과 같습니다. 단순히 최종 출력(Answer)만 비교하는 것은 마치 자동차의 최종 주행 속도만 측정하고 엔진의 효율성이나 변속기의 결함을 무시하는 것과 같습니다.

이 가이드는 LLM 기반 서비스를 개발하는 엔지니어와 데이터 사이언티스트를 위해, RAG 시스템의 성능을 측정 가능하고, 재현 가능하며, 개선 가능한 지표들로 분해하여 분석하는 실무적인 방법론을 제시합니다.

1. 왜 LLM의 '성능 평가'가 어려운가? (단순 정답 매칭의 함정)

LLM은 본질적으로 확률적 모델입니다. 동일한 프롬프트와 Context를 주더라도, 모델의 내부 상태나 샘플링 파라미터에 따라 미묘하게 다른 출력을 내놓을 수 있습니다. 이 때문에 전통적인 NLP 평가 지표들은 RAG 시스템에 적용하기 어렵습니다.

기존 평가 지표의 한계점

우리가 흔히 접하는 BLEU(Bilingual Evaluation Understudy)나 ROUGE(Recall-Oriented Graph Matching) 같은 지표들은 주로 **'참조 답변(Reference Answer)'**과 '생성된 답변(Generated Answer)' 간의 단어 중복도(Overlap)를 측정합니다.

문제점:

의미론적 차이 무시: 두 답변이 단어는 다르지만 의미는 100% 동일할 경우, 이 지표들은 낮은 점수를 줄 수 있습니다.
근거 기반 검증 불가: 이 지표들은 답변이 **'어디서 왔는지(Source)'**에 대한 검증 메커니즘을 제공하지 못합니다. RAG 시스템의 핵심은 '검색된 근거'를 바탕으로 답변하는 것이기 때문입니다.

따라서 우리는 LLM의 **'검증 가능성(Verifiability)'**과 **'투명성(Transparency)'**을 평가하는 방향으로 패러다임을 전환해야 합니다.

2. RAG 시스템 평가의 핵심 축 이해하기

RAG 시스템은 크게 두 단계로 나뉘며, 각 단계마다 다른 종류의 평가가 필요합니다.

RAG 평가 흐름도 (Conceptual Flow)

$$\text{Input (Query)} \xrightarrow{\text{Retriever}} \text{Context (Documents)} \xrightarrow{\text{Generator}} \text{Answer}$$

평가 단계	주요 목표	측정 대상	핵심 질문
검색 단계 (Retrieval)	질문에 가장 적합한 정보를 찾아내는가?	검색된 Context (문서 청크)	"질문에 답하는 데 필요한 정보가 Context에 포함되어 있는가?"
생성 단계 (Generation)	제공된 정보만으로 정확하고 완전하게 답변하는가?	최종 Answer	"Context에 근거하여, 질문의 의도를 놓치지 않고 답변했는가?"

이 두 축을 중심으로, 우리는 세 가지 핵심 지표를 집중적으로 분석해야 합니다.

3. 핵심 RAG 평가 지표 심층 분석 (이론 및 정의)

이 세 가지 지표는 서로 다른 결함을 진단합니다. 이 개념적 차이를 이해하는 것이 가장 중요합니다.

📚 비유로 이해하기: '요리 레시피'와 '실제 요리'

RAG 시스템을 **'요리사(LLM)'**가 **'레시피(Context)'**를 보고 **'요리(Answer)'**를 만드는 과정이라고 가정해 봅시다.

Faithfulness (충실성):
- 정의: 요리사가 만든 요리(Answer)의 모든 재료와 조리법이 **제공된 레시피(Context)**에 명시적으로 언급되어 있는가?
- 측정: 답변의 주장이 Context에 근거하는지 검증합니다. Context에 없는 내용을 답변에 포함하는 것은 '환각(Hallucination)'입니다.
- 실패 시나리오: 요리사가 "이건 특별히 트러플 오일을 넣어야 제맛이야"라고 말했는데, 레시피에 트러플 오일 언급이 전혀 없을 때.
Context Relevancy (문맥 관련성):
- 정의: 검색된 레시피(Context) 자체가 질문(Query)에 답하는 데 실질적으로 필요한 정보를 담고 있는가?
- 측정: 검색기가 질문과 동떨어진, 너무 광범위하거나 무관한 문서를 가져왔는지 평가합니다.
- 실패 시나리오: 사용자가 "오늘 날씨는 어때?"라고 물었는데, 검색기가 갑자기 '회사 연차 사용 규정'이라는 문서를 가져와서 요리사에게 준 경우.
Answer Relevancy (답변 적절성):
- 정의: 생성된 답변(Answer)이 질문(Query)의 **핵심 의도(Intent)**를 정확히 파악하고, 사용자가 정말 알고 싶어 하는 바를 다루고 있는가?
- 측정: Context가 완벽하고, 답변도 Context에 근거했더라도, 질문의 핵심을 놓치거나 너무 곁가지로 설명하는 경우를 잡아냅니다.
- 실패 시나리오: 사용자가 "A와 B의 차이점은 뭐야?"라고 물었는데, 답변이 A에 대한 설명만 길게 늘어놓고 B와의 비교점을 빠뜨린 경우.

📊 평가 지표의 점수 계산 로직 (개념적 접근)

이 지표들은 보통 0.0 (전혀 아님)부터 1.0 (완벽함) 사이의 점수로 계산됩니다.

Faithfulness Score: $\text{Score} = \frac{\text{Number of claims in Answer supported by Context}}{\text{Total number of claims in Answer}}$
Context Relevancy Score: $\text{Score} = \frac{\text{Number of retrieved chunks relevant to Query}}{\text{Total number of retrieved chunks}}$
Answer Relevancy Score: $\text{Score} = \frac{\text{Number of key intents addressed in Answer}}{\text{Total number of key intents in Query}}$

4. 실전 테스트 케이스 설계 및 비교 분석

이론을 실제 코드로 옮기려면, '어떤 실패 시나리오'를 테스트할지 설계하는 것이 가장 중요합니다.

🧪 필수 테스트 케이스 3가지 시나리오

다음 세 가지 케이스는 RAG 시스템의 취약점을 가장 잘 드러내는 대표적인 예시입니다.

Case 1: Faithfulness Failure (환각/Hallucination)

시나리오: Context에는 A와 B에 대한 정보만 있는데, 모델이 C라는 존재를 언급하며 답변함.
평가 지표: Context에 없는 정보를 생성했으므로 Faithfulness Score = 0 (또는 매우 낮음).

Case 2: Context Blindness Failure (맥락 무시)

시나리오: Context에 "A는 빨간색이다"라고 명시되어 있는데, 모델이 "A는 파란색이다"라고 답변함.
평가 지표: Context에 명시된 사실을 무시했으므로 Context Adherence Score = 0.

Case 3: Relevance Failure (관련성 부족)

시나리오: 질문은 '마케팅 전략'인데, Context는 '인사 규정'에 대한 내용만 가득함.
평가 지표: Context가 질문과 관련성이 낮으므로, 모델이 관련성 높은 정보를 찾아내지 못함.

🛠️ 평가 도구 활용 (RAG Evaluation)

이러한 평가를 자동화하기 위해, LangChain이나 LlamaIndex 같은 프레임워크에서 제공하는 RAG 평가 지표(Faithfulness, Context Relevancy 등)를 활용하여 정량적으로 점수를 매기는 것이 필수적입니다.

요약: RAG 시스템의 성능은 단순히 '답변이 그럴듯한가'가 아니라, **'제공된 근거(Context)에 기반하여, 질문의 의도에 맞는 정확한 정보를 추출했는가'**에 달려있습니다. 따라서 위에서 언급된 세 가지 관점(Faithfulness, Context Adherence, Relevance)을 모두 검증해야 합니다.

자주 묻는 질문 (FAQ)

Q. answer_relevancy는 무엇을 측정하나요? A. RAGAS의 answer_relevancy(답변 관련성)는 생성된 답변이 '질문에 얼마나 초점을 맞췄는지'를 측정합니다. 답변에서 역으로 질문을 여러 개 생성해 원 질문과의 임베딩 유사도로 점수화하며, 불필요하거나 겉도는 내용이 많으면 점수가 낮아집니다. faithfulness와 함께 보면 '근거에 맞으면서도 질문에 집중된' 답변인지 판단할 수 있습니다.

Q. faithfulness와 answer_relevancy 중 뭘 먼저 봐야 하나요? A. 환각이 문제면 faithfulness(답변이 검색 근거에 부합하는지), 답변이 장황하거나 겉도는 게 문제면 answer_relevancy를 우선합니다. 둘 다 낮으면 검색 품질(context_precision·recall)부터 점검하세요.

#RAG평가 #LLMEvaluation #AI엔지니어링 #데이터사이언스

✦ ✦ ✦

편집 검토 · Editorial Review

이 글은 AI 에이전트가 자료 조사와 1차 초안 작성을 담당하고, 사람 편집자가 사실관계·출처·톤과 맥락을 검토한 뒤 발행했습니다. 환경(OS·버전)에 따라 결과가 다를 수 있으니 적용 전 공식 문서를 함께 확인하세요. 오류를 발견하시면 이메일로 제보해 주세요 — 확인 후 신속히 정정합니다.

초안 · AI (Content Reviewer)·검토 · Nodelog 편집자·발행 · 2026년 6월 2일

관련 공식 문서pgvector 공식 저장소 ↗

운영·검토 방식 자세히 보기 →편집 정책 →

이 글이 도움이 되었나요?

첫 번째 댓글을 남겨보세요.

RAG 시스템 성능 평가 완벽 가이드: Faithfulness부터 Context Relevancy까지 심층 분석