이 문서에서 하는 것
- 프리뷰와 RAG 테스트 결과에 드러나는 출처 정보를 어떻게 설계하고, 무엇을 확인해야 신뢰를 확보할지 정리한다.
UI에서 확인할 수 있는 것
- 프리뷰 패널: 섹션 트리, 하이라이트, 원본 URL/파일명을 바로 본다.
- 테스트 결과: 응답 하단에 청크 스니펫과 출처 점수(유사도)가 표시된다. 좌/우 카드별로 비교 가능.
출처에 포함해야 하는 메타데이터
- 문서명/버전, 페이지 또는 청크 ID
- 스니펫(답변과 직접 연결되는 문장)
- 원본 링크(있다면)와 업로드 시각
- (선택) 유사도 점수: threshold 튜닝 시 유용
신뢰도 체크리스트
- 답변 문장과 출처 스니펫이 자연스럽게 이어지는가?
- 동일 파라미터에서 출처가 매 실행마다 바뀌지 않는가?
- 프리뷰 기준으로 누락/중복 섹션이 없는가?
- 외부 URL 크롤링 시 도메인 제한이 잘 적용되어 불필요한 링크가 섞이지 않았는가?
문제 해결
- 출처 불일치: chunk_size/overlap을 재조정하고 재인덱싱 후 다시 테스트.
- 출처가 너무 많음: top_k를 줄이거나 threshold를 올려 핵심 근거만 남긴다.
- 출처가 없음: threshold가 높아 모두 필터링되었을 수 있다. 값을 낮춰 재실행한다.
다음 문서
- /practice/cost-latency (비용·지연 관측 포인트)
