Skip to main content

이 문서에서 하는 것

  • 프리뷰와 RAG 테스트 결과에 드러나는 출처 정보를 어떻게 설계하고, 무엇을 확인해야 신뢰를 확보할지 정리한다.

UI에서 확인할 수 있는 것

  • 프리뷰 패널: 섹션 트리, 하이라이트, 원본 URL/파일명을 바로 본다.
  • 테스트 결과: 응답 하단에 청크 스니펫과 출처 점수(유사도)가 표시된다. 좌/우 카드별로 비교 가능.

출처에 포함해야 하는 메타데이터

  • 문서명/버전, 페이지 또는 청크 ID
  • 스니펫(답변과 직접 연결되는 문장)
  • 원본 링크(있다면)와 업로드 시각
  • (선택) 유사도 점수: threshold 튜닝 시 유용

신뢰도 체크리스트

  • 답변 문장과 출처 스니펫이 자연스럽게 이어지는가?
  • 동일 파라미터에서 출처가 매 실행마다 바뀌지 않는가?
  • 프리뷰 기준으로 누락/중복 섹션이 없는가?
  • 외부 URL 크롤링 시 도메인 제한이 잘 적용되어 불필요한 링크가 섞이지 않았는가?

문제 해결

  • 출처 불일치: chunk_size/overlap을 재조정하고 재인덱싱 후 다시 테스트.
  • 출처가 너무 많음: top_k를 줄이거나 threshold를 올려 핵심 근거만 남긴다.
  • 출처가 없음: threshold가 높아 모두 필터링되었을 수 있다. 값을 낮춰 재실행한다.

다음 문서

  • /practice/cost-latency (비용·지연 관측 포인트)