이 문서에서 하는 것
- top_k/threshold 조합을 상황별로 고르고, RAG 비교 카드에서 바로 시험하는 방법을 적어둔다.
기본 원칙
- top_k는 후보 폭, threshold는 필터 강도다. 둘 중 하나만 크게 조정해도 컨텍스트 양이 크게 변한다.
- threshold가 높아질수록 retrieved_count가 급격히 줄 수 있으니 실시간으로 출처 개수를 확인한다.
추천 조합
- 정밀도 우선(시험/평가 자료): top_k 3
5 + threshold 0.30.5. 재랭킹을 켜서 근거 품질을 확보. - 재현율 우선(검색·브레인스토밍): top_k 8
15 + threshold 0.10.2. 재랭킹은 필요 시만 켜고, 컨텍스트 길이를 모니터링. - 혼합형(FAQ/공지): top_k 5
8 + threshold 0.150.3. 질문 난이도에 따라 threshold를 조금씩 올려본다.
튜닝 순서(현장용)
- top_k=5, threshold=0.15에서 시작.
- 노이즈가 많으면 threshold ↑, 정답을 놓치면 top_k ↑.
- latency/비용이 한계치를 넘으면 top_k를 되돌리거나 rerank를 끄고 다시 측정.
비교 테스트 팁
- 좌/우 카드에 서로 다른 조합을 넣고, 동일 질문을 실행해 retrieved_count·출처·latency를 표로 적어둔다.
- 한 번에 숫자 하나만 바꿔야 원인을 설명할 수 있다. top_k와 threshold를 동시에 바꾸지 말 것.
다음 문서
- /rag/rerank (재랭킹 on/off 판단 기준)
