Skip to main content

이 문서에서 하는 것

  • 고급 설정과 RAG 비교 카드에서 청킹 관련 값을 어떻게 넣고, 결과를 어떻게 읽을지 안내해.

입력 위치

  • 고급 설정 모드: chunk_size, chunk_overlap, max_chunks를 직접 입력해 기본값을 정의.
  • RAG 비교 카드: 청킹 값은 공유되며, 검색/재랭크 파라미터만 좌·우로 다르게 줄 수 있다. 청킹을 바꿀 땐 업로드를 다시 돌린다.

기본 가이드

  • chunk_size: 400~800 토큰으로 시작. 짧은 FAQ/QA는 300대, 설명서·교재는 800대까지 확장.
  • chunk_overlap: 50~150 토큰으로 맥락 연결. 문단 구조가 잘 잡힌 문서는 overlap을 줄여 토큰 낭비를 막는다.
  • max_chunks: 긴 문서를 다룰 때 컨텍스트 길이 폭주를 방지하는 안전장치로 설정.

문서 유형별 팁

  • PDF 슬라이드/교안: 슬라이드마다 문단이 짧으니 chunk_size를 키우고 overlap을 최소화.
  • FAQ/공지: Q-A 단위로 의미가 끊기면 chunk_size를 작게, overlap 50 이하로 설정.
  • 코드/표 포함 문서: 파싱 후 프리뷰에서 깨진 구간이 있으면 chunk_size를 줄여 재업로드.

테스트 방법

  1. 기본값으로 업로드 후, 프리뷰에서 섹션 경계가 자연스러운지 확인.
  2. RAG 비교 카드에서 같은 검색 파라미터로 질문을 던지고, 근거 청크 길이/개수를 비교.
  3. 토큰/latency가 높으면 chunk_size를 줄이거나 max_chunks를 지정해 재인덱싱.

실패 패턴 & 대응

  • 중복 청크: overlap 과다 → overlap을 절반으로 줄여 재업로드.
  • 누락된 컨텍스트: chunk_size가 너무 작아 문맥이 끊김 → chunk_size/overlap을 함께 늘린다.
  • 파싱 오류: 프리뷰에서 깨진다면 파일을 재저장하거나 페이지 범위를 잘라서 다시 올린다.

다음 문서

  • /rag/search (검색 파라미터)
  • /rag/threshold-topk (검색 필터링)