이 문서에서 하는 것
- 고급 설정과 RAG 비교 카드에서 청킹 관련 값을 어떻게 넣고, 결과를 어떻게 읽을지 안내해.
입력 위치
- 고급 설정 모드: chunk_size, chunk_overlap, max_chunks를 직접 입력해 기본값을 정의.
- RAG 비교 카드: 청킹 값은 공유되며, 검색/재랭크 파라미터만 좌·우로 다르게 줄 수 있다. 청킹을 바꿀 땐 업로드를 다시 돌린다.
기본 가이드
- chunk_size: 400~800 토큰으로 시작. 짧은 FAQ/QA는 300대, 설명서·교재는 800대까지 확장.
- chunk_overlap: 50~150 토큰으로 맥락 연결. 문단 구조가 잘 잡힌 문서는 overlap을 줄여 토큰 낭비를 막는다.
- max_chunks: 긴 문서를 다룰 때 컨텍스트 길이 폭주를 방지하는 안전장치로 설정.
문서 유형별 팁
- PDF 슬라이드/교안: 슬라이드마다 문단이 짧으니 chunk_size를 키우고 overlap을 최소화.
- FAQ/공지: Q-A 단위로 의미가 끊기면 chunk_size를 작게, overlap 50 이하로 설정.
- 코드/표 포함 문서: 파싱 후 프리뷰에서 깨진 구간이 있으면 chunk_size를 줄여 재업로드.
테스트 방법
- 기본값으로 업로드 후, 프리뷰에서 섹션 경계가 자연스러운지 확인.
- RAG 비교 카드에서 같은 검색 파라미터로 질문을 던지고, 근거 청크 길이/개수를 비교.
- 토큰/latency가 높으면 chunk_size를 줄이거나 max_chunks를 지정해 재인덱싱.
실패 패턴 & 대응
- 중복 청크: overlap 과다 → overlap을 절반으로 줄여 재업로드.
- 누락된 컨텍스트: chunk_size가 너무 작아 문맥이 끊김 → chunk_size/overlap을 함께 늘린다.
- 파싱 오류: 프리뷰에서 깨진다면 파일을 재저장하거나 페이지 범위를 잘라서 다시 올린다.
다음 문서
- /rag/search (검색 파라미터)
- /rag/threshold-topk (검색 필터링)
