Skip to main content

이 문서에서 하는 것

  • Practice 세션에서 agent를 적용하고, 기본 모델 응답과의 차이를 품질·토큰·latency 기준으로 비교하는 절차를 정리해.

준비물

  • Practice 세션(새로 만들거나 기존 세션)
  • 사용할 agent 1~2개(또는 /agents/overview를 보고 새로 생성)
  • 비교용 질문 세트 5~10개

적용 흐름

  1. 세션 열기: Practice에서 질문 세트를 불러오거나 새로 만든다.
  2. agent 선택: 우측 패널 또는 상단 드롭다운에서 agent를 선택하고, 필요한 경우 system prompt/예시를 편집한다.
  3. RAG/도구 토글: agent가 요구하는 검색이나 도구 사용을 켜고 끈다. 기준선은 RAG/OFF + 도구/OFF.
  4. 실행 및 비교: 동일 질문을 baseline(에이전트 OFF)과 agent ON 상태로 실행해 응답, 토큰, latency를 기록한다.
  5. 리그레이션 방지: 품질이 좋아진 설정은 별도 세션으로 저장하거나, agent를 포크해 버전 관리한다.

기록할 지표

  • 품질: 형식/톤/금지 항목 준수 여부, hallucination 감소 여부.
  • 토큰/비용: system prompt와 few-shot 길이에 따른 prompt 토큰 증가 폭, RAG 컨텍스트 길이.
  • 지연시간: TTFT/전체 latency. rerank나 도구 호출을 켰을 때 증가폭을 기록.

관찰 포인트

  • 출력 안정성: 같은 질문에서 agent ON/OFF 응답 형식이 얼마나 달라지는지 확인.
  • 안전 규칙: 금지어, 답변 길이 제한 등 system prompt 규칙이 지켜지는지 체크.
  • 컨텍스트 사용: agent가 RAG 출처를 제대로 인용하는지(응답 하단 출처 확인).

자주 터지는 실수와 예방

  • 질문마다 파라미터/에이전트를 동시에 바꾸기 → 한 번에 하나만 바꾸고 로그에 남긴다.
  • few-shot 예시가 너무 길어 latency 폭증 → 예시는 1~3개, 형식 위주로 짧게.
  • 클래스별로 다른 agent를 혼용 → 세션명/노트에 사용 agent를 명시해 재현성을 확보.

다음 문서

  • /agents/overview (agent 구조와 권장 작성법)
  • /practice/evaluation (평가 지표/포맷 예시)