Skip to main content

Step 3: 지식베이스 개요

기능 소개

지식베이스는 문서를 업로드하고 AI 대화에서 참조하는 기술입니다. RAG(Retrieval-Augmented Generation, 검색 증강 생성)를 통해 나만의 문서 저장소를 구축할 수 있습니다.
  • 지원 파일 형식: PDF, DOCX, Text, CSV, MD
AI는 학습되지 않은 내부 자료, 최신 문서, 회사 규정 등을 알지 못합니다. 지식베이스에 문서를 등록하면 AI가 해당 문서를 참조하여 정확한 답변을 제공합니다.

지식베이스 설정 방식 비교

초심자 및 일반 사용자를 위한 설정 방식입니다.
  • 파일 업로드 → 기본 설정(권장값)으로 생성
  • AI 실습에서 문서 참조하여 바로 활용
  • 별도의 파라미터 조정 없이 즉시 사용 가능
기본 설정으로도 충분히 활용 가능합니다. 옵션은 검색 정확도를 더 높이거나 특정 도메인 문서에 최적화가 필요할 때 조절하세요.

청크 개념

지식베이스를 이해하려면 **청크(Chunk)**와 청킹(Chunking) 개념을 알아야 합니다.
용어설명
청크(Chunk)문서를 나눈 조각 하나하나. AI는 100페이지 전체가 아니라 질문과 관련된 ‘청크’를 찾아 답변에 활용합니다.
청킹(Chunking)문서를 AI가 검색하기 좋은 크기로 나누는 과정. 챕터나 문단 단위로 나누면 검색 정확도가 높아집니다.
비유: 책 전체를 던져주는 것 vs 필요한 페이지만 펼쳐주는 것의 차이입니다.

지식베이스 생성 4단계

1

데이터 소스

지식베이스에 추가할 파일을 선택 또는 업로드합니다.
2

청킹 설정

문서를 어떻게 나눌지 설정합니다. 청킹 방식, 청크 길이 등을 지정합니다.
3

검색 설정

RAG 검색 방식과 파라미터를 설정합니다. Top-K, 유사도 등을 조절합니다.
4

미리보기

설정 내용을 확인한 후 생성을 완료합니다.

핵심 기술 용어

텍스트를 AI가 이해할 수 있는 숫자(벡터)로 변환하는 과정입니다.
  • 기본값: text-embedding-3-small
  • 의미적으로 유사한 텍스트는 벡터 공간에서 가까이 위치하게 됩니다.
검색된 결과의 순위를 다시 매겨 정확도를 높이는 과정입니다.
  • 기본값: BAAI/bge-reranker-v2-m3
  • 1차 검색 결과를 재정렬하여 가장 관련성 높은 청크를 상위로 올립니다.
문서 분할 시 문맥 단절을 방지하기 위해 인접 청크 간 내용을 겹치게 하는 설정입니다.
  • 예시: “사과는 맛있다”가 잘리는 것을 막고 양쪽 청크 모두 온전한 문맥을 포함합니다.

청킹 설정 상세

설정 항목권장값설명
청킹 방식일반일반 또는 Parents-Child 중 선택
최대 길이800청크 하나의 최대 토큰 수
중첩(Overlap)200인접 청크 간 겹치는 토큰 수

검색 파라미터 설정

파라미터설명튜닝 팁
Top-K검색할 청크 개수5~7개 적당. 높이면 정보 누락 줄지만 노이즈 증가
유사도 임계값최소 유사도 기준높이면(0.8) 정확하지만 놓칠 수 있음. 낮추면(0.5) 범위 넓지만 엉뚱한 내용 가능

비교 모드 (Comparison Mode)

지식베이스의 비교 모드에서는 3가지 응답 방식을 나란히 비교할 수 있습니다.
모드설명
순수 LLM외부 문서 참조 없이 AI 모델이 기본 지식만으로 응답
문서 참조기본(권장) RAG 설정으로 질문
RAG 설정세부 파라미터를 직접 조절

추천 비교 조합

  1. 순수 LLM vs 문서 참조 → RAG 효과(할루시네이션 감소) 체험
  2. 문서 참조 vs RAG 설정 → 파라미터 튜닝 효과 비교
  3. Top-K 3개 vs Top-K 10개 → 검색 범위에 따른 정확도 차이 확인

활용 전 VS 후 예시

질문: “우리 회사 연차 사용 규정이 어떻게 돼?”답변: “일반적으로 연차는 근로기준법에 따라 1년 근속 시 15일이 부여됩니다. 회사마다 규정이 다를 수 있으니 정확한 내용은 인사팀에 문의해보세요.”
수업 교재 PDF를 등록하여 학생들이 질문하게 하거나, 같은 질문을 ‘순수 LLM’ vs ‘문서 참조’ 모드로 비교하여 RAG의 필요성을 직접 체감하게 지도하세요.