Step 3: 지식베이스 개요
기능 소개
지식베이스는 문서를 업로드하고 AI 대화에서 참조하는 기술입니다. RAG(Retrieval-Augmented Generation, 검색 증강 생성)를 통해 나만의 문서 저장소를 구축할 수 있습니다.- 지원 파일 형식: PDF, DOCX, Text, CSV, MD
AI는 학습되지 않은 내부 자료, 최신 문서, 회사 규정 등을 알지 못합니다. 지식베이스에 문서를 등록하면 AI가 해당 문서를 참조하여 정확한 답변을 제공합니다.
지식베이스 설정 방식 비교
- 기본 (Basic) — 권장
- 옵션 (고급)
초심자 및 일반 사용자를 위한 설정 방식입니다.
- 파일 업로드 → 기본 설정(권장값)으로 생성
- AI 실습에서 문서 참조하여 바로 활용
- 별도의 파라미터 조정 없이 즉시 사용 가능
청크 개념
지식베이스를 이해하려면 **청크(Chunk)**와 청킹(Chunking) 개념을 알아야 합니다.| 용어 | 설명 |
|---|---|
| 청크(Chunk) | 문서를 나눈 조각 하나하나. AI는 100페이지 전체가 아니라 질문과 관련된 ‘청크’를 찾아 답변에 활용합니다. |
| 청킹(Chunking) | 문서를 AI가 검색하기 좋은 크기로 나누는 과정. 챕터나 문단 단위로 나누면 검색 정확도가 높아집니다. |
비유: 책 전체를 던져주는 것 vs 필요한 페이지만 펼쳐주는 것의 차이입니다.
지식베이스 생성 4단계
핵심 기술 용어
임베딩 (Embedding)
임베딩 (Embedding)
텍스트를 AI가 이해할 수 있는 숫자(벡터)로 변환하는 과정입니다.
- 기본값:
text-embedding-3-small - 의미적으로 유사한 텍스트는 벡터 공간에서 가까이 위치하게 됩니다.
리랭크 (Rerank)
리랭크 (Rerank)
검색된 결과의 순위를 다시 매겨 정확도를 높이는 과정입니다.
- 기본값:
BAAI/bge-reranker-v2-m3 - 1차 검색 결과를 재정렬하여 가장 관련성 높은 청크를 상위로 올립니다.
청크 중첩 (Overlap)
청크 중첩 (Overlap)
문서 분할 시 문맥 단절을 방지하기 위해 인접 청크 간 내용을 겹치게 하는 설정입니다.
- 예시: “사과는 맛있다”가 잘리는 것을 막고 양쪽 청크 모두 온전한 문맥을 포함합니다.
청킹 설정 상세
| 설정 항목 | 권장값 | 설명 |
|---|---|---|
| 청킹 방식 | 일반 | 일반 또는 Parents-Child 중 선택 |
| 최대 길이 | 800 | 청크 하나의 최대 토큰 수 |
| 중첩(Overlap) | 200 | 인접 청크 간 겹치는 토큰 수 |
검색 파라미터 설정
| 파라미터 | 설명 | 튜닝 팁 |
|---|---|---|
| Top-K | 검색할 청크 개수 | 5~7개 적당. 높이면 정보 누락 줄지만 노이즈 증가 |
| 유사도 임계값 | 최소 유사도 기준 | 높이면(0.8) 정확하지만 놓칠 수 있음. 낮추면(0.5) 범위 넓지만 엉뚱한 내용 가능 |
비교 모드 (Comparison Mode)
지식베이스의 비교 모드에서는 3가지 응답 방식을 나란히 비교할 수 있습니다.| 모드 | 설명 |
|---|---|
| 순수 LLM | 외부 문서 참조 없이 AI 모델이 기본 지식만으로 응답 |
| 문서 참조 | 기본(권장) RAG 설정으로 질문 |
| RAG 설정 | 세부 파라미터를 직접 조절 |
추천 비교 조합
- 순수 LLM vs 문서 참조 → RAG 효과(할루시네이션 감소) 체험
- 문서 참조 vs RAG 설정 → 파라미터 튜닝 효과 비교
- Top-K 3개 vs Top-K 10개 → 검색 범위에 따른 정확도 차이 확인
활용 전 VS 후 예시
- 지식베이스 없이
- 지식베이스(RAG) 활용
질문: “우리 회사 연차 사용 규정이 어떻게 돼?”답변: “일반적으로 연차는 근로기준법에 따라 1년 근속 시 15일이 부여됩니다. 회사마다 규정이 다를 수 있으니 정확한 내용은 인사팀에 문의해보세요.”