RAGFlow
TokenMix LLM과 임베딩 모델로 지식베이스 Q&A를 구축하세요.
TokenMix 정보 준비
RAGFlow는 보통 두 종류의 모델이 필요합니다.
- Chat 모델 ID: 답변 생성용
- Embedding 모델 ID: 문서 파싱과 검색용
- API Key: TokenMix Key
- Base URL: https://api.tokenmix.ai/v1
UI에서 설정
- RAGFlow를 실행하고 로그인합니다.
- Model providers를 엽니다.
- OpenAI-API-Compatible을 선택합니다.
- Base URL에 https://api.tokenmix.ai/v1 을 입력합니다.
- API Key에 TokenMix Key를 입력합니다.
- Model에 TokenMix chat 모델 ID를 입력합니다.
- embedding 모델도 추가하고 TokenMix embedding 모델 ID를 입력합니다.
시작 전 기본 모델 설정
service_conf.yaml.template의 user_default_llm에서 기본 공급자를 TokenMix로 둘 수 있습니다.
user_default_llm:
factory: "OpenAI-API-Compatible"
api_key: "<your-tokenmix-key>"
base_url: "https://api.tokenmix.ai/v1"
변경 후 RAGFlow를 재시작합니다.
지식베이스 테스트
- dataset을 만듭니다.
- TokenMix embedding 모델과 chunk template을 선택합니다.
- 작은 PDF 또는 Markdown 하나만 업로드합니다.
- parsing 완료 후 Chat Assistant를 만듭니다.
- 테스트합니다.
Summarize the uploaded document in five bullet points.
한 dataset에서 파일을 파싱한 뒤에는 embedding 모델을 쉽게 바꾸지 마세요. 같은 벡터 공간을 유지해야 합니다.
문제 해결
- parsing이 멈춤: embedding 모델과 API Key를 확인하세요.
- 채팅은 되지만 문서 Q&A가 안 됨: embedding 또는 indexing 문제입니다.
- 404/model not found: chat 또는 embedding 모델 ID가 틀렸습니다.
- 검색 품질이 낮음: chunk template을 바꾸거나 새 dataset에서 embedding 모델을 다시 선택하세요.
설정 팁
RAGFlow는 일반 채팅 도구보다 설정이 많습니다. Chat 모델, Embedding 모델, Dataset, Chunk Template, parsing 상태를 따로 확인해야 합니다.
초보자 흐름
- 먼저 Chat 모델만 설정하고 일반 질문을 보냅니다.
- 그다음 Embedding 모델을 설정합니다. Chat 모델을 embedding에 넣지 마세요.
- 테스트 Dataset을 만들고 작은 파일 하나만 업로드합니다.
- parsing 완료 후 Chat Assistant를 만듭니다.
- 업로드한 문서에서만 답할 수 있는 구체적인 질문을 합니다.
모델 선택
- Chat 모델: 지시 이해가 좋은 TokenMix 텍스트 모델.
- Embedding 모델: TokenMix embedding 모델.
- 큰 문서: 작은 파일로 먼저 테스트.
- 다국어 문서: 해당 언어 검색에 맞는 embedding 모델.
Dataset에 파일을 parsing한 뒤 embedding 모델을 바꾸는 것은 피하고, 필요하면 새 Dataset을 만들어 다시 업로드하세요.
실무 메모
RAGFlow는 모델만 설정하면 끝나는 도구가 아닙니다. Chat 모델, Embedding 모델, Dataset, Chunk Template, Parsing 상태를 순서대로 확인해야 합니다.
초보자 체크리스트:
- Model providers에서 OpenAI-API-Compatible을 추가합니다.
- Chat 모델로 일반 질문이 응답되는지 확인합니다.
- Embedding 모델을 별도로 추가합니다.
- Dataset을 새로 만들고 작은 파일 하나만 업로드합니다.
- Parsing 완료를 확인한 뒤 Chat Assistant를 만듭니다.
- 문서 안에 있는 구체적인 정보를 질문합니다.
Embedding 모델은 검색 품질에 직접 영향을 줍니다. 공식 quickstart처럼 파일 parsing 후 embedding 모델을 바꾸는 것은 피하세요. 모델을 바꾸려면 새 Dataset을 만드는 편이 안전합니다.
초보자에게는 “파일 1개, Dataset 1개, Chat Assistant 1개”로 먼저 검증하라고 안내하세요. 처음부터 대량 PDF를 넣으면 API, embedding, chunk, 파일 형식 중 어디가 문제인지 찾기 어렵습니다.