2024-2-DSCD-Synnovation-3

동국대학교 데이터 사이언스 캡스톤 디자인(졸업 프로젝트)을 진행하는 3조 Synnovation 팀 입니다.

🤖 주제: RAG를 활용한 보험문서 챗봇 만들기 프로젝트

참여기간
24.09.02~12.15

참여인원

이름	역할	깃헙 아이디
김용태	팀장, 파인튜닝 모델	YongTae0
김민지	RAG 모델	ggororok
박준하	서버 관리, 파인튜닝 모델	joonhai
원종철	RAG 모델	JongCheolWon

✨ 프로젝트 목표

1️⃣ RAG를 활용한 LLM 챗봇 모델 개발

1. RAG 사용의 적합성 평가

해당 모델(RAG)과 파인튜닝 LLM모델 성능 비교
보험 관련 질의에 대한 답변 정확도 평가

2. 학습 비용 및 시간 문제 해결

파인튜닝 모델 대비 RAG의 비율, 시간 절감 효과 확인

3. RAG 성능 일관성 평가

여러 보험문서(손해보험, 자동차보험)에도 RAG의 성능이 보장되는지 확인

2️⃣ Gradio를 통한 웹 애플리케이션 개발

1. 보험에 대해 잘 모르는 사람을 위한 기능

용어사전 링크 제공

2. 보험 정보에 대해 구체적으로 알아보고 싶은 사람을 위한 기능

사용자 로그인 기능
가입한 보험 선택 목록 조회

🧑🏻‍💻 분석 및 모델링 과정

1️⃣ RAG 모델 구축

문서 저장 기능: FAISS 벡터 데이터베이스를 통해 저장
문서 검색 기능: 의미 검색 방식과 키워드 검색 방식을 겷바한 하이브리드 검색 방식 활용
- 의미 검색: 보험 문서 임베딩 -> 유클리드 거리와 KNN을 활용하여 유사도
- 키워드 검색: bm25_retriever를 통해 유사한 문서 추출
검색 성능 평가: 최적의 검색 비율 설정
- context(청크)별로 200개의 QA 데이터셋 생성
- 예측된 답변이 같은 context를 참조하는지 평가
- Hit Rate(적중률), MAP(평균 정밀도), MRR(관련성), NDCG 지표 활용 평가
답변 생성 기능: LLM + 프롬프트 + RAG 파이프라인 구성
답변 성능 평가
- QA 데이터셋을 활용하여 예측답변와 ANSWER답변 유사도 비교
- Bert-Score, Cross-Encoder 지표 활용 평가
gradio 연결: gradio를 통해 데모 UI 구축

2️⃣ 파인튜닝 모델 구축

학습 데이터 전환: pdf를 JSON 파일로 변환
학습 파라미터 설정: 제한된 환경 내에서 최적의 값으로 설정
답변 성능 평가
- QA 데이터셋을 활용하여 예측답변와 ANSWER답변 유사도 비교
- Bert-Score, Cross-Encoder 지표 활용 평가

3️⃣ RAG모델과 파인튜닝 모델 성능 비교

답변 평가:
시간 절감 효과:

4️⃣ 타보험문서에 RAG 챗봇 적용

타보험문서(손해, 자동차)를 RAG 모델 챗봇에 적용
답변 성능 평가: 파인튜닝 모델과도 비교

Name		Name	Last commit message	Last commit date
Latest commit History 174 Commits
finetuning llm		finetuning llm
gradio		gradio
rag		rag
.gitignore		.gitignore
README.md		README.md

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Repository files navigation

2024-2-DSCD-Synnovation-3

🤖 주제: RAG를 활용한 보험문서 챗봇 만들기 프로젝트

✨ 프로젝트 목표

1️⃣ RAG를 활용한 LLM 챗봇 모델 개발

2️⃣ Gradio를 통한 웹 애플리케이션 개발

🧑🏻‍💻 분석 및 모델링 과정

데이터 분석 언어 및 라이브러리

About

Releases

Packages

Contributors 4

Languages

CSID-DGU/2024-2-DSCD-Synnovation-3

Folders and files

Latest commit

History

Repository files navigation

2024-2-DSCD-Synnovation-3

🤖 주제: RAG를 활용한 보험문서 챗봇 만들기 프로젝트

✨ 프로젝트 목표

1️⃣ RAG를 활용한 LLM 챗봇 모델 개발

2️⃣ Gradio를 통한 웹 애플리케이션 개발

🧑🏻‍💻 분석 및 모델링 과정

데이터 분석 언어 및 라이브러리

About

Resources

Stars

Watchers

Forks

Releases

Packages 0

Contributors 4

Languages

Packages