DPS / 데이터 파이프라인 / RAG
사내 직원용 챗봇 구축 프로젝트
고객
1금융권 은행
분야
기업 내부 AI, 업무 자동화, 챗봇
유형
텍스트, 구조화 데이터, 전처리 시스템
LLM 고난도 문제 해결 성능 향상을 위한 학습 데이터셋 5,000건 +
LLM 고난도 문제 해결 성능 향상을 위한 학습 데이터셋 5,000건 +
AI학습데이터
RAG
문서구조화
전처리파이프라인
사내챗봇
메타데이터설계
Instruction데이터
AI학습데이터
RAG
문서구조화
전처리파이프라인
사내챗봇
메타데이터설계
Instruction데이터
프로젝트 개요
사내 문서의 AI 활용형 데이터 전환
약 7만 건 이상의 사내 문서를 생성형 AI가 활용할 수 있는 구조화 데이터로 전환하고 학습 데이터셋 구축
검색·QA 연계형 데이터 구조 설계
챗봇 서비스와 검색·QA 기능에 활용할 수 있도록 데이터 구조, 메타데이터, 인덱싱 체계 설계
지속 가능한 전처리 파이프라인 구축
문서 구조화부터 자동화 전처리, 학습·평가 연계까지 포함한 end-to-end 데이터 처리 체계 구축
사내 문서의 AI 활용형 데이터 전환
약 7만 건 이상의 사내 문서를 생성형 AI가 활용할 수 있는 구조화 데이터로 전환하고 학습 데이터셋 구축
검색·QA 연계형 데이터 구조 설계
챗봇 서비스와 검색·QA 기능에 활용할 수 있도록 데이터 구조, 메타데이터, 인덱싱 체계 설계
지속 가능한 전처리 파이프라인 구축
문서 구조화부터 자동화 전처리, 학습·평가 연계까지 포함한 end-to-end 데이터 처리 체계 구축
문제점
1. 사내 문서의 구조화 미비
내부 문서의 존재에도 불구하고 AI 챗봇이 활용할 수 있는 형태로 구조화되지 않은 데이터 활용 한계
2. 문서 포맷 다양성에 따른 활용 제약
PDF, HWP 등 다양한 문서 포맷으로 인한 일관된 데이터 변환 및 활용의 어려움
3. 검색·QA 연계를 위한 기준 부재
검색·QA 서비스 연계에 필요한 데이터 구조, 메타데이터, 인덱싱 기준의 부재
4. 지속 운영 가능한 처리 체계 필요
일회성 전처리를 넘어 지속적인 운영과 확장이 가능한 데이터 처리 체계의 필요
솔루션
1. 문서 전처리 기획 및 데이터 구조 설계
• 문서 유형 분석 및 기존 메타데이터 구조 검토
• 신규 메타데이터 정의 및 문서-구조화 데이터 변환을 위한 데이터 스키마 설계
2. 문서 포맷별 구조화 및 전처리 수행
• PDF, HWP 등 문서 포맷별 변환 로직 설계 및 구현
• Markdown 기반 전처리 및 구조화 수행, 데이터 검증 및 보완 프로세스 구축
3. 자동화 기반 품질 관리 체계 구축
• 자동화 처리와 휴먼 검수를 결합한 품질 관리 체계 운영
• 다양한 문서 포맷의 안정적 통합 처리가 가능한 구조화 및 변환 체계 마련
4. 검색·QA 연계형 전처리 파이프라인 구현
• 데이터 전처리 자동화 파이프라인 설계 및 구축, 단계별 처리 및 연계 흐름 구현
• 검색·QA 서비스 활용을 위한 인덱싱 구조 설계를 통한 챗봇 서비스 연계 기반 확보
5. 학습·평가 확장 가능한 데이터 체계 확보
• 학습용 Instruction 데이터 및 평가 데이터 구축을 지원할 수 있는 구조 설계
• 전처리, 학습, 평가까지 연계 가능한 데이터 체계 마련을 통한 약 7만 건 이상의 사내 문서 기반 데이터셋 구축
활용분야
사내 챗봇 및 업무 지원 AI
사내 문서와 업무 지식을 기반으로 직원 질의응답과 업무 지원이 가능한 AI 서비스 구축
RAG 기반 문서 검색 시스템
내부 문서 검색과 검색 기반 응답이 가능한 RAG 시스템 구축
기업 내부 지식 관리 및 업무 자동화
사내 지식 관리 체계 고도화와 LLM 기반 업무 자동화 시스템 구축
외 다양한 사례에 적용 가능합니다.


