...
멀티모달 / DPS

멀티모달 데이터 구조화를 통한 RAG 시스템 구축

고객
국내 제조사
분야
제조, 기술문서, RAG 시스템
유형
텍스트, 수식, 이미지(PNG), 구조화 데이터(JSON)
고객
국내 제조사
분야
제조, 기술문서, RAG 시스템
유형
텍스트, 수식, 이미지(PNG), 구조화 데이터(JSON)

비정형 기술문서를 텍스트·수식·표·이미지까지 통합 구조화한 RAG 학습 데이터셋

비정형 기술문서를 텍스트·수식·표·이미지까지 통합 구조화한 RAG 학습 데이터셋

AI학습데이터
RAG
멀테모달데이터
문서구조화
JSON구조화
표HTML변환
AI학습데이터
RAG
멀티모달데이터
문서구조화
수식LaTeX
표HTML변환
JSON구조화

프로젝트 개요

AI 활용을 위한 문서 구조 재설계

기존 PDF·보고서 형태의 비정형 기술 문서를 단순 추출이 아닌 AI가 활용할 수 있는 형태로 재설계하고 데이터셋 구축

멀티모달 요소 통합 구조화

텍스트, 수식, 표, 이미지 등 다양한 문서 요소를 분리·구조화하고 관계 정보를 연결해 문맥과 구조를 유지하는 데이터 체계 마련

RAG 학습용 구조화 데이터 구축

영문 기술 문서 250종 이상, 약 6만 건 이상의 데이터를 JSON·PNG 기반으로 구조화해 RAG 시스템 학습 및 활용 기반 확보

AI 활용을 위한 문서 구조 재설계

기존 PDF·보고서 형태의 비정형 기술 문서를 단순 추출이 아닌 AI가 활용할 수 있는 형태로 재설계하고 데이터셋 구축

멀티모달 요소 통합 구조화

텍스트, 수식, 표, 이미지 등 다양한 문서 요소를 분리·구조화하고 관계 정보를 연결해 문맥과 구조를 유지하는 데이터 체계 마련

RAG 학습용 구조화 데이터 구축

영문 기술 문서 250종 이상, 약 6만 건 이상의 데이터를 JSON·PNG 기반으로 구조화해 RAG 시스템 학습 및 활용 기반 확보

문제점

1. 비정형 기술 문서의 구조화 미비
1. 비정형 기술 문서의 구조화 미비

기술 문서의 존재에도 불구하고 AI가 활용할 수 있는 형태로 구조화되지 않은 데이터 활용 한계

기술 문서의 존재에도 불구하고 AI가 활용할 수 있는 형태로 구조화되지 않은 데이터 활용 한계

2. 복잡한 문서 구조로 인한 처리 어려움
2. 복잡한 문서 구조로 인한 처리 어려움

텍스트, 수식, 표, 이미지가 혼재된 문서 구조로 인한 요소별 분리 및 통합 관리의 어려움

텍스트, 수식, 표, 이미지가 혼재된 문서 구조로 인한 요소별 분리 및 통합 관리의 어려움

3. 문맥 및 구조 정보 유실 가능성
3. 문맥 및 구조 정보 유실 가능성

기존 처리 방식에서 문서 요소 간 관계와 위치 정보가 충분히 유지되지 못해 발생하는 문맥 단절 및 구조 정보 유실 우려

기존 처리 방식에서 문서 요소 간 관계와 위치 정보가 충분히 유지되지 못해 발생하는 문맥 단절 및 구조 정보 유실 우려

4. RAG 적용을 위한 구조 정합성 확보 필요
4. RAG 적용을 위한 구조 정합성 확보 필요

문서 구조와 요소 간 관계가 유지된 상태로 RAG 시스템에 활용할 수 있는 정합성 높은 데이터 체계의 필요

문서 구조와 요소 간 관계가 유지된 상태로 RAG 시스템에 활용할 수 있는 정합성 높은 데이터 체계의 필요

솔루션

1. 문서 요소 단위 분리 및 구조 설계
1. 문서 요소 단위 분리 및 구조 설계
• 영문 기술 문서 250종 이상, 약 6만 건 이상의 데이터를 대상으로 처리 수행
• 텍스트, 수식, 표, 이미지 등 문서 요소를 객체 단위로 분리하고 통합 관리 가능한 구조 설계
• 영문 기술 문서 250종 이상, 약 6만 건 이상의 데이터를 대상으로 처리 수행
• 텍스트, 수식, 표, 이미지 등 문서 요소를 객체 단위로 분리하고 통합 관리 가능한 구조 설계
2. AI가 이해 가능한 형태로 데이터 변환
2. AI 이해가 가능한 형태로 데이터 변환
• 수식은 LaTeX, 표는 HTML 형식으로 변환해 AI가 이해하고 활용할 수 있는 형태로 가공
• 텍스트 외 요소를 포함한 멀티모달 데이터를 구조화해 활용성을 높임
• 수식은 LaTeX, 표는 HTML 형식으로 변환해 AI가 이해하고 활용할 수 있는 형태로 가공
• 텍스트 외 요소를 포함한 멀티모달 데이터를 구조화해 활용성을 높임
3. 문맥과 위치 정보를 반영한 JSON 구조화
3. 문맥과 위치 정보를 반영한 JSON 구조화
• JSON 기반 계층 구조를 설계하고 페이지 단위와 요소 단위 매핑 체계 구축
• 요소 간 관계를 태그 기반으로 연결하고 BBOX 기반 위치 정보를 반영해 문맥과 구조 정합성 확보
• JSON 기반 계층 구조를 설계하고 페이지 단위와 요소 단위 매핑 체계 구축
• 요소 간 관계를 태그 기반으로 연결하고 BBOX 기반 위치 정보를 반영해 문맥과 구조 정합성 확보
4. 고객 맞춤형 전처리 및 품질 기준 적용
4. 고객 맞춤형 전처리 및 품질 기준 적용
• 고객 요구사항을 반영해 전처리 기준을 정의하고 케이스별 룰을 설계
• 다단계 검수 프로세스를 적용해 구조화 데이터의 품질을 확보
• 고객 요구사항을 반영해 전처리 기준을 정의하고 케이스별 룰을 설계
• 다단계 검수 프로세스를 적용해 구조화 데이터의 품질을 확보
5. RAG 학습용 멀티모달 데이터셋 구축
5. RAG 학습용 멀티모달 데이터셋 구축
• 텍스트·수식·표·이미지를 통합한 RAG 학습용 데이터셋 구축
• JSON(main, add_info)과 이미지(PNG) 기반 결과물을 제공해 문서 구조와 문맥이 유지되는 데이터 체계 마련
• 텍스트·수식·표·이미지를 통합한 RAG 학습용 데이터셋 구축
• JSON(main, add_info)과 이미지(PNG) 기반 결과물을 제공해 문서 구조와 문맥이 유지되는 데이터 체계 마련

활용분야

RAG 기반 기술 문서 검색 시스템

기술 문서의 구조와 문맥을 반영한 검색 및 응답 시스템 구축

엔지니어링·제조 분야 AI 어시스턴트

복잡한 기술 문서를 이해하고 활용하는 도메인 특화 AI 어시스턴트 개발

문서 이해 및 멀티모달 모델 학습

문서 이해 모델과 멀티모달 LLM의 학습용 데이터 구축

RAG 기반 기술 문서 검색 시스템

기술 문서의 구조와 문맥을 반영한 검색 및 응답 시스템 구축

엔지니어링·제조 분야 AI 어시스턴트

복잡한 기술 문서를 이해하고 활용하는 도메인 특화 AI 어시스턴트 개발

문서 이해 및 멀티모달 모델 학습

문서 이해 모델과 멀티모달 LLM의 학습용 데이터 구축

외 다양한 사례에 적용 가능합니다.