...
DPS

RAG용 의료 문서 데이터 구조화

고객
국내 대형병원
분야
의료, 헬스케어, RAG 시스템
유형
텍스트, 수식, 이미지(PNG), 구조화 데이터(JSON)
고객
국내 대형병원
분야
의료, 헬스케어, RAG 시스템
유형
텍스트, 수식, 이미지(PNG), 구조화 데이터(JSON)

의료 가이드라인 문서의 맥락과 읽는 순서를 그대로 살린 RAG 학습용 구조화 데이터셋

의료 가이드라인 문서의 맥락과 읽는 순서를 그대로 살린 RAG 학습용 구조화 데이터셋

AI학습데이터
의료데이터
RAG
문서구조화
멀티모달데이터
문서흐름재구성
JSON구조설계
AI학습데이터
의료데이터
RAG
문서구조화
멀티모달데이터
문서흐름재구성
JSON구조설계

프로젝트 개요

의료 문서의 RAG 학습용 데이터 전환

PDF 기반 의료 가이드라인 문서를 AI 학습 및 검색에 활용할 수 있는 RAG용 구조화 데이터로 변환

문서 흐름 기반 구조 재구성

단순 텍스트 추출이 아닌 문서의 읽는 순서와 구조를 반영해 문맥이 유지되는 데이터 체계 구축

의료 문서 특화 고정밀 데이터 설계

정확성과 문맥 유지가 중요한 의료 문서 특성을 반영해 JSON+PNG 기반의 멀티모달 데이터셋 구축

의료 문서의 RAG 학습용 데이터 전환

금융·법률 지식 구조와 질문 유형을 반영하여 실무 적합성을 검증할 수 있는 전문 데이터셋 구축

문서 흐름 기반 구조 재구성

단순 텍스트 추출이 아닌 문서의 읽는 순서와 구조를 반영해 문맥이 유지되는 데이터 체계 구축

의료 문서 특화 고정밀 데이터 설계

정확성과 문맥 유지가 중요한 의료 문서 특성을 반영해 JSON+PNG 기반의 멀티모달 데이터셋 구축

문제점

1. 의료 문서의 구조화 한계
1. 의료 문서의 구조화 한계

의료 문서의 존재에도 불구하고 AI 학습 및 검색에 활용할 수 있는 형태로 구조화되지 않은 데이터 활용 제약

의료 문서의 존재에도 불구하고 AI 학습 및 검색에 활용할 수 있는 형태로 구조화되지 않은 데이터 활용 제약

2. 복합 문서 구조로 인한 처리 복잡성
2. 복합 문서 구조로 인한 처리 복잡성

텍스트, 표, 이미지가 혼합된 문서 구조에서 발생하는 요소 분리 및 통합 관리의 어려움

텍스트, 표, 이미지가 혼합된 문서 구조에서 발생하는 요소 분리 및 통합 관리의 어려움

3. 문서 순서 및 문맥 정보 훼손 가능성
3. 문서 순서 및 문맥 정보 훼손 가능성

기존 처리 방식에서 문서의 읽는 순서와 문맥 정보가 충분히 유지되지 못해 발생하는 구조 및 의미 흐름의 훼손 우려

4. 의료 문서 특성에 맞는 고정밀 데이터 필요
4. 의료 문서 특성에 맞는 고정밀 데이터 필요

정확성과 구조 유지가 중요한 의료 문서 특성을 반영할 수 있는 고정밀 데이터 체계의 필요

솔루션

1. 문서 요소 단위 분리 및 구조화
1. 문서 요소 단위 분리 및 구조화
• 의료 가이드라인 문서를 대상으로 데이터 처리 수행
• paragraph, table, figure, caption 단위로 문서 요소를 분리하고 구조화 데이터의 기본 단위로 설계
2. 문서 흐름 기반 재정렬 및 노이즈 제거
2. 문서 흐름 기반 재정렬 및 노이즈 제거
• 문서의 읽는 순서를 기준으로 요소를 재정렬해 문서 흐름과 문맥을 유지할 수 있도록 재구성
• header, footer 및 불필요한 노이즈를 제거해 데이터 활용도를 높임
3. Context 중심 JSON 구조 및 연결 체계 구축
3. Context 중심 JSON 구조 및 연결 체계 구축
• JSON 기반의 Context 중심 데이터 구조를 설계하고 요소별 ID와 page 기반 연결 구조를 구축
• 멀티모달 요소 간 관계를 유지할 수 있도록 문서 구조와 연결 정보를 함께 반영
4. 위치 정보 반영 및 정제 기준 적용
4. 위치 정보 반영 및 정제 기준 적용
• figure bbox 좌표 기반 위치 정보를 유지해 문서 구조와 요소 간 위치 관계를 반영
• 케이스별 정제 기준을 정의하고 룰 기반 데이터 보정을 수행해 의료 문서 특성에 맞는 정밀도 확보
5. 다단계 품질 검수 및 구조화 데이터셋 구축
5. 다단계 품질 검수 및 구조화 데이터셋 구축
• bbox 이미지와 JSON 비교 기반의 다단계 품질 검수를 통해 데이터 품질 확보
• 문서 흐름과 문맥을 유지한 RAG 학습용 의료 문서 구조화 데이터셋을 구축하고 JSON+PNG 기반 결과물 제공

활용분야

의료 RAG 시스템

의료 가이드라인과 전문 문서를 기반으로 한 검색·응답형 RAG 시스템 구축에 활용

임상 의사결정 지원 AI

문맥과 구조가 유지된 의료 문서를 바탕으로 임상 판단을 지원하는 AI 시스템 개발에 활용

의료 문서 검색 및 QA 시스템

의료 문서의 정확한 검색과 질의응답이 가능한 도메인 특화 시스템 구축에 활용

외 다양한 사례에 적용 가능합니다.