데이터셋 스토어

도서 데이터셋

STEM, 법률 등 전문서적부터 다양한 일반서적까지, 인공지능 학습용으로 활용 가능한 도서 데이터

데이터셋 스토어

도서 데이터셋

STEM, 법률 등 전문서적부터 다양한 일반서적까지, 인공지능 학습용으로 활용 가능한 도서 데이터

인공지능 학습용으로 사용 가능한 도서
도서
전자책
종이책
국내도서

태그

도서
전자책
종이책
국내도서
인공지능 학습용으로 사용 가능한 도서
제공 형태
전자책 원본(EPUB, PDF) / 종이책 스캔본 / 맞춤형 정제본(JSON 등)
보유 수량
25만 종 이상
최소 구매 수량
협의 필요
제공 형태
전자책 원본(EPUB, PDF) / 종이책 스캔본 / 맞춤형 정제본(JSON 등)
보유 수량
25만 종 이상
최소 구매 수량
협의 필요

구매 프로세스

카테고리 선정

• 필요 도서 카테고리 및 조건 확인 (e.g. 공학 분야 대학교재, 경제 분야 대중교양서, 외국어 학습 도서 등)

도서 목록 선정

• 요청 카테고리 및 조건 내 소싱 가능 도서 목록 제공 (도서 별 저작권 이용료 상이)

• 제공 목록 내 구매 도서 선정

제공 형태 협의

• 정제 미진행 시, 전자책 원본 또는 종이책 스캔본 제공(기한 내 파기 조건)

• 정제 진행 시, 정제 기준 및 세부사항 협의 진행(텍스트, 이미지, 수식/표, 각주 등 추출 및 정규화)

계약 체결 및 데이터셋 제공
카테고리 선정

• 필요 도서 카테고리 및 조건 확인 (e.g. 공학 분야 대학교재, 경제 분야 대중교양서, 외국어 학습 도서 등)

도서 목록 선정

• 요청 카테고리 및 조건 내 소싱 가능 도서 목록 제공 (도서 별 저작권 이용료 상이)

• 제공 목록 내 구매 도서 선정

제공 형태 협의

• 정제 미진행 시, 전자책 원본 또는 종이책 스캔본 제공(기한 내 파기 조건)

정제 진행 시, 정제 기준 및 세부사항 협의 진행(텍스트, 이미지, 수식/표, 각주 등 추출 및 정규화)

계약 체결 및 데이터셋 제공

카테고리 및 조건 설정 예시

도서 카테고리 대분류

인문

문학

종교

역사

인물

사회

과학

컴퓨터 / 인터넷

외국어 · 어학

경제 · 경영

대학교재

사전

성인

교육

외국도서

여행 · 지도

취미 · 레저

가정 · 건강 · 생활

예술 · 대중문화

개인출판물

조건 설정 예시 1

출간 시점

1년 이내 최신 도서

독자 대상

무관

원본 포맷

텍스트 추출이 용이하도록 EPUB 우선 확보

기타

예산 내 최대한 많은 텍스트 확보 필요

조건 설정 예시 2

출간 시점

무관

독자 대상

대학교재 등 전문서적

원본 포맷

무관(전문성 우선순위 고려)

기타

• 지정 카테고리 내 최대한 다양한 주제 확보 필요
• 동일 도서의 개정판이 있을 경우, 최신판 외 중복 제거

도서 카테고리 대분류

인문

문학

종교

역사

인물

사회

과학

컴퓨터 / 인터넷

외국어 / 어학

경제 / 경영

대학교재

사전

교육

외국도서

여행 / 지도

취미 / 레저

가정 / 건강 / 생활

예술 / 대중문화

개인출판물

성인

조건 설정 예시 1

출간 시점: 1년 이내 최신 도서

독자 대상: 무관

원본 포맷: 텍스트 추출이 용이하도록 EPUB 우선 확보

기타: 예산 내 최대한 많은 텍스트 확보 필요

조건 설정 예시 2

출간 시점: 무관

독자 대상: 대학교재 등 전문서적

원본 포맷: 무관 (전문성 우선순위 고려)

기타:
• 지정 카테고리 내 최대한 다양한 주제 확보 필요

• 동일 도서의 개정판이 있을 경우, 최신판 외 중복 제거

데이터셋 특징

• 국내 유통되는 대다수 종류의 도서 확보 가능
• 대상독자(교양/실용/전문 등) 및 출간일 등을 기준으로 소싱 가능 도서 목록 제공(도서 별 저작권 이용료 상이)
• 자사 솔루션 및 도서 정제 특화 프로세스를 활용한 고품질 정제 서비스 제공(견적 별도 협의)
• 학술논문, 해외도서 등 니즈에 따라 추가 소싱 가능

활용분야

대규모 사전학습

방대한 분량과 체계적인 구조를 가진 도서 데이터는 대규모 언어모델의 기초 언어 능력 학습에 적합합니다. 어휘 및 문체의 다양성, 폭 넓은 지식을 학습하여 언어모델의 기반 성능을 고도화할 수 있습니다.

도메인 지식 강화

깊이 있는 지식을 체계적으로 정리한 전문서적을 활용하여 주요 개념과 전문 용어를 학습할 수 있습니다. 전문분야 질의응답, 요약 추론 등의 성능을 강화할 수 있습니다.

장문 맥락 처리 및 표현력 강화

모델이 긴 맥락을 이해하고, 논리적인 전개 및 창의적인 표현을 생성하도록 개선할 수 있습니다. 보고서 작성, 장문 요약, 스토리텔링 등 복합 언어 태스크의 성능 향상에 기여합니다.

외 다양한 사례에 적용 가능합니다.