데이터셋 스토어

도서

STEM, 법률 등 전문서적부터 다양한 일반서적까지, 인공지능 학습용으로 활용 가능한 도서 데이터

데이터셋 스토어

도서

STEM, 법률 등 전문서적부터 다양한 일반서적까지, 인공지능 학습용으로 활용 가능한 도서 데이터

인공지능 학습용으로 사용 가능한 도서
도서
전자책
종이책
국내도서

태그

도서
전자책
종이책
국내도서
인공지능 학습용으로 사용 가능한 도서
제공 형태
전자책 원본(EPUB, PDF) / 종이책 스캔본 / 맞춤형 정제본(JSON 등)
보유 수량
25만 종 이상
최소 구매 수량
협의 필요
제공 형태
전자책 원본(EPUB, PDF) / 종이책 스캔본 / 맞춤형 정제본(JSON 등)
보유 수량
25만 종 이상
최소 구매 수량
협의 필요

구매 프로세스

카테고리 선정

• 필요 도서 카테고리 및 조건 확인 (e.g. 공학 분야 대학교재, 경제 분야 대중교양서, 외국어 학습 도서 등)

• 정제 필요 여부 검토

도서 목록 선정

• 요청 카테고리 및 조건 내 소싱 가능 도서 목록 제공 (도서 별 저작권 이용료 상이)

• 제공 목록 내 구매 도서 선정

제공 형태 협의

• 원본(EPUB/PDF/스캔본) 구매 시 추출/정제 후 기한 내 파기 필수

• 정제 데이터 구매 시 요청 포맷에 따른 정제 견적 협의

추가 정제 협의

• 정제 기준 및 세부사항 협의(텍스트, 이미지, 수식/표, 각주 등)

카테고리 선정

• 필요 도서 카테고리 및 조건 확인 (e.g. 공학 분야 대학교재, 경제 분야 대중교양서, 외국어 학습 도서 등)

• 정제 필요 여부 검토

도서 목록 선정

• 요청 카테고리 및 조건 내 소싱 가능 도서 목록 제공 (도서 별 저작권 이용료 상이)

• 제공 목록 내 구매 도서 선정

제공 형태 협의

• 원본(EPUB/PDF/스캔본) 구매 시 추출/정제 후 기한 내 파기 필수

정제 데이터 구매 시 요청 포맷에 따른 정제 견적 협의

추가 정제 협의

• 정제 기준 및 세부사항 협의(텍스트, 이미지, 수식/표, 각주 등)

카테고리 및 조건 설정 예시

도서 카테고리 대분류

인문

문학

종교

역사

인물

사회

과학

컴퓨터 · 인터넷

외국어 · 어학

경제 · 경영

대학교재

사전

교육

외국도서

여행 · 지도

취미 · 레저

가정 · 건강 · 생활

예술 · 대중문화

개인출판물

성인

조건 설정 예시 1

출간 시점

1년 이내 최신 도서

독자 대상

무관

원본 포맷

텍스트 추출이 용이하도록 EPUB 우선 확보

기타

예산 내 최대한 많은 텍스트 확보 필요

조건 설정 예시 2

출간 시점

무관

독자 대상

대학교재 등 전문서적

원본 포맷

무관(전문성 우선순위 고려)

기타

• 지정 카테고리 내 최대한 다양한 주제 확보 필요
• 동일 도서의 개정판이 있을 경우, 최신판 외 중복 제거

도서 카테고리 대분류

인문

문학

종교

역사

인물

사회

과학

컴퓨터 / 인터넷

외국어 / 어학

경제 / 경영

대학교재

사전

교육

외국도서

여행 / 지도

취미 / 레저

가정 / 건강 / 생활

예술 / 대중문화

개인출판물

성인

조건 설정 예시 1

출간 시점: 1년 이내 최신 도서

독자 대상: 무관

원본 포맷: 텍스트 추출이 용이하도록 EPUB 우선 확보

기타: 예산 내 최대한 많은 텍스트 확보 필요

조건 설정 예시 2

출간 시점: 무관

독자 대상: 대학교재 등 전문서적

원본 포맷: 무관(전문성 우선순위 고려)

기타:
• 지정 카테고리 내 최대한 다양한 주제 확보 필요

• 동일 도서의 개정판이 있을 경우, 최신판 외 중복 제거

데이터셋 특징

• 국내 유통되는 대다수 종류의 도서 확보 가능
• 대상독자(교양/실용/전문 등) 및 출간일 등을 기준으로 소싱 가능 도서 목록 제공(도서 별 저작권 이용료 상이)
• 자사 솔루션 및 도서 정제 특화 프로세스를 활용한 고품질 정제 서비스 제공(견적 별도 협의)
• 학술논문, 해외도서 등 니즈에 따라 추가 소싱 가능

활용분야

자연어 처리 성능 개선

방대한 분량과 체계적 구조를 가진 도서 데이터를 활용. 대규모 언어모델의 기초 언어 능력 학습에 적합하며, 다양한 어휘 및 문체 학습을 통해 언어모델의 기반 성능을 고도화할 수 있음.

지식 베이스 확장

깊이 있고 체계적으로 정리된 전문서적을 활용. 주요 개념과 전문 용어를 집중적으로 학습하여 모델의 지식 기반을 확장. 전문 분야 질의응답, 요약, 추론 등의 성능을 강화할 수 있음.

장문 맥락 처리 및 표현력 강화

모델이 긴 맥락을 정확히 이해하고, 논리적인 전개 및 창의적인 표현을 생성하도록 개선. 보고서 작성, 장문 요약, 스토리텔링 등 복합적인 언어 태스크의 성능 향상에 직접적으로 기여.

외 다양한 사례에 적용 가능합니다.