데이터셋 스토어

도서 데이터셋

전문 분야 서적 약 18만 권(200여 개 카테고리로 구분된 종이책/전자책)

데이터셋 스토어

도서 데이터셋

전문 분야 서적 약 18만 권(200여 개 카테고리로 구분된 종이책/전자책)

인공지능 학습용으로 사용 가능한 도서
도서
전자책
종이책
국내도서

태그

도서
전자책
종이책
국내도서
인공지능 학습용으로 사용 가능한 도서
제공 형태
전자책 원본(EPUB, PDF) / 종이책 스캔본 / 맞춤형 정제본(JSON 등)
보유 수량
25만 종 이상
최소 구매 수량
TBA
제공 형태
전자책 원본(EPUB, PDF) / 종이책 스캔본 / 맞춤형 정제본(JSON 등)
보유 수량
25만 종 이상
최소 구매 수량
TBA

구매 프로세스

카테고리 선정

• 필요 도서 카테고리 및 조건 확인 (e.g. 공학 분야 대학교재, 경제 분야 대중교양서, 외국어 학습 도서 등)

• 정제 필요 여부 검토

도서 목록 선정

• 요청 카테고리 및 조건 내 소싱 가능 도서 목록 제공 (도서 별 저작권 이용료 상이)

• 제공 목록 내 구매 도서 선정

제공 형태 협의

• 원본(EPUB/PDF/스캔본) 구매 시 추출/정제 후 기한 내 파기

• 정제 데이터 구매 시 요청 포맷에 따른 정제 견적 협의

추가 정제 협의

• 정제 기준 및 세부사항 협의 (텍스트, 이미지, 수식/표, 각주 등)

카테고리 선정

• 필요 도서 카테고리 및 조건 확인 (e.g. 공학 분야 대학교재, 경제 분야 대중교양서, 외국어 학습 도서 등)

• 정제 필요 여부 검토

도서 목록 선정

• 요청 카테고리 및 조건 내 소싱 가능 도서 목록 제공 (도서 별 저작권 이용료 상이)

• 제공 목록 내 구매 도서 선정

제공 형태 협의

• 원본(EPUB/PDF/스캔본) 구매 시 추출/정제 후 기한 내 파기

• 정제 데이터 구매 시 요청 포맷에 따른 정제 견적 협의

추가 정제 협의

• 정제 기준 및 세부사항 협의 (텍스트, 이미지, 수식/표, 각주 등)

카테고리 및 조건 설정 예시

도서 카테고리 대분류

인문

문학

종교

역사

인물

사회

과학

컴퓨터 / 인터넷

외국어 · 어학

경제 · 경영

대학교재

사전

성인

교육

외국도서

여행 · 지도

취미 · 레저

가정 · 건강 · 생활

예술 · 대중문화

개인출판물

조건 설정 예시 1

출간 시점

1년 이내 최신 도서

독자 대상

무관

원본 포맷

텍스트 추출이 용이하도록 EPUB 우선 확보

기타

예산 내 최대한 많은 텍스트 확보 필요

조건 설정 예시 2

출간 시점

무관

독자 대상

대학교재 등 전문서적

원본 포맷

무관(전문성 우선순위 고려)

기타

지정 카테고리 내 최대한 다양한 주제 확보 필요. 동일 도서의 개정판 있을 경우, 최신판 외 중복 제거

도서 카테고리 대분류

인문

문학

종교

역사

인물

사회

과학

컴퓨터 / 인터넷

외국어 / 어학

경제 / 경영

대학교재

사전

교육

외국도서

여행 / 지도

취미 / 레저

가정 / 건강 / 생활

예술 / 대중문화

개인출판물

성인

조건 설정 예시 1

출간 시점: 1년 이내 최신 도서

독자 대상: 무관

원본 포맷: 텍스트 추출이 용이하도록 EPUB 우선 확보

기타: 예산 내 최대한 많은 텍스트 확보 필요

조건 설정 예시 2

출간 시점: 무관

독자 대상: 대학교재 등 전문서적

원본 포맷: 무관 (전문성 우선순위 고려)

기타:

•지정 카테고리 내 최대한 다양한 주제 확보 필요

• 동일 도서의 개정판이 있을 경우, 최신판 외 중복 제거

데이터셋 특징

• 국내 유통되는 대다수 종류의 도서 확보 가능
• 대상독자(교양/실용/전문 등) 및 출간일 등을 기준으로 소싱 가능 도서 목록 제공 *도서 별 저작권 이용료 상이
• 자사 솔루션을 활용한 고품질 정제 서비스 제공 *견적 별도 협의
• 학술논문, 해외도서 등 니즈에 따라 추가 소싱 가능

활용분야

자연어 처리 성능 개선

다양한 분야의 정제된 도서 콘텐츠를 통해 모델의 어휘력, 문장 구조 이해, 문맥 파악 능력 등을 전반적으로 향상시킬 수 있습니다.

지식 베이스 확장

전문서적과 실용도서를 기반으로 도메인별 개념, 배경 지식, 상식 등을 넓혀, 지식 기반 질의응답 및 추론 성능을 강화할 수 있습니다.

도메인 특화 모델 개발

의학, 법률, 교육 등 특정 분야의 도서를 활용하여 각 산업에 맞춘 특화 언어모델을 구축할 수 있어 실무형 AI 서비스 개발에 유리합니다.

외 다양한 사례에 적용 가능합니다.