
인공지능 학습용으로 사용 가능한 도서
태그
인공지능 학습용으로 사용 가능한 도서
제공 형태
보유 수량
최소 구매 수량
제공 형태
보유 수량
최소 구매 수량
구매 프로세스
카테고리 선정
• 필요 도서 카테고리 및 조건 확인 (e.g. 공학 분야 대학교재, 경제 분야 대중교양서, 외국어 학습 도서 등)
도서 목록 선정
• 요청 카테고리 및 조건 내 소싱 가능 도서 목록 제공 (도서 별 저작권 이용료 상이)
• 제공 목록 내 구매 도서 선정
제공 형태 협의
• 정제 미진행 시, 전자책 원본 또는 종이책 스캔본 제공(기한 내 파기 조건)
• 정제 진행 시, 정제 기준 및 세부사항 협의 진행(텍스트, 이미지, 수식/표, 각주 등 추출 및 정규화)
계약 체결 및 데이터셋 제공
카테고리 선정
• 필요 도서 카테고리 및 조건 확인 (e.g. 공학 분야 대학교재, 경제 분야 대중교양서, 외국어 학습 도서 등)
도서 목록 선정
• 요청 카테고리 및 조건 내 소싱 가능 도서 목록 제공 (도서 별 저작권 이용료 상이)
• 제공 목록 내 구매 도서 선정
제공 형태 협의
• 정제 미진행 시, 전자책 원본 또는 종이책 스캔본 제공(기한 내 파기 조건)
• 정제 진행 시, 정제 기준 및 세부사항 협의 진행(텍스트, 이미지, 수식/표, 각주 등 추출 및 정규화)
계약 체결 및 데이터셋 제공
카테고리 및 조건 설정 예시
도서 카테고리 대분류
인문
문학
종교
역사
인물
사회
과학
컴퓨터 / 인터넷
외국어 · 어학
경제 · 경영
대학교재
사전
성인
교육
외국도서
여행 · 지도
취미 · 레저
가정 · 건강 · 생활
예술 · 대중문화
개인출판물
조건 설정 예시 1
출간 시점
1년 이내 최신 도서
독자 대상
무관
원본 포맷
텍스트 추출이 용이하도록 EPUB 우선 확보
기타
예산 내 최대한 많은 텍스트 확보 필요
조건 설정 예시 2
출간 시점
무관
독자 대상
대학교재 등 전문서적
원본 포맷
무관(전문성 우선순위 고려)
기타
• 지정 카테고리 내 최대한 다양한 주제 확보 필요
• 동일 도서의 개정판이 있을 경우, 최신판 외 중복 제거
도서 카테고리 대분류
인문
문학
종교
역사
인물
사회
과학
컴퓨터 / 인터넷
외국어 / 어학
경제 / 경영
대학교재
사전
교육
외국도서
여행 / 지도
취미 / 레저
가정 / 건강 / 생활
예술 / 대중문화
개인출판물
성인
조건 설정 예시 1
출간 시점: 1년 이내 최신 도서
독자 대상: 무관
원본 포맷: 텍스트 추출이 용이하도록 EPUB 우선 확보
기타: 예산 내 최대한 많은 텍스트 확보 필요
조건 설정 예시 2
출간 시점: 무관
독자 대상: 대학교재 등 전문서적
원본 포맷: 무관 (전문성 우선순위 고려)
기타:
• 지정 카테고리 내 최대한 다양한 주제 확보 필요
• 동일 도서의 개정판이 있을 경우, 최신판 외 중복 제거
데이터셋 특징
활용분야
대규모 사전학습
방대한 분량과 체계적인 구조를 가진 도서 데이터는 대규모 언어모델의 기초 언어 능력 학습에 적합합니다. 어휘 및 문체의 다양성, 폭 넓은 지식을 학습하여 언어모델의 기반 성능을 고도화할 수 있습니다.
도메인 지식 강화
깊이 있는 지식을 체계적으로 정리한 전문서적을 활용하여 주요 개념과 전문 용어를 학습할 수 있습니다. 전문분야 질의응답, 요약 추론 등의 성능을 강화할 수 있습니다.
장문 맥락 처리 및 표현력 강화
모델이 긴 맥락을 이해하고, 논리적인 전개 및 창의적인 표현을 생성하도록 개선할 수 있습니다. 보고서 작성, 장문 요약, 스토리텔링 등 복합 언어 태스크의 성능 향상에 기여합니다.
외 다양한 사례에 적용 가능합니다.