SOTA / Reasoning
KMO 수준 수학 문제 정제 데이터셋 구축
고객
분야
유형
고객
분야
유형
한국수학올림피아드(KMO) 수준 고난도 수학 문제 9,000건 + 정제·구조화
한국수학올림피아드(KMO) 수준 고난도 수학 문제 9,000건 + 정제·구조화
AI학습데이터
수학데이터셋
고난도문제
수식정제
LaTeX
문제-정답-해설
데이터구조화
프로젝트 개요
도메인 맞춤형 평가 데이터셋 설계
금융·법률 지식 구조와 질문 유형을 반영하여 실무 적합성을 검증할 수 있는 전문 데이터셋 구축
전문가 검증 기반 RAG/Vertical 평가
현업 전문가의 검증을 거친 평가 지표 및 프레임워크 코드 설계로 신뢰성 확보
AI 시스템 성능 검증 기반 마련
단순 문항 생성을 넘어, 특화 모델의 실질적인 업무 수행 능력을 정량적으로 평가하는 체계 수립
고난도 수학 문제 학습 데이터 구축
모델 성능 고도화를 위해 한국수학올림피아드(KMO) 수준의 고난도 수학 문제 기반 학습 데이터셋 구축
수식 정제 및 표준화 데이터 구조 설계
비정형 수학 문항의 수식을 정제하고 LaTeX 기준으로 표준화해 학습 가능한 형태의 구조화 데이터 구축
구조화 데이터 기반 추론 학습 지원
문제, 정답, 해설 구조를 갖춘 고품질 데이터를 통해 고난도 문제 해결 및 추론 성능 향상용 학습 기반 마련
문제점
1. 고난도 수학 문제 해결 성능 한계
1. 고난도 수학 문제 해결 성능 한계
금융·법률 등 고신뢰 도메인의 복잡성과 특수한 지식 체계를 반영한 정밀 검증의 어려움
금융·법률 등 고신뢰 도메인의 복잡성과 특수한 지식 체계를 반영한 정밀 검증의 어려움
2. 산업 특화 검증 방법론의 부재
2. 산업 특화 검증 방법론의 부재
RAG 및 Vertical 모델의 실무 역량을 도메인 맥락에서 객관적으로 측정할 수 있는 독자적 기준 미비
RAG 및 Vertical 모델의 실무 역량을 도메인 맥락에서 객관적으로 측정할 수 있는 독자적 기준 미비
3. 현업 전문가 기반 검증 체계의 부재
3. 현업 전문가 기반 검증 체계의 부재
실제 업무 적합성을 보장하기 위해 도메인 전문가의 인사이트가 투입된 고품질 검증 데이터셋 및 체계 마련 필요
실제 업무 적합성을 보장하기 위해 도메인 전문가의 인사이트가 투입된 고품질 검증 데이터셋 및 체계 마련 필요
솔루션
1. KMO 수준 고난도 문제 소싱 및 선별
1. KMO 수준 고난도 문제 소싱 및 선별
2. 수식 정제 및 LaTeX 표준화 수행
2. 수식 정제 및 LaTeX 표준화 수행
3. 문제–정답–해설 구조 기반 데이터 구조화
3. 문제–정답–해설 구조 기반 데이터 구조화
4. 자동화 및 휴먼 검수 기반 품질 관리
4. 자동화 및 휴먼 검수 기반 품질 관리
5. 고난도 추론 학습용 데이터셋 9,000건 이상 구축
5. 고난도 추론 학습용 데이터셋 9,000건 이상 구축
데이터 예시
RAW DATA
문제 :
양의 정수 𝑎,𝑏,𝑐가 𝑎𝑏+𝑏𝑐+𝑐𝑎=1+𝑎+𝑏+𝑐를 만족한다고 하자. 이때 모든 순서쌍 (𝑎,𝑏,𝑐) 를 구하여라.
정답 : (1, 2, 3), (1, 3, 2), (2, 1, 3), (2, 3, 1), (3, 1, 2), (3, 2, 1)
풀이 :
주어진 식 𝑎𝑏+𝑏𝑐+𝑐𝑎=1+𝑎+𝑏+𝑐을 정리하면 𝑎𝑏+𝑏𝑐+𝑐𝑎−𝑎−𝑏−𝑐=1 이다. 양변에 1을 더하면 𝑎𝑏+𝑏𝑐+𝑐𝑎−𝑎−𝑏−𝑐+1=2 를 얻는다. 이때 좌변은 (𝑎−1)(𝑏−1)+(𝑏−1)(𝑐−1)+(𝑐−1)(𝑎−1)=2와 같으므로, x = a-1, y = b-1, z = c-1 라고 두면 x, y, z는 0 이상의 정수이고 𝑥𝑦+𝑦𝑧+𝑧𝑥=2를 만족해야 한다.
이제 0 이상의 정수해를 구하자. 만약 셋 중 두 개 이상이 1 이상이면, 경우를 나눠볼 수 있다. x,y,z≥0에서 세 항의 합이 2가 되려면 가능한 경우는 매우 제한적이다. 우선 하나가 0인 경우를 보자. 예를 들어 z=0이면 xy=2이므로 (x,y)=(1,2) 또는 (2,1)이다.
따라서 (x,y,z)의 가능한 순서 있는 해는(1,2,0), (2,1,0), (1,0,2), (2,0,1), (0,1,2), (0,2,1) 뿐이다.
이제 다시 a=x+1, b=y+1, c=z+1로 돌리면(a,b,c)는 다음 6개이다.
(2,3,1), (3,2,1), (2,1,3), (3,1,2), (1,2,3), (1,3,2)
즉, 정답은 1,2,3의 모든 순열이다.
JSON
{
"tag": "q_0323_0001",
"type": "question",
"description": {
"question": "양의 정수 a, b, c가 {f_0323_0001} 를 만족한다고 하자.",
"options": [],
"answer": [
"(a, b, c)는 (1, 2, 3)의 모든 순열이다.,
(1, 2, 3), (1, 3, 2), (2, 1, 3),
(2, 3, 1), (3, 1, 2), (3, 2, 1)"
],
"explanations": [
"주어진 식 {f_0323_0001} 을 정리하면 {f_0323_0002} 이다.,
양변에 1을 더하면 {f_0323_0003} 를 얻는다.,
좌변은 {f_0323_0004} 와 같으므로,
x = a-1, y = b-1, z = c-1 로 두면,
x, y, z는 0 이상의 정수이고 {f_0323_0005} 를 만족해야 한다.,
세 항의 합이 2이므로 셋 중 하나는 반드시 0이어야 한다.,
z = 0이면 {f_0323_0006} 이므로 (x, y) = (1, 2) 또는 (2, 1)이다.,
(x, y, z)의 해:,
(1,2,0), (2,1,0), (1,0,2), (2,0,1), (0,1,2), (0,2,1),
a = x+1, b = y+1, c = z+1 로 돌아가면,
(a, b, c)는 (1,2,3)의 모든 순열이다."
]
},
"caption": null,
"file_path": null,
"bbox": null
} RAW DATA
문제 :
양의 정수 𝑎,𝑏,𝑐가 𝑎𝑏+𝑏𝑐+𝑐𝑎=1+𝑎+𝑏+𝑐를 만족한다고 하자. 이때 모든 순서쌍 (𝑎,𝑏,𝑐) 를 구하여라.
정답 : (1, 2, 3), (1, 3, 2), (2, 1, 3), (2, 3, 1), (3, 1, 2), (3, 2, 1)
풀이 :
주어진 식 𝑎𝑏+𝑏𝑐+𝑐𝑎=1+𝑎+𝑏+𝑐을 정리하면 𝑎𝑏+𝑏𝑐+𝑐𝑎−𝑎−𝑏−𝑐=1 이다. 양변에 1을 더하면 𝑎𝑏+𝑏𝑐+𝑐𝑎−𝑎−𝑏−𝑐+1=2 를 얻는다. 이때 좌변은 (𝑎−1)(𝑏−1)+(𝑏−1)(𝑐−1)+(𝑐−1)(𝑎−1)=2와 같으므로, x = a-1, y = b-1, z = c-1 라고 두면 x, y, z는 0 이상의 정수이고 𝑥𝑦+𝑦𝑧+𝑧𝑥=2를 만족해야 한다.
이제 0 이상의 정수해를 구하자. 만약 셋 중 두 개 이상이 1 이상이면, 경우를 나눠볼 수 있다. x,y,z≥0에서 세 항의 합이 2가 되려면 가능한 경우는 매우 제한적이다. 우선 하나가 0인 경우를 보자. 예를 들어 z=0이면 xy=2이므로 (x,y)=(1,2) 또는 (2,1)이다.
따라서 (x,y,z)의 가능한 순서 있는 해는(1,2,0), (2,1,0), (1,0,2), (2,0,1), (0,1,2), (0,2,1) 뿐이다. 이제 다시 a=x+1, b=y+1, c=z+1로 돌리면(a,b,c)는 다음 6개이다.(2,3,1), (3,2,1), (2,1,3), (3,1,2), (1,2,3), (1,3,2)
즉, 정답은 1,2,3의 모든 순열이다.
JSON
{
"tag": "q_0323_0001",
"type": "question",
"description": {
"question": "양의 정수 a, b, c가 {f_0323_0001} 를 만족한다고 하자.",
"options": [],
"answer": [
"(a, b, c)는 (1, 2, 3)의 모든 순열이다.,
(1, 2, 3), (1, 3, 2), (2, 1, 3),
(2, 3, 1), (3, 1, 2), (3, 2, 1)"
],
"explanations": [
"주어진 식 {f_0323_0001} 을 정리하면 {f_0323_0002} 이다.,
양변에 1을 더하면 {f_0323_0003} 를 얻는다.,
좌변은 {f_0323_0004} 와 같으므로,
x = a-1, y = b-1, z = c-1 로 두면,
x, y, z는 0 이상의 정수이고 {f_0323_0005} 를 만족해야 한다.,
세 항의 합이 2이므로 셋 중 하나는 반드시 0이어야 한다.,
z = 0이면 {f_0323_0006} 이므로 (x, y) = (1, 2) 또는 (2, 1)이다.,
(x, y, z)의 해:,
(1,2,0), (2,1,0), (1,0,2), (2,0,1), (0,1,2), (0,2,1),
a = x+1, b = y+1, c = z+1 로 돌아가면,
(a, b, c)는 (1,2,3)의 모든 순열이다."
]
},
"caption": null,
"file_path": null,
"bbox": null
} 활용분야
고난도 추론 성능 고도화
고난도 수학 영역의 문제 해결 및 단계적 추론 성능 향상을 위한 LLM·파운데이션 모델 학습
설명 가능한 수학 튜터링 AI
문제, 정답, 해설 구조 데이터를 기반으로 풀이 과정까지 설명할 수 있는 수학 특화 AI 개발
고난도 추론 평가 및 벤치마크 구축
검증된 고난도 수학 문항을 기반으로 모델의 추론 성능을 정밀하게 평가하는 벤치마크 구축
고난도 추론 성능 고도화
고난도 수학 영역의 문제 해결 및 단계적 추론 성능 향상을 위한 LLM·파운데이션 모델 학습
설명 가능한 수학 튜터링 AI
문제, 정답, 해설 구조 데이터를 기반으로 풀이 과정까지 설명할 수 있는 수학 특화 AI 개발
고난도 추론 평가 및 벤치마크 구축
검증된 고난도 수학 문항을 기반으로 모델의 추론 성능을 정밀하게 평가하는 벤치마크 구축
외 다양한 사례에 적용 가능합니다.


