KMO 수준 수학 문제 정제 데이터셋

SOTA / Reasoning

KMO 수준 수학 문제 정제 데이터셋 구축

고객

글로벌 빅테크 기업

분야

수학, 교육 AI, LLM 성능 고도화

유형

텍스트, 수식(LaTeX), 구조화 데이터(JSON)

고객

글로벌 빅테크 기업

분야

수학, 교육 AI, LLM 성능 고도화

유형

텍스트, 수식(LaTeX), 구조화 데이터(JSON)

한국수학올림피아드(KMO) 수준 고난도 수학 문제 9,000건 + 정제·구조화

AI학습데이터

수학데이터셋

고난도문제

수식정제

LaTeX

문제-정답-해설

데이터구조화

AI학습데이터

수학데이터셋

고난도문제

수식정제

LaTeX

문제-정답-해설

데이터구조화

프로젝트 개요

도메인 맞춤형 평가 데이터셋 설계

금융·법률 지식 구조와 질문 유형을 반영하여 실무 적합성을 검증할 수 있는 전문 데이터셋 구축

전문가 검증 기반 RAG/Vertical 평가

현업 전문가의 검증을 거친 평가 지표 및 프레임워크 코드 설계로 신뢰성 확보

AI 시스템 성능 검증 기반 마련

단순 문항 생성을 넘어, 특화 모델의 실질적인 업무 수행 능력을 정량적으로 평가하는 체계 수립

고난도 수학 문제 학습 데이터 구축

모델 성능 고도화를 위해 한국수학올림피아드(KMO) 수준의 고난도 수학 문제 기반 학습 데이터셋 구축

수식 정제 및 표준화 데이터 구조 설계

비정형 수학 문항의 수식을 정제하고 LaTeX 기준으로 표준화해 학습 가능한 형태의 구조화 데이터 구축

구조화 데이터 기반 추론 학습 지원

문제, 정답, 해설 구조를 갖춘 고품질 데이터를 통해 고난도 문제 해결 및 추론 성능 향상용 학습 기반 마련

문제점

1. 고난도 수학 문제 해결 성능 한계

금융·법률 등 고신뢰 도메인의 복잡성과 특수한 지식 체계를 반영한 정밀 검증의 어려움

2. 산업 특화 검증 방법론의 부재

RAG 및 Vertical 모델의 실무 역량을 도메인 맥락에서 객관적으로 측정할 수 있는 독자적 기준 미비

3. 현업 전문가 기반 검증 체계의 부재

실제 업무 적합성을 보장하기 위해 도메인 전문가의 인사이트가 투입된 고품질 검증 데이터셋 및 체계 마련 필요

솔루션

1. KMO 수준 고난도 문제 소싱 및 선별

• 한국수학올림피아드(KMO) 수준의 고난도 수학 문제 소싱 및 선별

• 일반 LLM이 해결하기 어려운 고난도 문제 중심의 학습 데이터 구축 범위 설정

• 한국수학올림피아드(KMO) 수준의 고난도 수학 문제 소싱 및 선별

• 일반 LLM이 해결하기 어려운 고난도 문제 중심의 학습 데이터 구축 범위 설정

2. 수식 정제 및 LaTeX 표준화 수행

• 비정형 수학 문항의 수식 정제 및 LaTeX 표준화 수행

• 고난도 수식 정제 기준 수립 및 수식 정합성 검증 체계 적용

• 비정형 수학 문항의 수식 정제 및 LaTeX 표준화 수행

• 고난도 수식 정제 기준 수립 및 수식 정합성 검증 체계 적용

3. 문제–정답–해설 구조 기반 데이터 구조화

• 문제–정답–해설 구조 기반 데이터 정제 및 구조화

• JSON 포맷 기반으로 즉시 학습 가능한 데이터셋 설계 및 구축

• 문제–정답–해설 구조 기반 데이터 정제 및 구조화

• JSON 포맷 기반으로 즉시 학습 가능한 데이터셋 설계 및 구축

4. 자동화 및 휴먼 검수 기반 품질 관리

• 전처리 자동화와 휴먼 검수를 결합한 품질 관리 체계 적용

• OCR 오류 제거와 수식 정제 검증을 통해 고품질 데이터 확보

• 전처리 자동화와 휴먼 검수를 결합한 품질 관리 체계 적용

• OCR 오류 제거와 수식 정제 검증을 통해 고품질 데이터 확보

5. 고난도 추론 학습용 데이터셋 9,000건 이상 구축

• 고난도 수학 문제 약 9,000건 이상의 정제 데이터셋 구축

• 기존 LLM이 해결하기 어려운 고난도 수학 문제 학습 데이터 기반 확보

• 고난도 수학 문제 약 9,000건 이상의 정제 데이터셋 구축

• 기존 LLM이 해결하기 어려운 고난도 수학 문제 학습 데이터 기반 확보

데이터 예시

RAW DATA

문제 :

양의 정수 𝑎,𝑏,𝑐가 𝑎𝑏+𝑏𝑐+𝑐𝑎=1+𝑎+𝑏+𝑐를 만족한다고 하자. 이때 모든 순서쌍 (𝑎,𝑏,𝑐) 를 구하여라.

정답 : (1, 2, 3), (1, 3, 2), (2, 1, 3), (2, 3, 1), (3, 1, 2), (3, 2, 1)

풀이 :

주어진 식 𝑎𝑏+𝑏𝑐+𝑐𝑎=1+𝑎+𝑏+𝑐을 정리하면 𝑎𝑏+𝑏𝑐+𝑐𝑎−𝑎−𝑏−𝑐=1 이다. 양변에 1을 더하면 𝑎𝑏+𝑏𝑐+𝑐𝑎−𝑎−𝑏−𝑐+1=2 를 얻는다. 이때 좌변은 (𝑎−1)(𝑏−1)+(𝑏−1)(𝑐−1)+(𝑐−1)(𝑎−1)=2와 같으므로, x = a-1, y = b-1, z = c-1 라고 두면 x, y, z는 0 이상의 정수이고 𝑥𝑦+𝑦𝑧+𝑧𝑥=2를 만족해야 한다.

이제 0 이상의 정수해를 구하자. 만약 셋 중 두 개 이상이 1 이상이면, 경우를 나눠볼 수 있다. x,y,z≥0에서 세 항의 합이 2가 되려면 가능한 경우는 매우 제한적이다. 우선 하나가 0인 경우를 보자. 예를 들어 z=0이면 xy=2이므로 (x,y)=(1,2) 또는 (2,1)이다.

따라서 (x,y,z)의 가능한 순서 있는 해는(1,2,0), (2,1,0), (1,0,2), (2,0,1), (0,1,2), (0,2,1) 뿐이다.

이제 다시 a=x+1, b=y+1, c=z+1로 돌리면(a,b,c)는 다음 6개이다.

(2,3,1), (3,2,1), (2,1,3), (3,1,2), (1,2,3), (1,3,2)

즉, 정답은 1,2,3의 모든 순열이다.

JSON

  {

"tag": "q_0323_0001",
"type": "question",
"description": {
"question": "양의 정수 a, b, c가 {f_0323_0001} 를 만족한다고 하자.",
"options": [],
"answer": [
"(a, b, c)는 (1, 2, 3)의 모든 순열이다.,
(1, 2, 3), (1, 3, 2), (2, 1, 3),
(2, 3, 1), (3, 1, 2), (3, 2, 1)"
],
"explanations": [
"주어진 식 {f_0323_0001} 을 정리하면 {f_0323_0002} 이다.,
양변에 1을 더하면 {f_0323_0003} 를 얻는다.,
좌변은 {f_0323_0004} 와 같으므로,
x = a-1, y = b-1, z = c-1 로 두면,
x, y, z는 0 이상의 정수이고 {f_0323_0005} 를 만족해야 한다.,
세 항의 합이 2이므로 셋 중 하나는 반드시 0이어야 한다.,
z = 0이면 {f_0323_0006} 이므로 (x, y) = (1, 2) 또는 (2, 1)이다.,
(x, y, z)의 해:,
(1,2,0), (2,1,0), (1,0,2), (2,0,1), (0,1,2), (0,2,1),
a = x+1, b = y+1, c = z+1 로 돌아가면,
(a, b, c)는 (1,2,3)의 모든 순열이다."
]
},
"caption": null,
"file_path": null,
"bbox": null
}

RAW DATA

문제 :

양의 정수 𝑎,𝑏,𝑐가 𝑎𝑏+𝑏𝑐+𝑐𝑎=1+𝑎+𝑏+𝑐를 만족한다고 하자. 이때 모든 순서쌍 (𝑎,𝑏,𝑐) 를 구하여라.

정답 : (1, 2, 3), (1, 3, 2), (2, 1, 3), (2, 3, 1), (3, 1, 2), (3, 2, 1)

풀이 :

따라서 (x,y,z)의 가능한 순서 있는 해는(1,2,0), (2,1,0), (1,0,2), (2,0,1), (0,1,2), (0,2,1) 뿐이다. 이제 다시 a=x+1, b=y+1, c=z+1로 돌리면(a,b,c)는 다음 6개이다.(2,3,1), (3,2,1), (2,1,3), (3,1,2), (1,2,3), (1,3,2)

즉, 정답은 1,2,3의 모든 순열이다.

JSON

  {

"tag": "q_0323_0001",
"type": "question",
"description": {
"question": "양의 정수 a, b, c가 {f_0323_0001} 를 만족한다고 하자.",
"options": [],
"answer": [
"(a, b, c)는 (1, 2, 3)의 모든 순열이다.,
(1, 2, 3), (1, 3, 2), (2, 1, 3),
(2, 3, 1), (3, 1, 2), (3, 2, 1)"
],
"explanations": [
"주어진 식 {f_0323_0001} 을 정리하면 {f_0323_0002} 이다.,
양변에 1을 더하면 {f_0323_0003} 를 얻는다.,
좌변은 {f_0323_0004} 와 같으므로,
x = a-1, y = b-1, z = c-1 로 두면,
x, y, z는 0 이상의 정수이고 {f_0323_0005} 를 만족해야 한다.,
세 항의 합이 2이므로 셋 중 하나는 반드시 0이어야 한다.,
z = 0이면 {f_0323_0006} 이므로 (x, y) = (1, 2) 또는 (2, 1)이다.,
(x, y, z)의 해:,
(1,2,0), (2,1,0), (1,0,2), (2,0,1), (0,1,2), (0,2,1),
a = x+1, b = y+1, c = z+1 로 돌아가면,
(a, b, c)는 (1,2,3)의 모든 순열이다."
]
},
"caption": null,
"file_path": null,
"bbox": null
}

활용분야

고난도 추론 성능 고도화

고난도 수학 영역의 문제 해결 및 단계적 추론 성능 향상을 위한 LLM·파운데이션 모델 학습

설명 가능한 수학 튜터링 AI

문제, 정답, 해설 구조 데이터를 기반으로 풀이 과정까지 설명할 수 있는 수학 특화 AI 개발

고난도 추론 평가 및 벤치마크 구축

검증된 고난도 수학 문항을 기반으로 모델의 추론 성능을 정밀하게 평가하는 벤치마크 구축