서강대 김종락 교수 연구팀이 실시한 수학 문제 해결 능력 평가에서 국내 국가대표 AI 도전팀들의 대형언어모델(LLM)이 해외 모델 대비 현저히 낮은 성능을 보인 것으로 나타났습니다.
15일 연구팀은 국내 5개 팀의 주요 LLM과 해외 5개 모델을 대상으로 수능 수학 20문제와 논술 30문제를 출제해 성능을 비교 분석한 결과를 발표했습니다.
기사의 이해를 돕기 위한 자료 사진 / gettyimagesBank
평가에 사용된 문제는 수능 공통과목, 확률과 통계, 미적분, 기하 영역에서 가장 어려운 문항 5개씩을 선별한 20문제와 국내 10개 대학 기출문제, 인도 대학입시 10문제, 일본 도쿄대 공대 대학원 입시 수학 10문제로 구성된 논술 30문제로 총 50개 문제였습니다.
국내 모델로는 업스테이지의 '솔라 프로-2', LG AI연구원의 '엑사원 4.0.1', 네이버의 'HCX-007', SK텔레콤의 'A.X 4.0(72B)', 엔씨소프트의 경량모델 '라마 바르코 8B 인스트럭트'가 참여했습니다.
해외 모델로는 GPT-5.1, 제미니 3 프로 프리뷰, 클라우드 오푸스 4.5, 그록 4.1 패스트, 딥시크 V3.2가 활용됐습니다.
평가 결과 해외 모델들은 76~92점의 높은 점수를 기록한 반면, 국내 모델 중에서는 솔라 프로-2만이 58점을 획득했고 나머지 모델들은 20점대의 저조한 성과를 보였습니다. 특히 라마 바르코 8B 인스트럭트는 2점으로 가장 낮은 점수를 받았습니다.
연구팀은 국내 5개 모델의 경우 단순 추론만으로는 문제 해결이 어려워 파이선을 툴로 활용하도록 설계해 문제 적중률을 높였음에도 이같은 결과가 나왔다고 설명했습니다.
추가로 진행된 자체 개발 문제 세트 '엔트로피매스'(EntropyMath) 평가에서도 비슷한 양상이 나타났습니다.
대학교 수준부터 교수급 논문 연구 수준까지 난이도를 세분화한 100문제 중 10문제를 선별해 실시한 평가에서 해외 모델은 82.8~90점을 기록했지만, 국내 모델은 7.1~53.3점에 그쳤습니다.
수능 20문제+논술 30문제 풀이 결과 /
세 차례 문제 풀이 기회를 제공한 평가에서는 그록이 만점을 기록했고 나머지 해외 모델들도 90점을 달성했습니다.
반면 국내 모델 중에서는 솔라 프로-2가 70점, 엑사원이 60점을 받았고, HCX-007은 40점, A.X 4.0은 30점, 라마 바르코 8B 인스트럭트는 20점을 기록했습니다.
김종락 교수는 "주위에서 왜 수능 문제에 대한 국내 5개 소버린 AI 모델 평가가 없는지 문의가 많아 팀원들과 테스트를 진행했다"며 "국내 모델 수준이 해외 프런티어 모델보다 많이 뒤처짐을 알 수 있었다"고 설명했습니다.
엔트로피매스 10문제 풀이 결과 / 김종락 교수팀 제공.
연구팀은 이번 평가에 사용된 국내 5개 모델이 기존 공개 버전인 만큼, 각 팀의 국가대표 AI 버전이 새로 공개되면 자체 개발 문제로 다시 성능을 테스트할 계획이라고 밝혔습니다.
김 교수는 "엔트로피매스 데이터세트를 기반으로 수학 리더보드를 개설했으며 이를 국제적인 수준으로 키울 것"이라며 "자체 개발 문제 생성 알고리즘과 파이프라인을 개선해 수학뿐 아니라 과학, 제조, 문화 도메인 데이터세트를 생성해 도메인 특화 모델 성능 개선에 기여할 것"이라고 말했습니다. 이번 실험은 서강대 수리과학 및 데이터사이언스 연구소(IMDS)와 딥파운틴에서 공동 지원했습니다.